data

Economie et politique des plateformes numériques : le programme de mon séminaire #ecnEHESS 2016-17

FINALLY ! Pour la neuvième année consécutive, mon séminaire Étudier les cultures du numérique : approches théoriques et empiriques (#ecnEHESS) ouvre ses portes le 21 novembre 2016 à l’EHESS de Paris. Pour récompenser votre patience, le programme de cette année réserve plus d’une surprise : des intervenants internationaux pour une réflexion sur l’impact politique du numérique, avec des séances spéciales sur la surveillance de masse, sur l’économie et l’idéologie des plateformes, sur les libertés fondamentales à l’heure d’internet.

Comme toujours, les inscriptions sont ouvertes aux auditeurs libres : il suffit d’envoyer un petit mail gentil via ce formulaire. La première séance aura lieu le lundi 21 novembre 2016, EHESS. Les séances successives, le troisième lundi de chaque mois de 17h à 20h.

ATTENTION : changement d’adresse. Cette année le séminaire se déroulera au 96 bd Raspail 75006 Paris, salle M. & D. Lombard. NB: la séance de fin d’année aura lieu le mercredi 14 décembre 2016. Pour plus de précisions sur les dates et les salles (et pour d’éventuels changements), se référer à la page de l’enseignement.

Programme

 platform 21 novembre 2016
Christophe Benavent (Paris Nanterre)
Gouvernementalité algorithmique des plateformes
 lloirns 14 décembre 2016
Isabelle Attard (députée citoyenne du Calvados) et Adrienne Charmet (La Quadrature du Net)
Internet, surveillance et libertés fondamentales en France
 ideology 16 janvier 2017
Benjamin Loveluck (Télécom ParisTech)
Idéologies et utopies du numérique
 workfutur 20 février 2017
Mark Graham (Oxford Internet Institute) et Karen Gregory (University of Edinbugh)
Global platforms and the future of work
 gafa 20 mars 2017
Nikos Smyrnaios (Université Toulouse 3)
Stratégies et logique des GAFAM
 mturk 10 avril 2017
Mary Gray (Microsoft Research)
Behind the API: Work in On-Demand Digital Labor Markets
 datanomix 15 mai 2017
Louis-David Benyayer (Without Model) et Simon Chignard (Etalab)
Les nouveaux business models des données
 magna 19 juin 2017
Juan Carlos De Martin (NEXA Center for Internet & Society)
Looking back at the 2015 ‘Declaration of Internet Rights’

[Slides séminaire #ecnEHESS] Mechanical Turk et le travail invisible des données (7 mars 2016)

Pour la séance du 7 mars 2016 de mon séminaire EHESS Etudier le cultures du numérique, j’ai eu le plaisir d’accueillir Jérôme Denis (Télécom ParisTech, co-auteur de Petite sociologie de la signalétique, 2010) et Karën Fort (Université Paris-Sorbonne, porteuse du projet ZombiLingo). Une intervention d’Elinor Wahal (Université de Trento) a complété leurs exposés.

Résumé : Les plus fervents avocats et les plus féroces critiques des projets de big data ou d’open data partagent l’idée que les données sont des entités informationnelles solides et puissantes. Qu’elles soient décrites comme un pétrole, comme un déluge, ou comme une technologie de gouvernance, celles-ci semblent toujours appréhendées dans un cadre positiviste, qui fait de leur existence et de leurs propriétés des évidences. Pourtant, celles et ceux qui « produisent, » «  saisissent »  ou « nettoient » des données savent que leur existence et leur circulation passent par des opérations délicates et coûteuses. Je propose d’explorer cet aspect méconnu des données en montrant d’abord que l’histoire de l’émergence des données dans les organisations est étroitement liée à la mécanisation et à l’invisibilisation du travail de l’information. À partir de deux études ethnographiques (dans une banque et dans une start-up), je mettrais ensuite en lumière quelques dimensions de ce travail et des conditions de son invisibilisation. À travers ce parcours, je tâcherai de donner à comprendre l’écologie du visible et de l’invisible qui est en jeu dans le processus fragile et incertain par lequel des choses très différentes, souvent indéfinies, deviennent progressivement et temporairement des données.

Résumé : Dans le cadre des travaux des étudiants du séminaire, une intervention sur les plateformes de micro-travail a été assurée par Elinor Wahal (EHESS/Univ. Trento).

Capture d’écran 2016-03-13 à 11.09.51

Karën Fort – Ce qu’Amazon Mechanical Turk fait à la recherche : l’exemple du Traitement Automatique des Langues

Résumé : La plateforme de myriadisation du travail parcellisé (microworking crowdsourcing) Amazon Mechanical Turk permet aux chercheurs de déposer des micro tâches (Human Intelligence Tasks) pour les faire réaliser par des travailleurs (des Turkers) pour une micro-rémunération. Le traitement automatique des langues (TAL) étant très gourmand en ressources langagières (lexiques, corpus annotés, etc), les chercheurs du domaine se sont rapidement emparés de cette plateforme pour produire des données à bas coût. Nous montrerons que cette évolution n’est pas sans conséquence sur la recherche, en termes de qualité et d’éthique. Enfin, nous présenterons les réactions et les alternatives proposées, notamment par le biais des sciences participatives et nous vous présenterons le projet Zombilingo.

 

Dans le Cahier IP – CNIL (17 nov. 2015)

Dans le Cahier Innovation CNIL “Les Données, Muses & Frontières de la Création” j’ai le plaisir d’être interviewé avec le collègue Dominique Cardon au sujet d’algorithmes, big data, et digital labor.

CahiersIP_CNILClick to enlarge

Lire, écouter, regarder et jouer en ligne à l’heure de la personnalisation : découvrez le nouveau cahier IP

17 novembre 2015

Nos consommations de contenus culturels dématérialisés deviennent massivement productrices de données. Ce nouveau cahier IP alimente le débat sur la place des algorithmes dans nos choix et sur les manières de redonner du contrôle aux utilisateurs.

Les industries culturelles et créatives ont été les premières à connaître de profondes mutations sous l’impulsion des usages numériques et de la dématérialisation des contenus. Elles constituent ainsi un formidable laboratoire de la mise en données du monde, au-delà de l’image réductrice des données comme « pétrole de l’économie numérique ».

Aujourd’hui, la plus-value des services de distribution de contenus culturels et ludiques dématérialisés se concentre dans leur capacité à analyser les habitudes de consommation des utilisateurs à des fins de personnalisation.

  • 2/3 tiers des utilisateurs de services de streaming musical ou de vidéo à la demande sur abonnement (dite « SVOD ») utilisent et apprécient les recommandations (étude Médiamétrie réalisée pour la CNIL, octobre 2015).

Pour Isabelle Falque-Pierrotin, Présidente de la CNIL :

« la lecture, la musique, les films et les séries mais aussi sans doute les jeux vidéo, bien au-delà du divertissement qu’ils nous procurent, ne sont-ils pas les lieux par excellence où ne cesse de s’élaborer et de se réinventer notre identité ? Les œuvres se situent au carrefour du plus collectif et du plus intime, au cœur de nos destins publics autant que personnels ».

Extrait de la page 23 du cahier IP

La « magie » des algorithmes ?

Indispensables pour naviguer dans l’immensité des catalogues de contenus, les algorithmes peuvent tout autant favoriser la découverte qu’enfermer les individus dans des goûts stéréotypés ou des horizons limités.

  • Près d’un utilisateur sur deux s’est d’ailleurs déjà demandé sur quelle base étaient produites ces recommandations.

Le 3ème cahier IP explore cette utilisation intensive des données personnelles au travers de tendances clefs et émergentes, d’interviews d’experts (Nicolas Curien, Eric Schérer, Olivier Ertzscheid, Dominique Cardon, Antonio Casilli) et de scénarios exploratoires.

Il analyse en particulier:

  • la diversité des modèles économiques  et le rôle croissant que les données y tiennent
    • Partie 1 INDUSTRIES CRÉATIVES, CONTENUS NUMÉRIQUES ET DONNÉES
  • la nature des données utilisées dans les usages actuels et émergents pour chacun des secteurs
    • Partie 2 LES CONTENUS CULTURELS VUS AU TRAVERS DU PRISME DES DONNÉES
  • les mythes et réalités de la recommandation et « fact-check » sur la « magie » des algorithmes
    • Partie 3 LE GRAAL DE LA RECOMMANDATION ET DE LA PERSONNALISATION
  • 4 scénarios explorant les futurs possibles du couple « données + culture » => Partie 4 DEMAIN, QUELLES CRÉATIONS ET QUELS USAGES DATA-DRIVEN ?

Outiller l’individu pour innover dans l’expérience utilisateur

Ce cahier se veut aussi un appel à l’innovation des acteurs économiques.

Pour ces entreprises qui misent tout sur l’expérience utilisateur, relever le défi de l’éthique et de la confiance passe aussi par des informations plus claires et la mise à disposition d’outils innovants (portabilité, tableaux de bord, politiques de confidentialité lisibles et illustrées).

Pour créer des expériences d’usage « sans frictions » les plateformes doivent renforcer leurs efforts de transparence et de loyauté, en particulier en ce qui concerne les algorithmes.

Privacy is not dying, it is being killed. And those who are killing it have names and addresses

Quite often, while discussing the role of web giants in enforcing mass digital surveillance (and while insisting that there is a cultural and political war going on around privacy and technology), I am asked this question: “If people are not willing to be spied upon, how come they aren’t out in the streets protesting tech companies’ privacy invasions?”. To which I reply: “Sure they are!”

Case in point: as part of a larger San Francisco Bay Area anti-Google campaign, protesters have started organizing rallies outside houses of Google Street View developers.

I’m not endorsing these protest tactics (they display deontological ambiguity, plus the flyer they distributed is pure rambling). I’m just pointing them out as examples of ongoing struggles. To paraphrase Utah Phillips: “Privacy is not dying, it is being killed. And those who are killing it have names and addresses.” Activists know these addresses, and protest outside them.

Further reading: my latest book Against the hypothesis of the « end of privacy » in social media: An agent-based modeling approach, co-authored with Paola Tubaro and Yasaman Sarabi, just published by Springer.

Google et son 'data center pirate' : vers une extraterritorialité fiscalement optimisée ? [Updated 01.11.2013]

Aux dernières nouvelles, Google serait en train de construire un datacenter flottant ! CNET a publié un article, amplement repris dans la presse internationale, à propos de ce projet top secret hébergé dans un mystérieux hangar de l’inaccessible Treasure Island. Le site étasunien n’y va pas par quatre chemins :

Google did not respond to multiple requests for comment. But after going through lease agreements, tracking a contact tied to the project on LinkedIn, talking to locals on Treasure Island, and consulting with experts, it’s all but certain that Google is the entity that is building the massive structure that’s in plain sight, but behind tight security. Could the structure be a sea-faring data center? One expert who was shown pictures of the structure thinks so…

Cela pourrait ressembler au début d’un roman de Robert Reed, mais l’idée est tout sauf anecdotique. Certes, le hangar en question n’est qu’un bâtiment jusque là utilisé pour tourner des films, sur une petite île artificielle dans la baie de San Francisco, anciennement de propriété de la marine militaire américaine. En revanche, il est vrai qu’en 2009 Google a obtenu un brevet pour un datacenter aquatique.

https://www.google.com/patents/US7525207

Brevet US7525207 – Water-based data center – Google Brevets

Le journaliste de CNET, Daniel Terdiman, déploie des efforts considérables pour analyser les aspects logistiques de l’opération immobilière sous-jacente à ce projet aux implications multiples. Une structure flottante de ce type, représenterait avant tout une prouesse technologique, une solution avancée pour alimenter et refroidir, grâce à l’eau de mer, les serveurs hébergeant les données.

Paradis (fiscaux) de données

Même si, à la fin de la lecture on peut rester assez sceptique sur toute cette histoire, on ne peut pas s’empêcher de constater qu’un aspect significatif a été passé sous silence autant par la presse américaine que par celle française : celui du statut légal et fiscal d’une telle structure. Pourtant, au lendemain du dépôt de brevet par la firme de Mountain View, une analyse détaillée avait été publiée sur le Journal of Law, Technology & Policy de la University of Illinois. Le titre de cette note, “Paradis de données maritimes: Le navire pirate breveté par Google”, ne laisse pas de doutes quant à son orientation critique.

Voilà un extrait, assez représentatif :

The prospect that offshore data havens will undermine regulatory regimes is of such concern that, even a decade ago, the European Council outlawed “transborder flows of personally identifiable data” between the European Union and jurisdictions having “inadequate” data protection standards. The potential for wily entrepreneurs to misuse such transborder informational flows has again been increased by the capacities of Google’s ocean-going data center. (p. 364-365)

Le texte se penche tout particulièrement sur les cas d’infractions au code de la propriété intellectuelle ou sur les situations plus extrêmes de violation de la législation nationale des Etats-Unis. Selon la Convention des Nations Unies sur le Droit de la Mer de 1994, les Etats peuvent appliquer leur législation seulement dans la limite de la mer territoriale et zone contiguë. Mais force est d’admettre que l’exercice de la législation extraterritoriale doit toujours s’accorder avec les principes du droit international. Outre cela, le fait même d’entretenir des échanges commerciaux avec les résidents d’une nation oblige les entreprises à respecter les lois de cette juridiction. Bref, les Etats-Unis peuvent continuer à se fier de leur géant du Web préféré : Google ne risque pas de devenir une autre Pirate Bay ou une autre Silk Road.

In general, U.S. Courts have held that “different results should not be reached simply because business is conducted over the Internet” even if the source of the electronic data is outside of the end user’s or the court’s jurisdiction. Conducting electronic commerce with residents of a jurisdiction constitutes availment of that government’s benefits and so empowers its courts to reach beyond their customary jurisdictions to grasp accused offenders in other regions. (p. 371)

Mais la question de la fiscalité d’un “paradis de données” offshore est quelque peu différente, surtout si l’on adopte une prospective moins américanocentrique. Le marché des datacenters extraterritoriaux n’est pas une découverte récente. Déjà à la fin des années 1990, le service britannique de stockage supersécurisé de données, HavenCo, s’était brièvement installée dans la micro-nation de Sealand (une plateforme au large du Royaume-Uni). D’autres datacenters prospèrent dans des nations comme Anguilla (un territoire britannique d’outre-mer situé dans la Caraïbe Orientale), qui en plus d’offrir un traitement fiscal avantageux n’adhèrent pas à la Convention de Berne ni à l’accord sur les ADPIC, qui règle l’utilisation commerciale des bases de données. Des expériences de ce type ont aussi été menés dans d’autres pays sans extradition vers les Etats-Unis : à Antigua-et-Barbuda, à Curaçao, à la Grenade et en République dominicaine (Antilles), ainsi qu’au Bélize et au Costa Rica. Pour la petite histoire, et sans vouloir forcément y voir un lien, ces pays se situent à quelques heures d’avion d’un autre territoire britannique d’outre-mer : l’archipel des Bermudes, où ces derniers années Google a activement optimisé sa situation fiscale

Grâce à un arrangement connu comme le « double irlandais », en orchestrant des payements entre filiales dans divers pays, Google a réussi a tenir son taux d’imposition entre 2,4% et 3,2% dans les années passées. Les britanniques ne sont pas contents, les irlandais sont sur le pied de guerre et les français sont à la tête d’un mouvement international pour la fiscalité numérique.

Reconnaître le digital labor pour ramener sur terre les géants du web

Or, s’il vous est arrivé de jeter un œil sur le rapport sur la fiscalité de l’économie numérique que Pierre Collin et Nicolas Colin ont rendu à Bercy en janvier 2013, vous savez que la limite principale à laquelle se heurte un projet de taxation des entreprises du numérique qui soit cohérent avec leur chiffre d’affaires réel est la difficulté d’identifier leur “établissement stable”. L’établissement stable n’est pas le siège de ces entreprises, mais une permanence au moyen de laquelle des bénéfices sont réalisés. Si cette permanence se trouve sur le territoire d’un pays, on dira alors que l’entreprise “est exploitée” dans ledit pays, et que là son impôt sur les sociétés est dû.

Le principe de territorialité, qui se trouvait déjà mis à mal, tombe à l’eau (c’est une façon de parler) si on imagine un scénario d’ “établissements aquatiques” où les données sont traitées et commercialisées. En effet la notion d’établissement stable, nous le rappellent les rédacteurs du rapport, “est marquée par les concepts économiques de l’après‐guerre et s’avère inadaptée à l’économie  numérique” (p. 3). Comme les entreprises du secteur numérique découplent méthodiquement le lieu d’établissement du lieu de consommation, il devient quasi impossible de localiser la place de création de valeur. Si, par surcroît, cette place devient flottante, la situation se complique terriblement…

Pour remédier à cela, le rapport Collin/Colin fait une proposition assez révolutionnaire : il prend le parti de déclarer que l’établissement stable se situera conventionnellement sur le territoire d’un Etat lorsque l’entreprise en question exerce une activité au moyen de données extraites du suivi régulier et systématique des internautes sur ce même territoire.

Les informations personnelles révélées par les utilisateurs sont la ressource principale des géants du Web, extraites et traitées algorithmiquement pour être monétisées sur le marché international. Reconnaître la stabilité de l’établissement des entreprises du numérique sur la base des données produites par ses utilisateurs, revient à reconnaître le digital labor de ces derniers. Si vous lisez ce blog, cette notion ne vous est pas étrangère : elle consiste à assimiler toute activité en ligne, de la plus spécialisée et orientée professionnellement à la plus banale et ludique, à du travail fourni par les utilisateurs aux propriétaires des plateformes d’Internet. Selon certains, ce travail invisible et quotidien devrait apporter une véritable rémunération, à verser aux usagers sous forme de salaire (c’est la position plus marquée à gauche, défendue par Andrew Ross en 2012), voire de royalties (c’est la proposition d’orientation néo-libérale faite par Jaron Lanier l’année suivante).

La solution fiscale française serait, une troisième voie : une manière de faire revenir, quoique indirectement, la valeur extraite d’une collectivité à la collectivité même qui l’a faite émerger. Si cette nouvelle acception du concept était adoptée, la question de l’extraterritorialité (flottante ou bien de terre ferme) serait écartée de l’équation.

Post-script 01 nov. 2013 : Le site web Ars Technica publie un article dans lequel une hypothèse alternative est proposée : le mystérieux projet aquatique ne serait qu’un énorme navire-showroom pour la promotion de Google Glass. A suivre…

Qu’est-ce que le Digital Labor ? [Audio + slides + biblio]

UPDATE : Qu’est-ce que le digital labor ? est désormais un ouvrage, paru aux Editions de l’INA en 2015. Dans cet ouvrage je passe en revue les études sur le travail des internautes en compagnie de Dominique Cardon.

Audio :

La notion de digital labor fait désormais l’objet de plusieurs publications et colloques de part et d’autre de l’Atlantique. Mais elle reste encore méconnue en France. Le 12 mars 2012, j’ai assuré une intervention lors de la journée co-organisée par la DGT, la DIRECCTE et la Fing Risques et opportunités des transformations du travail à l’ère du numérique.  Voilà l’enregistrement audio :

Digital labor via Réseau FING

Pour aller plus loin, lien vers Digital labor : portrait de l’internaute en travailleur exploité, l’émission du 8 décembre 2012 de Place de la Toile sur France Culture, que nous avons concoctée avec Xavier de la Porte, Yann Moulier-Boutang et Thibault Henneton.

Slides :

Le 26 mars, à l’invitation d’Alexandra Bidet (CNRS), je suis intervenu sur le même sujet au Collège des Bernardins dans le cadre des travaux du séminaire L’entreprise: propriété, création collective, monde commun (Département EHS).

TITRE : Qu’est-ce que le Digital labor ?

INTERVENANT : Antonio A. CASILLI (Telecom ParisTech / EHESS)

RESUME : La parution récente de l’ouvrage ‘Digital Labor. The Internet as playground and factory’, dirigé par Trebor Scholz couronne plusieurs années de recherches et fait connaître au public international un domaine émergent de réflexion autour de l’économie de la contribution d’Internet. Face aux exaltations du “don et contre-don hi-tech” et du rôle des amateurs (qui avaient marqué les études des usages TIC respectivement de la première et de la deuxième partie des années 2000), les théoriciens du digital labor pointent l’apparition d’activités sur les réseaux socio-numériques lesquelles, en tant que productrices de valeur, peuvent s’assimiler à du travail. C’est un travail banal, non spécialisé et à faible valeur marginale, comme effectuer des recherches sur Google, poster un lien sur Twitter, évaluer un produit. Mais c’est bien l’activité qui permet la création d’énormes bases de données exploitables par les géants du Web comme Facebook, ou fait vivre des plateformes d’externalisation massive du travail (crowdsourcing) comme Amazon MTurk. A partir de ce constat, bien des questions se posent : comment ce “travail numérique” réinterroge la notion même du travail et de la (co)production de la valeur ? peut-on parler d’exploitation ? nos vieux cadres d’analyse, nous permettent-ils de penser ce qui se joue là, voire de définir les contours d’un “capitalisme cognitif” ?

(more…)

Petites données vs. grandes données (compte rendu du séminaire EHESS d'Antonio Casilli, RSLN, 05 mars 2012)

Dans Regards sur le Numérique, le magazine en ligne de Microsoft France, Claire Abrieux propose un compte rendu de l’intervention d’Antonio Casilli, auteur de Les liaisons numériques. Vers une nouvelle sociabilité ? (Seuil) dans le cadre du séminaire EHESS Étudier les cultures du numérique : approches théoriques et empiriques. Pour voir les slides du séminaire, cliquer ici.

 

Small data contre Big Data : quand David rencontre Goliath

Qu’apportent les Big Data aux sciences sociales ? Ces énormes masses de données sont-elles fiables et permettent-elles une analyse fine ? Comment les exploiter ?

C’est à ces questions que s’est attaché Antonio Casilli, sociologue, maître de conférences en digital humanities à ParisTech, chercheur associé au Centre Edgar-Morin (EHESS) – et que vous connaissez bien si vous nous lisez régulièrement -, lors d’une séance de son séminaire « étudier les cultures numériques » le 15 février dernier.

Au programme : une méthode analytique particulière, la méthode ethno-computationnelle, qui se conjugue avec une approche alternative des données.

Plébiscités dans de nombreux domaines, de l’esthétique à l’urbanisme, les Big data semblent pourtant rencontrer de la résistance en sciences sociales. Pourquoi ?
> Les limites des Big Data en sciences sociales

Pour Antonio Casilli, l’enthousiasme des chercheurs pour les Big Data – cette avalanche de données disponibles, notamment grâce à l’open data – est tout sauf unanime.

Avec Paola Tubaro, il en critique, notamment les limites en sciences sociales. Et ce n’est pas le seul : danah boyd a également appelé récemment à plus de distance et de critique vis-à-vis de ces données.

Une des premières questions posée par les Big Data est celle de leur objectivité : l’exploration automatique de grandes quantités de données pour en extraire un ou plusieurs fils conducteurs n’est pas sans poser la question de l’origine et de la qualification des données existantes.

Les données sont souvent présentées comme « brutes », mais ne le sont jamais complètement. Pour lui, traiter automatiquement les données revient à partir avec un biais méthodologique. Données dont, de plus, la qualité n’est pas toujours vérifiable. Surtout les data venant de grandes bases propriétaires (produites, par exemple, par les géants du Web et les médias sociaux) ne sont pas suffisamment documentées et finissent par générer un effet de boite noire.

L’exploitation de ces Big data pose également problème : elles s’accordent mal avec les techniques traditionnelles en sciences sociales en raison de la masse des informations disponibles. Comme le note Antonio Casilli, les Big data modifient la théorie mais ne doivent en aucun cas l’évacuer. Pour ne pas toujours céder à une recherche dirigée par les données (data-driven), il est important de préserver le rôle essentiel de la théorie dans le travail des chercheurs (theory-driven).

Vient enfin, la question éthique : le fait de stocker des grandes masses de fichiers relatifs à des populations vulnérables ou à des questions sensibles va souvent à l’encontre des normes sur l’informatique et les libertés. De plus, comment avoir accès aux données sur les populations qui ne sont pas connectées ? Ou qui sont très faiblement représentées ? Pour Antonio Casilli, les Big Data ont le désavantage d’exposer les chercheurs à ce qu’il appelle « une fracture des données ». Au point d’empêcher peut-être demain certains n’ayant pas accès à ces données, de réaliser un travail pertinent ?

Mais ces limites ne doivent pas occulter le potentiel des Big data, qui ont beaucoup à apporter dans d’autres domaines, poursuit le chercheur : pour la recherche en sciences « dures », en particulier en génomique ou en sciences de la terre. En ce qui concerne les sciences sociales, le potentiel est là mais il reste à inventer un autre modèle de création et d’analyse des données.
> La méthode ethno-computationnelle : une alternative aux Big data ?

Antonio Casilli et Paola Tubaro adoptent une méthode dite « ethno-computationnelle » qui a entre autres l’avantage de prendre en compte certaines des limites des Big Data. Cette méthode est basée sur une approche particulière de l’agent based modeling. L’agent based modeling est une méthode utilisée pour simuler les interactions d’agents autonomes et pour visualiser leurs effets sur un système social. A partir de données ethnographiques récoltées sur le terrain –données qualitatives, denses et dirigées- les chercheurs créent des simulations multi-agents.

Voilà ce que cela donne en pratique :

Source : Tubaro, P., & Casilli, A. A. (2010). ‘An Ethnographic Seduction’: How Qualitative Research and Agent-based Models can Benefit Each Other Bulletin de Méthodologie Sociologique, 106 (1), 59-74

Comment la méthode ethno-computationnelle fonctionne-t-elle ?

1- A partir d’un phénomène social observé (social process), les chercheurs émettent des hypothèses de recherche (hypotheses).

2- Les données sont ensuite collectées sur le terrain (empirical data).

3- A partir de ces données, les chercheurs formulent une théorie (theory).

4- Vient alors la phase de construction d’un modèle basé sur les actions et interactions des agents. En clair, la méthode propose de partir de « petites » données pour construire un modèle (agent-based model).

5- Ce modèle est testé et les résultats obtenus sont vérifiés à l’aune des données empiriques de départ (test).

6- Les chercheurs simulent de plus grands jeux de données en décompressant des petites données à l’aide du modèle construit. Ils peuvent alors obtenir des « Big Data » à partir de « Small data ».
> Les avantages d’une méthode non-prospective

Le principal avantage de cette méthode est de permettre de conduire des terrains qualitatifs, et par conséquent de collecter des ensembles de données denses et dirigées. Mais elle a d’autres avantages :

« En général, les simulations multi-agents sont utiles pour étudier des phénomènes sociaux complexes, qui ne procèdent pas de manière linéaire » explique Antonio Casilli.

Prenez le cas des émeutes de Londres, Paola Tubaro et Antonio Casilli avaient alors utilisé la méthode ethno-computationnelle pour simuler les conséquences négatives de la censure des médias sociaux … sans devoir attendre que la censure soit effectivement mise en place – et nous l’avaient expliqué en détails.

Cette méthode permet également d’étudier des populations sensibles, qu’il est difficile d’approcher ou sur lesquelles il est complexe d’obtenir des données.

« Dans le cadre de notre projet « Les sociabilités Anamia », nous étudions des communautés de personnes souffrant de troubles alimentaires qui créent des réseaux d’entraide en ligne. Nous ne pouvons pas les investir par une fouille de données massive : ceci ne serait pas éthique et aurait des biais trop importants. D’où l’intérêt de travailler avec des « small data » et à partir de là d’effectuer des simulations.»

Enfin, il s’agit d’une méthode qui sert avant tout à effectuer des expériences de pensée. Elle produit des scénarios alternatifs par rapport à la réalité empiriquement observée, mais ces scénarios ne sont guère des prédictions :

« Ils représentent des alternatives possibles qui, croisés avec les données des observations, nous fournissent des comparaisons additionnelles qui nous aident à repenser – à re-incadrer théoriquement – les phénomènes sociaux étudiés. De ce point de vue-là, les simulations multi-agents sont, pour reprendre l’expression du géographe Arnaud Banos, des béquilles pour l’esprit humain. »

Slides séminaire de Jérôme Denis : Villes, infrastructures et #opendata (EHESS, 18 janv. 2012)

Dans le cadre de mon séminaire EHESS Étudier les cultures du numérique : approches théoriques et empiriques, j’ai eu le plaisir d’accueillir pour une séance sur ville, infrastructure et données Jérôme Denis, sociologue, enseignant-chercheur à Télécom ParisTech, auteur (avec David Pontille) de l’excellent Petite sociologie de la signalétique (Presses de l’Ecole des mines, 2010) et co-animateur du blog Scriptopolis. Voici les slides de son intervention.

 

(more…)

27 theses on WikiLeaks (and counting…)

At first I thought WikiLeaks was all about data. Data-journalism. Data-mining. Raw data hacked, transfered, mirrored, etc. Cold-blooded, hard facts. Then I realized it is not. As any culturally and politically defining moment, WikiLeaks exposes our hunger for *theory*. Abstract, verbose, fact-insensitive theory.  Here are some examples, cherry-picked from the Web.

(more…)