[Slides séminaire #ecnEHESS] Mechanical Turk et le travail invisible des données (7 mars 2016)

Pour la séance du 7 mars 2016 de mon séminaire EHESS Etudier le cultures du numérique, j’ai eu le plaisir d’accueillir Jérôme Denis (Télécom ParisTech, co-auteur de Petite sociologie de la signalétique, 2010) et Karën Fort (Université Paris-Sorbonne, porteuse du projet ZombiLingo). Une intervention d’Elinor Wahal (Université de Trento) a complété leurs exposés.

Résumé : Les plus fervents avocats et les plus féroces critiques des projets de big data ou d’open data partagent l’idée que les données sont des entités informationnelles solides et puissantes. Qu’elles soient décrites comme un pétrole, comme un déluge, ou comme une technologie de gouvernance, celles-ci semblent toujours appréhendées dans un cadre positiviste, qui fait de leur existence et de leurs propriétés des évidences. Pourtant, celles et ceux qui « produisent, » «  saisissent »  ou « nettoient » des données savent que leur existence et leur circulation passent par des opérations délicates et coûteuses. Je propose d’explorer cet aspect méconnu des données en montrant d’abord que l’histoire de l’émergence des données dans les organisations est étroitement liée à la mécanisation et à l’invisibilisation du travail de l’information. À partir de deux études ethnographiques (dans une banque et dans une start-up), je mettrais ensuite en lumière quelques dimensions de ce travail et des conditions de son invisibilisation. À travers ce parcours, je tâcherai de donner à comprendre l’écologie du visible et de l’invisible qui est en jeu dans le processus fragile et incertain par lequel des choses très différentes, souvent indéfinies, deviennent progressivement et temporairement des données.

Résumé : Dans le cadre des travaux des étudiants du séminaire, une intervention sur les plateformes de micro-travail a été assurée par Elinor Wahal (EHESS/Univ. Trento).

Capture d’écran 2016-03-13 à 11.09.51

Karën Fort – Ce qu’Amazon Mechanical Turk fait à la recherche : l’exemple du Traitement Automatique des Langues

Résumé : La plateforme de myriadisation du travail parcellisé (microworking crowdsourcing) Amazon Mechanical Turk permet aux chercheurs de déposer des micro tâches (Human Intelligence Tasks) pour les faire réaliser par des travailleurs (des Turkers) pour une micro-rémunération. Le traitement automatique des langues (TAL) étant très gourmand en ressources langagières (lexiques, corpus annotés, etc), les chercheurs du domaine se sont rapidement emparés de cette plateforme pour produire des données à bas coût. Nous montrerons que cette évolution n’est pas sans conséquence sur la recherche, en termes de qualité et d’éthique. Enfin, nous présenterons les réactions et les alternatives proposées, notamment par le biais des sciences participatives et nous vous présenterons le projet Zombilingo.