Petites données vs. grandes données (compte rendu du séminaire EHESS d'Antonio Casilli, RSLN, 05 mars 2012)

Dans Regards sur le Numérique, le magazine en ligne de Microsoft France, Claire Abrieux propose un compte rendu de l’intervention d’Antonio Casilli, auteur de Les liaisons numériques. Vers une nouvelle sociabilité ? (Seuil) dans le cadre du séminaire EHESS Étudier les cultures du numérique : approches théoriques et empiriques. Pour voir les slides du séminaire, cliquer ici.

 

Small data contre Big Data : quand David rencontre Goliath

Qu’apportent les Big Data aux sciences sociales ? Ces énormes masses de données sont-elles fiables et permettent-elles une analyse fine ? Comment les exploiter ?

C’est à ces questions que s’est attaché Antonio Casilli, sociologue, maître de conférences en digital humanities à ParisTech, chercheur associé au Centre Edgar-Morin (EHESS) – et que vous connaissez bien si vous nous lisez régulièrement -, lors d’une séance de son séminaire « étudier les cultures numériques » le 15 février dernier.

Au programme : une méthode analytique particulière, la méthode ethno-computationnelle, qui se conjugue avec une approche alternative des données.

Plébiscités dans de nombreux domaines, de l’esthétique à l’urbanisme, les Big data semblent pourtant rencontrer de la résistance en sciences sociales. Pourquoi ?
> Les limites des Big Data en sciences sociales

Pour Antonio Casilli, l’enthousiasme des chercheurs pour les Big Data – cette avalanche de données disponibles, notamment grâce à l’open data – est tout sauf unanime.

Avec Paola Tubaro, il en critique, notamment les limites en sciences sociales. Et ce n’est pas le seul : danah boyd a également appelé récemment à plus de distance et de critique vis-à-vis de ces données.

Une des premières questions posée par les Big Data est celle de leur objectivité : l’exploration automatique de grandes quantités de données pour en extraire un ou plusieurs fils conducteurs n’est pas sans poser la question de l’origine et de la qualification des données existantes.

Les données sont souvent présentées comme « brutes », mais ne le sont jamais complètement. Pour lui, traiter automatiquement les données revient à partir avec un biais méthodologique. Données dont, de plus, la qualité n’est pas toujours vérifiable. Surtout les data venant de grandes bases propriétaires (produites, par exemple, par les géants du Web et les médias sociaux) ne sont pas suffisamment documentées et finissent par générer un effet de boite noire.

L’exploitation de ces Big data pose également problème : elles s’accordent mal avec les techniques traditionnelles en sciences sociales en raison de la masse des informations disponibles. Comme le note Antonio Casilli, les Big data modifient la théorie mais ne doivent en aucun cas l’évacuer. Pour ne pas toujours céder à une recherche dirigée par les données (data-driven), il est important de préserver le rôle essentiel de la théorie dans le travail des chercheurs (theory-driven).

Vient enfin, la question éthique : le fait de stocker des grandes masses de fichiers relatifs à des populations vulnérables ou à des questions sensibles va souvent à l’encontre des normes sur l’informatique et les libertés. De plus, comment avoir accès aux données sur les populations qui ne sont pas connectées ? Ou qui sont très faiblement représentées ? Pour Antonio Casilli, les Big Data ont le désavantage d’exposer les chercheurs à ce qu’il appelle « une fracture des données ». Au point d’empêcher peut-être demain certains n’ayant pas accès à ces données, de réaliser un travail pertinent ?

Mais ces limites ne doivent pas occulter le potentiel des Big data, qui ont beaucoup à apporter dans d’autres domaines, poursuit le chercheur : pour la recherche en sciences « dures », en particulier en génomique ou en sciences de la terre. En ce qui concerne les sciences sociales, le potentiel est là mais il reste à inventer un autre modèle de création et d’analyse des données.
> La méthode ethno-computationnelle : une alternative aux Big data ?

Antonio Casilli et Paola Tubaro adoptent une méthode dite « ethno-computationnelle » qui a entre autres l’avantage de prendre en compte certaines des limites des Big Data. Cette méthode est basée sur une approche particulière de l’agent based modeling. L’agent based modeling est une méthode utilisée pour simuler les interactions d’agents autonomes et pour visualiser leurs effets sur un système social. A partir de données ethnographiques récoltées sur le terrain –données qualitatives, denses et dirigées- les chercheurs créent des simulations multi-agents.

Voilà ce que cela donne en pratique :

Source : Tubaro, P., & Casilli, A. A. (2010). ‘An Ethnographic Seduction’: How Qualitative Research and Agent-based Models can Benefit Each Other Bulletin de Méthodologie Sociologique, 106 (1), 59-74

Comment la méthode ethno-computationnelle fonctionne-t-elle ?

1- A partir d’un phénomène social observé (social process), les chercheurs émettent des hypothèses de recherche (hypotheses).

2- Les données sont ensuite collectées sur le terrain (empirical data).

3- A partir de ces données, les chercheurs formulent une théorie (theory).

4- Vient alors la phase de construction d’un modèle basé sur les actions et interactions des agents. En clair, la méthode propose de partir de « petites » données pour construire un modèle (agent-based model).

5- Ce modèle est testé et les résultats obtenus sont vérifiés à l’aune des données empiriques de départ (test).

6- Les chercheurs simulent de plus grands jeux de données en décompressant des petites données à l’aide du modèle construit. Ils peuvent alors obtenir des « Big Data » à partir de « Small data ».
> Les avantages d’une méthode non-prospective

Le principal avantage de cette méthode est de permettre de conduire des terrains qualitatifs, et par conséquent de collecter des ensembles de données denses et dirigées. Mais elle a d’autres avantages :

« En général, les simulations multi-agents sont utiles pour étudier des phénomènes sociaux complexes, qui ne procèdent pas de manière linéaire » explique Antonio Casilli.

Prenez le cas des émeutes de Londres, Paola Tubaro et Antonio Casilli avaient alors utilisé la méthode ethno-computationnelle pour simuler les conséquences négatives de la censure des médias sociaux … sans devoir attendre que la censure soit effectivement mise en place – et nous l’avaient expliqué en détails.

Cette méthode permet également d’étudier des populations sensibles, qu’il est difficile d’approcher ou sur lesquelles il est complexe d’obtenir des données.

« Dans le cadre de notre projet « Les sociabilités Anamia », nous étudions des communautés de personnes souffrant de troubles alimentaires qui créent des réseaux d’entraide en ligne. Nous ne pouvons pas les investir par une fouille de données massive : ceci ne serait pas éthique et aurait des biais trop importants. D’où l’intérêt de travailler avec des « small data » et à partir de là d’effectuer des simulations.»

Enfin, il s’agit d’une méthode qui sert avant tout à effectuer des expériences de pensée. Elle produit des scénarios alternatifs par rapport à la réalité empiriquement observée, mais ces scénarios ne sont guère des prédictions :

« Ils représentent des alternatives possibles qui, croisés avec les données des observations, nous fournissent des comparaisons additionnelles qui nous aident à repenser – à re-incadrer théoriquement – les phénomènes sociaux étudiés. De ce point de vue-là, les simulations multi-agents sont, pour reprendre l’expression du géographe Arnaud Banos, des béquilles pour l’esprit humain. »