Le phénomène Big Data

L’explosion quantitative des données numériques a obligé les chercheurs à trouver de nouvelles manières de voir et d’analyser le monde. Il s’agit de découvrir de nouveaux ordres de grandeur concernant la capture, la recherche, le partage, le stockage, l’analyse et la présentation des données. Ainsi est né le « Big Data ». Il s’agit d’un concept permettant de stocker un nombre indicible d’informations sur une base numérique. Selon les archives de la bibliothèque numérique de l’Association for Computing Machinery (ou ACM) dans des articles scientifiques concernant les défis technologiques à relever pour visualiser les « grands ensembles de données », cette appellation est apparue en octobre 1997.

Le Big Data, c’est quoi ?

Littéralement, ces termes signifient mégadonnées, grosses données ou encore données massives. Ils désignent un ensemble très volumineux de données qu’aucun outil classique de gestion de base de données ou de gestion de l’information ne peut vraiment travailler. En effet, nous procréons environ 2,5 trillions d’octets de données tous les jours. Ce sont les informations provenant de partout : messages que nous nous envoyons, vidéos que nous publions, informations climatiques, signaux GPS, enregistrements transactionnels d’achats en ligne et bien d’autres encore. Ces données sont baptisées Big Data ou volumes massifs de données. Les géants du Web, au premier rang desquels Yahoo (mais aussi Facebook et Google), ont été les tous premiers à déployer ce type de technologie.
The Theory/Data Thing

La fin de la théorie est proclamée sur plusieurs fronts, et le big data y est pour beaucoup. Chris Anderson proclame : "La théorie est morte, vive les données" ! En ainsi que toute théorie « du comportement humain, de la linguistique à la sociologie. Oubliez la taxonomie, l'ontologie et la psychologie. » Nous pouvons modéliser le monde et le comportement suffisamment bien pour ne pas avoir besoin d'intégrer les données dans la théorie afin de créer des opportunités pour plus de collecte de données. Le modèle est la chose. Toute la science est soumise aux nouvelles règles d'Anderson.

Et ces règles peuvent être très efficaces. Dans les sciences, cette approche fonctionne sans doute pour une grande partie de la science du climat, qui consiste moins à savoir pourquoi les choses se produisent que si nous pouvons rétro-acter, dépeindre et prédire avec précision. Pour ceux d'entre nous qui ont appris que la corrélation n'est pas une causalité, il y a une certaine réticence à examiner la possibilité que la corrélation soit fondamentalement assez bonne. Il est certain que nous passons du lien connaissance - pouvoir dépeint par Foucault à un lien données - action qui n'a pas besoin de passer par la théorie : tout ce dont il a besoin, ce sont des données avec des résultats préférés.

Si la science consiste à agir dans le monde, alors il y a sans aucun doute beaucoup de vertu à cette position. C'est de la psychologie : si tout ce qui nous importe est ce qui entre - le stimulus - et ce qui sort - la réponse alors pour être efficace, nous n'avons pas besoin de savoir ce qui se passe à l'intérieur du cerveau d'un individu. La mort de Freud et l'essor de la neuro-pharmacologie ont enraciné cela dans le milieu universitaire.

Les données sont le pouvoir. Cela conduit à ce que notre intelligence soit semblable à celle d'une colonie de fourmis, une apothéose sans doute triste. Les fourmis agissent comme si elles étaient intelligentes, en termes d'organisation de leurs colonies, d'élevage de champignons, etc., mais elles n'ont pas besoin de passer par la ratiocination pour atteindre ces objectifs. C'est la conscience globale comme instinct glorifié plutôt que comme perspicacité spirituelle. De même, du point de vue commercial, de nombreux systèmes de recommandation fonctionnent par corrélation des achats sans passer par les catégories des spécialistes du marketing - vous n'avez pas besoin de savoir si quelqu'un est un homme ou une femme, queer ou hétéro, vous avez juste besoin de connaître ses habitudes d'achats et de trouver des clusters similaires.
Mais il y a une série de problèmes que nous pouvons commencer à aborder si nous regardons Bruno Latour, qui plaide pour Gabriel Tarde contre Emile Durkheim. Ces derniers ont réifié la société et expliqué les corrélations constantes (par exemple, les taux de suicide) en tant que faits sociaux. Les conditions sociales ont des effets sociaux. La position de Tardean, pour Latour, consiste à remplacer les statistiques (étymologiquement, les faits sur l'État) par l'agrégation de clusters à la volée grâce à une analyse de données à grande échelle. Il n'est pas nécessaire d'aller « en dehors » des événements pour leur explication – nous n'avons pas besoin de supposer qu'il existe des catégories comme la société, la classe, l'ethnicité, etc. : tout dépend de la description d'une corrélation spécifique à un moment précis. Ainsi, pour Latour, comme pour les biologistes moléculaires et les spécialistes du marketing, il n'est pas nécessaire de faire appel à des catégories analytiques pour étudier et écrire sur les événements. (Je n'utilise délibérément pas « comprendre », puisque la compréhension est précisément ce qui est en jeu.)
Latour rétro- projette ici sur Tarde ses propres vues antérieures selon lesquelles la théorie de l'acteur-réseau n'est pas une théorie mais une façon d'aplatir toutes les catégories et de remplacer la théorie par la méthode. Il est le nec plus ultra de la tristement célèbre proclamation de Margaret Thatcher :

« Vous savez, la société n'existe pas.
Il y a des hommes et des femmes, et il y a des familles. »

Latour ajouterait simplement qu'il n'y a pas non plus de familles ou d'individus (ce dernier étant le point ontologique le plus intéressant).Donc, une question en deux parties: avons-nous besoin de théories, et les théories ont-elles besoin de catégories? Dans l'absolu fragile : ou pourquoi l'héritage chrétien vaut-il la peine de se battre? Žižek fournit une réponse à ces questions. Prenez d'abord la dimension sociale. Si nous acceptons l'ontologie sous-jacente selon laquelle nous sommes tous des individus (atomes) qui s'agrègent en groupes sans nom plutôt qu'en catégories, alors Žižek soutient que nous perdons certainement la capacité de reconnaître les forces constantes et significatives dans la « société » (que je mettrai entre guillemets). Il ne se trouve pas seulement qu'il y a une ponction nette de protéines et de ressources naturelles du tiers monde vers le premier, ni que les femmes aux États-Unis soient systématiquement moins payées pour la même qualité de travail que les hommes. Ces catégories représentent une réalité. Certes, ils ne devraient pas être essentialisés. Le clivage tiers monde - premier monde surplombe les régions de sous-développement intense aux États-Unis et, par exemple, des régions de grande richesse en Inde. De même, « femme » est une catégorie qui peut et doit être remise en question. Et pourtant... la vérité approximative et globale est qu'il n'y a pas de règles du jeu équitables pour l'un ou l'autre, au sens large. Aucun déluge de données n'expliquera ces vérités – au mieux, il peut aider à orienter les politiques pour atténuer l'injustice ; au pire (et le plus souvent), il peut nier qu'il existe effectivement de larges forces sociales.

Bon gré mal gré, notre monde social est un monde dans lequel les catégories ont une signification profonde. Il ne s'agit pas seulement des vérités sociales: on peut en dire ainsi pour les vérités dans les sciences naturelles. Un système de catégories comme le concept d'espèce est en effet très problématique; cependant, le comportement agrégé de la plupart des entités peut être décrit selon certaines dimensions comme si cette catégorisation était réelle. Dans les deux cas, le monde est structuré de manière à ce que les catégories aient des conséquences réelles. Donc, à certains égards, les catégories sont au cœur de la vie dans le monde. Le Big Data ne supprime pas du tout les catégories. Comme je l'ai fait valoir ailleurs, le terme « données brutes » est lui-même un oxymoron.

Antonia Walford écrit sur le travail qu'il faut pour transformer les données des capteurs de la forêt amazonienne en données manipulables dans les bases de données. Il y a un plénum de données : pour elle, l'art de la base de données scientifiques est de prendre cet assaut indifférencié et de l'évoquer en modèles : champs de données structurées, être, d'autres réalités.

Les archives ne peuvent en principe pas contenir le monde en petit ; sa finitude même signifie que la plupart des tranches de réalité ne sont pas représentées. La question théorique est de savoir quelles sont les formes d'exclusion et comment nous pouvons généraliser à leur sujet.

Prenez l'autre Amazon comme illustration. Si je suis défini par mes clics et mes achats et ainsi de suite, je suis représenté en grande partie comme une personne sans qualités autres que « consommateur avec goûts ». Cependant, créer un système qui m'enferme dans mes goûts me réduit considérablement. Les individus ne sont pas des catégories stables – les choses et les gens ne sont pas identiques à eux-mêmes au fil du temps. Le terme non examiné « individu » est ce qui structure la base de données et exclut de manière significative la temporalité.

GEOFFREY C. BOWKER