Une donnée est ce qui est connu et qui sert de point de départ à un raisonnement ayant pour objet la détermination d'une solution à un problème en relation avec cette donnée. Cela peut être une description élémentaire qui vise à objectiver une réalité, le résultat d'une comparaison entre deux événements du même ordre (mesure) soit en d'autres termes une observation ou une mesure[1].
La donnée brute est dépourvue de tout raisonnement, supposition, constatation, probabilité. Si elle est considérée comme indiscutable ou même si elle est indiscutée par méconnaissance, elle peut servir de base à une recherche, à un examen quelconque.
Les données pouvant être de nature très différentes suivant leur source, elles doivent souvent faire l'objet d'une transformation préalable avant traitement.
Jusqu'à il y a quelques siècles, l'être humain n'avait connaissance du monde réel qu'à travers la stimulation de ses sens naturels : la vue, l'ouïe, l'odorat, le goût et le toucher. Par la suite, grâce à l'informatique notamment il a pu déployer des systèmes capables de produire et traiter la donnée à sa place.
La technique utilisée aujourd'hui est la quantification numérique dans un système binaire, associée à des machines de traitement à deux états de fonctionnement. En clair, cela veut dire que le monde réel est vu par des capteurs dont la réponse continue ou discrète est traduite en nombres qui sont traités, c'est-à-dire traduits, par des ordinateurs.
Un travail est souvent fait sur les données brutes pour leur donner un sens et plus précisément un contexte afin de pouvoir les transformer en information[2]. Les données peuvent être :
- des résultats de mesure fonction d'un étalon de référence pouvant, associé à la manière de traiter les données, générer des biais sur l’interprétation finale (limites des sondages) ;
- des valeurs discrètes représentant l'état d'un système ;
- des informations logiques représentant un contexte non réel ;
- etc.
Le résultat du traitement sera souvent in fine soumis à l'interprétation d'un être humain et devra de ce fait être présenté sous forme adéquate, par exemple un graphique ou une liste de choix. Cela permettra à un être humain d'y associer un sens (une interprétation) et ainsi de créer une nouvelle information.
Caractériser les données
La définition des données soulève des questions importantes dans plusieurs disciplines scientifiques.
Étymologiquement, le terme donnée provient du latin datum qui signifie « donner »[3]. Comme le soulève Jensen en 1950, l'histoire aurait dû retenir capere, soit « capturer » en français[4]. En effet, pour la science il s'agit de sélectionner, de capturer dans l'existant plutôt que de comprendre la donnée comme quelque-chose de préalablement « donné »[5]. Cette différence historique met en évidence le caractère sélectif et partiel voir réductionniste inhérent à la donnée[5].
Plusieurs définitions hétérogènes existent et essayent de caractériser la donnée. Rob Kitchin (en), dans un chapitre dédié à la caractérisation des données[6], résume les différentes positions en deux points de vue divergents.
Selon Rosenberg, la donnée préexiste aux interprétations et argumentations qui la convertissent par la suite en faits. C'est-à-dire que si un fait est faux, il cesse d’être un fait. Néanmoins, une donnée fausse reste une donnée[5]. Cette vision rhétorique des données leur fournit plusieurs caractéristiques : elles sont abstraites, discrètes, agrégatives et surtout indépendantes de leurs formats et de leur contexte (qu'elle soit stockée dans une base de données ou dans un livre, la donnée reste la donnée)[6].
D'autres auteurs, et notamment le champ des études critiques des données, considèrent les données comme socialement construites[7]. Pour eux, les données sont une forme de pouvoir, elles sont dépendantes d'une idéologie, d'une façon de pensée inhérente à celui ou celle qui les collecte et les analyse[6].
La valeur des données
Depuis toujours, être informé le premier a été un avantage décisif, que ce soit en politique ou à la guerre. Évidemment, plus l'information est pertinente en rapport du contexte et plus l'avantage de celui qui la détient est poussé. À notre époque c'est toujours vrai dans ces domaines, d'autant plus que le temps de validité de l'information s'est considérablement raccourci, ce qui était pertinent la veille ne l'est plus forcément le lendemain.
Aujourd'hui, la donnée élémentaire qui sert à élaborer l'information est produite en très grand nombre, contrairement aux époques précédentes, et ne peut plus être traitée par les mêmes méthodes. Pour être exploitée la donnée initiale doit être transformée en code numérique ce qui dans un premier temps la banalise. Pour lui donner du sens il faut que l'humain la contextualise et l'interprète. Alors la donnée prend toute sa valeur et devient pertinente.
Les sociétés modernes sont organisées autour de la donnée que ce soit pour gérer leur économie ou leur politique. À l'ère du numérique, la capacité de collecte et de transport des données à très grande vitesse a été à l'origine du développement de moyens et de méthodes d'exploitation différentes de ceux qui étaient en vigueur il y a encore quelques années.
La notion de valeur affectée à ces données en a été bouleversée et quand on essaye de définir la valeur de cette unité élémentaire, on commence souvent par analyser une forme construite de la notion de la donnée ; on parle à tel propos d’open data, d’experimental data et de big data, mais combien vaut une donnée, entendue en tant que simple résultat de l'observation ou de mesure de la réalité ?
L'acquisition des données peut être liée à des transactions commerciales ou directes sans qu'il soit nécessaire d'effectuer une marchandisation. La valeur de la donnée réside alors dans son utilisation.
La valorisation de la donnée se fait à travers un processus capable à chaque étape de la transformation d'augmenter sa valeur directement ou par combinaison avec d'autres données. En général la finalité est l'exploitation par l'homme pour la prise de décision ou par un autre système permettant une commande de processus.
Le calcul[8] fait partie du processus de transformation par la machine et le jugement qualitatif qui appartient à l'humain fait partie de l'interprétation et donne la valeur objective à l'information finale[9].
Simon Chignard et Louis-David Benyayer ont essayé de créer une grille de lecture pour la quantification des données[10] en partant de trois conceptions de la valeur :
- La valeur est subjective : elle dépend de l'intérêt porté par l'humain qui va l'utiliser directement ou après transformation ;
- La valeur est co-construite : elle augmente à partir de l'instant ou elle rentre dans un processus de transformation, notamment à travers des études croisées, capables d'exprimer des concepts, d'où l'importance de la collaboration et de la coordination dans le processus de la valorisation des données ;
- La valeur est potentielle : elle donnera ou pas un avantage futur à ceux qui la détiennent.
À partir de ces axiomes, les données peuvent être interprétées à la lumière de trois formes de valeur.
Les données comme matière première
La donnée devient la matière première pour certains agents économiques, tels que les data brokers, des entreprises qui « collects, stores, analyzes and sells consumer data »[11], comme activité principale de leur business. Une donnée sur les conditions médicales d'un individu peut prendre une valeur entre les 15-20 $[12]. En réalité, il n'existe pas encore un véritable marché des données, puisqu'il manque une standardisation, nécessaire à l'échange. Pour ces motifs, une quantification précise et universelle de la donnée n'est pas encore concevable.
La collecte des données
La collecte de données peut se faire de manière primaire (le chercheur est le tout premier à obtenir les données sur le terrain de recherche) ou secondaire (le chercheur utilise d'autres sources, par exemple des publications existantes d'autres chercheurs). Les techniques d'analyse des données varient et incluent, par exemple, la triangulation ou la méthode dite de percolation des données[13]. Cette dernière méthodologie offre un système articulé de collecte, de classement et d'analyse des données utilisant entre autres cinq angles possibles d'analyse (au minimum trois) pour maximiser l'objectivité de l'analyse et permettre le regard le plus complet possible sur l'objet sous investigation soit : les analyses qualitatives et quantitatives, la revue des écrits (y compris les écrits scientifiques), les interviews d'experts, et la simulation informatique. Les données sont alors « percolées » selon une série d'étapes déterminées pour en extraire l'information la plus pertinente.
L'intégrité dans la collecte de données
La principale raison de maintenir l'intégrité des données est de favoriser l'observation des erreurs dans le processus de collecte des données. Ces erreurs peuvent être intentionnelles (falsification délibérée) ou non intentionnelles (erreurs aléatoires ou systématiques).
Deux approches peuvent protéger l'intégrité des données et assurer la validité scientifique des résultats des études inventées par Craddick, Crawford, Rhodes, Redican, Rukenbrod et Laws en 2003 :
- Assurance de la qualité — toutes les actions effectuées avant la collecte des données ;
- Contrôle de la qualité — toutes les actions effectuées pendant et après la collecte des données.
Assurance de la qualité
Son objectif principal est la prévention, qui est avant tout une activité rentable pour protéger l'intégrité de la collecte de données. La normalisation des protocoles est le meilleur exemple de cette activité rentable, qui est élaborée dans un manuel de procédures complet et détaillé pour la collecte de données. Le risque de ne pas identifier les problèmes et les erreurs dans le processus de recherche est évidemment causé par des lignes directrices mal écrites. On trouvera ci-après plusieurs exemples d'échecs de ce type :
- incertitude quant au calendrier, aux méthodes et à l'identification de la personne responsable ;
- liste partielle des articles à recueillir ;
- description vague des instruments de collecte de données au lieu d'instructions rigoureuses étape par étape sur l'administration des tests ;
- absence de reconnaissance du contenu exact et des stratégies de formation et de recyclage des membres du personnel chargés de la collecte des données ;
- instructions imprécises sur l'utilisation, les ajustements et l'étalonnage de l'équipement de collecte de données ;
- aucun mécanisme préétabli pour documenter les changements apportés aux procédures au cours de l'enquête.
Contrôle de la qualité
Étant donné que les actions de contrôle de la qualité ont lieu pendant ou après la collecte des données, tous les détails sont soigneusement documentés. Il est nécessaire de disposer d'une structure de communication clairement définie comme condition préalable à la mise en place de systèmes de surveillance. Il n'est pas recommandé de ne pas être certain de la circulation de l'information, car une structure de communication mal organisée entraîne une surveillance laxiste et peut également limiter les possibilités de détection des erreurs. Le contrôle de la qualité est également responsable de l'identification des actions nécessaires pour corriger les pratiques de collecte de données erronées et pour minimiser de telles occurrences futures. Une équipe est plus susceptible de ne pas se rendre compte de la nécessité d'effectuer ces actions si ses procédures sont rédigées de façon vague et ne sont pas fondées sur la rétroaction ou l'éducation.
Problèmes de collecte de données qui nécessitent une action rapide :
- erreurs systématiques ;
- violation du protocole ;
- fraude ou inconduite scientifique ;
- erreurs dans des données individuelles ;
- problèmes individuels de rendement du personnel ou du site.
Les données comme levier
La valeur de la donnée dépend de son utilisation, qui devient de jour en jour plus performante. Les données seront le véritable instrument qui permettra de franchir le mur du temps : l'analyse des données est l'appui sur lequel on essaye de rationaliser la prise des décisions. Le but final de l'analyse des données est d'arriver à prévoir ce qui se passera dans le futur, avec une marge d'erreur négligeable.
Outils de l'aménagement et de l'urbanisme
La donnée devient un outil mobilisé dans l'élaboration de politiques publiques, y compris pour les politiques d'urbanisme et d'aménagement. En grand nombre, elles peuvent permettre une analyse du territoire et de ses usagers, ce qui peut être utile dans le cadre de projets de réaménagement des espaces publics. Plusieurs données sont relevées, dont les déplacements des citadins, le trafic routier, la qualité de l'air ambiant, les nuisances sonores. Une fois récoltées, elles sont utilisées pour favoriser une meilleure compréhension de l'utilisation de ces espaces. Le monitorat des déplacements peut, par exemple, conduire à la réalisation d'aménagements urbains qui répondent à l'utilisation concrète des habitants[14].
Les territoires urbains font face à de nouveaux enjeux, et leur construction repose maintenant sur une maîtrise de la donnée, dans la récolte comme dans l'utilisation à des fins d'accompagnement de politiques publiques. Ces données sur les comportements des citoyens, propre à un territoire défini, constituent ainsi des informations de valeur, dont la compréhension et l'application permettent de repenser l'aménagement.
Les données comme actif stratégique
Enfin, la valeur de la donnée peut être interprétée à l'égard d'un actif stratégique. La donnée devient une source précieuse, puisque rares sont les individus et/ou organismes à pouvoir l'exploiter. La firme qui la possède peut, par exemple, devenir le point d'accès exclusif à l'information qu'elle seule détient, ou être capable de renforcer les barrières à la mobilité.
La détermination de la valeur d'une donnée peut être donc calculée (Vatin, 2012) à partir de son utilisation subjective, qui fonde la valorisation sur le processus de transformation de la donnée et sur ses caractéristiques qualitatives.
Notes et références
- Sciences des données: Leçon inaugurale au Collège de France prononcée le jeudi 8 mars 2012, Serge Abiteboul.
- « Quelle est la différence entre une donnée et une information ? », sur iQualit, (consulté le )
- « DicoLatin - Correspondance pour DATUM », sur dicolatin.com (consulté le )
- Fidelia Ibekwe-Sanjuan, « Vers la datafication de la société ? », dans Vincent Meyer, Transition digitale, handicaps et travail social, Bordeaux, LEH Editions, (ISBN 978-2-84874-703-3, HAL hal-01898457, lire en ligne [PDF]), p. 31-49.
- « Qu’est-ce qu’une donnée ? − Courrier des statistiques N5 - 2020 | Insee », sur insee.fr (consulté le )
- (en) Rob Kitchin, The data revolution : big data, open data, data infrastructures and their consequences, Los Angeles, Sage, , 222 p. (ISBN 978-1-446-28747-7, 978-1-446-28748-4, 978-1-473-90947-2 et 978-14-7390-826-0, OCLC 871211376, BNF 43893240, DOI 10.4135/9781473909472, SUDOC 182501558).
- (en) Andrew Iliadis et Federica Russo, « Critical data studies: An introduction », Big Data & Society, vol. 3, no 2, , p. 205395171667423 (ISSN 2053-9517 et 2053-9517, DOI 10.1177/2053951716674238, lire en ligne, consulté le )
- Franck Cochoy, « Conclusion. La part de l'âne, ou le qualcul économique du consommateur », dans Une sociologie du packaging ou l'âne de Buridan face au marché, Paris, Presses universitaires de France, coll. « Sciences sociales et sociétés », (ISBN 9782130523567, ISSN 1281-6256, BNF 38839401, DOI 10.3917/puf.cocho.2002.01 ), p. 203-218.
- Michel Callon, « Postface : La formulation marchande des biens », dans François Vatin, Évaluer et valoriser : une sociologie économique de la mesure, Toulouse, Presses universitaires du Mirail, coll. « Socio-logiques », (ISBN 978-2-8107-0029-5, ISSN 1159-9170, BNF 41473614, DOI 10.4000/books.pumi.7125, HAL hal-00484812, SUDOC 134651138), p. 247-269.
- Simon Chignard et Louis-David Benyayer, Datanomics : les nouveaux business models des données, Limoges, Éditions Fyp, coll. « Entreprendre : développement professionnel », , 158 p. (ISBN 978-2-36405-124-9, ISSN 2106-0177, BNF 44455374, SUDOC 185649327).
- Natasha Singer, « A Data Broker Offers a Peek Behind the Curtain », The New York Times, (ISSN 0362-4331, lire en ligne, consulté le ).
- Chignard, S., & Benyayer, intervention au séminaire « Etudier les cultures numériques, approches théoriques et empiriques », 15 mai 2017.
- (en) Olivier Mesly, Creating Models in Psychological Research, Cham, Springer, coll. « SpringerBriefs in Psychology », , 134 p. (ISBN 978-3-319-15752-8 et 978-3-319-15753-5, ISSN 2192-8363, e-ISSN 2192-8371, BNF 44678919, LCCN 2015934454, DOI 10.1007/978-3-319-15753-5, lire en ligne).
- L'Institut Paris Region, « De la Smart City à la région intelligente », sur L'Institut Paris Region (consulté le )