Technopedia Center
PMB University Brochure
Faculty of Engineering and Computer Science
S1 Informatics S1 Information Systems S1 Information Technology S1 Computer Engineering S1 Electrical Engineering S1 Civil Engineering

faculty of Economics and Business
S1 Management S1 Accountancy

Faculty of Letters and Educational Sciences
S1 English literature S1 English language education S1 Mathematics education S1 Sports Education
  • Registerasi
  • Brosur UTI
  • Kip Scholarship Information
  • Performance
  1. Weltenzyklopädie
  2. Science des données — Wikipédia
Science des données — Wikipédia 👆 Click Here! Read More..
Un article de Wikipédia, l'encyclopédie libre.
(Redirigé depuis Data scientist)
Science des données
Partie de
ScienceVoir et modifier les données sur Wikidata
Pratiqué par
Expert en données (en), architecte de donnéesVoir et modifier les données sur Wikidata
Objet
DonnéeVoir et modifier les données sur Wikidata

modifier - modifier le code - modifier WikidataDocumentation du modèle

La science des données est un domaine interdisciplinaire qui utilise les mathématiques, les statistiques, le calcul scientifique, les méthodes scientifiques, les process, les algorithmes et les systèmes informatiques automatisés pour extraire et extrapoler des connaissances à partir de grandes quantités de données brutes structurées ou non[1],[2],[3].

Elle est souvent associée aux données massives, à l'analyse des données, aux techniques d'apprentissage automatique comme le machine learning et le deep learning.

Rôle de la science des données

[modifier | modifier le code]

La science des données permet de produire des algorithmes et méthodes d’analyse de grandes masses de données afin d’en extraire des informations et de réaliser des modèles et prédictions utiles.

Pour cela, elle se met en œuvre selon les étapes suivantes[4] :

  • Bien comprendre et définir l'objectif et problème à résoudre
  • Elaborer des stratégies d’analyse des données,
  • Recueillir, explorer et analyser les données par la fouille de données et l'analyse exploratoire des données,
  • Préparer les données : par le nettoyage et le formatage,
  • Créer des modèles avec les données à l'aide de différentes méthodes et algorithmes tels:
    • les modèles d'Apprentissage automatique,
    • les modèles d'Apprentissage profond,
  • Aider au déploiement et à l'exploitation des modèles et de leurs résultats:
    • sous forme brute
    • sous forme de visuels comme des tableaux de bord
    • sous forme d'application ou d'outils d'aide à la décision.

De plus, la science des données s’enrichit constamment grâce à l’évolution des outils et technologies, comme les plateformes de cloud computing, qui permettent de traiter des volumes de données toujours plus importants. Cette progression ouvre de nouvelles perspectives dans des domaines variés tels que la santé, la finance, l’environnement et bien d’autres secteurs où l’analyse des données joue un rôle clé[5].

L'expert en science des données, aussi appelé data scientist, peut réaliser ces missions seul ou en équipe pour être plus efficace, avec la participation :

  • d'un expert métier qui a les connaissances métier et terrain pour définir le problème a analyser et résoudre ;
  • d'un ingénieur de données qui recueille, et prépare les données et leur disponibilité ;
  • d'un architecte informatique qui supervise les processus et l’infrastructure sous-jacents ;
  • et d'un développeur d’application qui déploie les modèles ou résultats de l’analyse sous forme d'application.

Histoire

[modifier | modifier le code]
Cette section a besoin d'être recyclée (6 janvier 2024).
Motif : à développer et sourcer. Améliorez-la ou discutez des points à améliorer.

Le terme de "donnée" est défini depuis 1840 comme un outil de raisonnement et de démonstration[6]. L'apparition et le développement des bases de données et d'internet entre la fin du XXe siècle et le début du XXIe siècle ont favorisé l'émergence des sciences de traitement de la donnée[7]. La science des données répond ainsi à la complexité croissante et au volume en croissance rapide du nombre de données numériques disponibles dans le monde, d'où l'intérêt grandissant pour les "données massives".

Par ailleurs, la croissance exponentielle des capacités de calcul et la facilitation de l'accessibilité aux technologies de l'information ont permis le développement d’algorithmes plus efficaces et plus complexes ainsi que la simplification de techniques statistiques, connues depuis longtemps mais dont le déploiement n'était pas pratique ou trop coûteux[7].

L'essor de techniques d’apprentissage automatique et d’intelligence artificielle a également participé à la croissance de cette discipline et à son ouverture vers de nouveaux champs, surtout grâce à son importance économique pour augmenter la consommation et la productivité [8]. Par exemple, l'analyse prédictive, le traitement automatique des langues ou la vision par ordinateur, en passant par l’analyse statistique pure de données fortement structurées à l’analyse de données semi-structurées (XML par exemple) pour notamment mettre « en correspondance des bases de données et de données textuelles »[9].

Domaines d'utilisation

[modifier | modifier le code]
Cette section a besoin d'être recyclée (6 janvier 2024).
Motif : Liste à la Prévert. Peu d'intérêt car la Data Science est partout .. dans tous les domaines ayant des données numérisées .. reformuler et trouver de meilleures sources. Améliorez-la ou discutez des points à améliorer.

Parmi les plus grands utilisateurs de la science des données figurent (par ordre alphabétique) :

  • Aéronautique
  • Automobile[10]
  • Agriculture[10]
  • Assurance[10]
  • Banque & finance, dont "Trading financier"[10]
  • Distribution[10]
  • Économétrie, économie
  • Énergie[10]
  • Géographie[11]
  • Industrie manufacturière [10]
  • Médias (ex : journalisme de données) & loisirs[10]
  • Météorologie
  • Moteurs de recherche
  • Services (industrie des services)[10]
  • Santé publique[10] (ex. :épidémiologie, toxicologie, écotoxicologie...)
  • TIC, télécommunications[10]
  • Tourisme
  • Transport
  • Urbanisme, villes intelligentes, smartgrid
  • Publicité
  • commerce électronique
  • Environnement
  • Climat

Compétences métier

[modifier | modifier le code]

Distincte de l’analyse métier et de l’ingénierie des données, la science des données va plus loin que l’analyste de données, notamment par l'utilisation de l’apprentissage automatique. Un maître en science des données est quelqu'un qui peut utiliser des méthodes, outils et technologies adaptées au traitement des données pour extraire des observations utiles à partir de données confuses[12].

Pour cela, il doit être rigoureux, mais curieux et créatif, capable de trouver les données les plus adéquates pour une question et avoir une pensée structurée lui permettant de décomposer et organiser les questions et les processus.

Il doit savoir manipuler et nettoyer les données et les préparer dans un format adapté à l’analyse. Il doit aussi maitriser les sciences des données qui nécessitent une expertise pluridisciplinaire. Son expertise recouvre les domaines scientifiques, méthodologiques, statistiques (maitrise des statistiques descriptives ; moyennes, médianes, variance, déviation, distributions de probabilités, échantillonnage, statistiques inférentielles , etc.), des outils d'ingénierie logicielle du domaine (ex. SAS, R), de l'algorithmique de l'apprentissage automatique, de l'apprentissage profond. Pour déduire des tendances prospectives probables et de bons modèles prédictifs, il peut également s'appuyer sur des bibliothèques (ex. : TensorFlow, Keras, PyTorch). Évidemment, ces découvertes s'appuient autant sur les données du passé que du présent. Il doit maîtriser au moins un langage de programmation (Python, R, Java, Julia, Perl ou C/C++) et un langage de requête de base de données (SQL)[réf. nécessaire]. Le scientifique de données doit aussi maîtriser les questions de régression et de classification, d'apprentissage supervisé ou non supervisé. Il doit aussi avoir de solides compétences en droit des données et une maitrise des aspects éthiques et sociaux, notamment concernant la confidentialité, l'anonymisation, la sécurité des données sensibles (données personnelles et de santé notamment)[réf. nécessaire].

La maîtrise de la plateforme Hadoop, d'outils de traitement (ex. :Hive, Pig...), d'outils d'infonuagique (ex Amazon S3) et la gestion de données non structurées (ex. données issues des réseaux sociaux, de flux vidéo ou audio) est un avantage et peut être requise par certains employeurs. Des notions d'intelligence artificielle sont de plus en plus requises (réseaux de neurones artificiels, etc.)[réf. nécessaire]. In fine, le scientifique de données doit idéalement aussi être pédagogique, notamment par la maîtrise de la visualisation de données, et il doit être en mesure de déployer les modèles d'apprentissage automatique qu'il a mis au point (c'est-à-dire les rendre utilisables par des non-spécialistes)[réf. nécessaire]. En rendant les modèles utilisables par les non spécialistes, le scientifique de données crée un « produit de données » (Data product). Celui-ci peut être une application sur un portable ou une application web. Les utilisateurs de R développent généralement leurs produits de données sur Shiny.

Selon Le Big Data, 88 % des scientifiques de données ont au moins une maitrise (master) et 46 % un doctorat. Parmi ces scientifiques de données, 32 % proviennent du domaine des mathématiques et des statistiques, 19 % des sciences informatiques et 16 % d'écoles d’ingénieurs[réf. nécessaire].

Selon le classement des 25 ou 50 « meilleurs » métiers du monde fait aux États-Unis par le site de recherche d’emploi Glassdoor, celui de data scientist arrivait en tête, devant les « ingénieurs DevOps » et les « Data Technicians »[réf. nécessaire].

Évolutions attendues du métier

[modifier | modifier le code]

Gartner Inc. estime que [réf. souhaitée] plus de 40 % des tâches du scientifique des données seront rapidement automatisées (avant 2020)[réf. obsolète], ce qui devrait favoriser une augmentation de leur productivité, mais aussi l’apparition de « citoyens scientifiques de données » (citizen data scientists en anglais) et d’approches collaboratives (ex. Wikidata, Wikipédia).

Des questions éthiques et de démocratie se posent avec les vols massifs de données personnelles ou les usages manipulateurs de données. Un exemple d'usage qui pose des questions éthiques et qui peut influencer la démocratie est celui du scandale de Facebook et Cambridge Analytica/AggregateIQ. Un usage douteux, voire illégal, de données massives d'utilisateurs de réseaux sociaux a été utilisé au profit de quelques candidats (ex. Donald Trump en contexte d’élections aux États-Unis) ou d’idéologies (ex. en faveur du parti du Brexit lors du référendum sur l’appartenance du Royaume-Uni à l’Union européenne). Des conséquences peuvent s’ensuivre, notamment dans le contexte du Brexit où le Royaume-Uni a finalement quitté l’Union européenne.[réf. souhaitée]

Salaires

[modifier | modifier le code]

Selon Glassdoor, le salaire annuel d’un scientifique de données est en moyenne de 116 840 dollars et fin janvier[Quand ?] Glassdoor estimait à 1 736 le nombre d’offres d’emploi. Le salaire annuel moyen d’un scientifique de données américain serait de 110 000 dollars, tandis qu’en France il serait entre 45 000 et 50 000 euros[réf. nécessaire]. Malgré l’apparition de nombreuses formations, les employeurs peinent encore à trouver des profils assez qualifiés[13].

Selon les plateformes de Freelance, le TJM (tarif journalier moyen) pour les "data Scientist" en freelancing se situe à 570 euros[réf. nécessaire] en moyenne pour les profils seniors et peut aller jusqu'à 1100 euros pour des projets d'envergure et complexes.

Notes et références

[modifier | modifier le code]
  1. ↑ (en) Vasant Dhar, « Data Science and Prediction », Communications of the ACM, no 12,‎ décembre 2013, p. 64-73 (DOI 10.1145/2500499, lire en ligne).
  2. ↑ (en) « The key word in "Data Science" is not Data, it is Science », sur simplystats, 12 décembre 2014 (consulté le 25 mars 2015).
  3. ↑ V. Dhar, « Data science and prediction », Communications of the ACM, vol. 56, no 12,‎ 2013, p. 64–73 (DOI 10.1145/2500499, S2CID 6107147, lire en ligne [archive du 9 novembre 2014], consulté le 2 septembre 2015).
  4. ↑ « Qu’est-ce que la data science ? », sur oracle.com (consulté le 1er janvier 2024).
  5. ↑ (en) « Cloud Computing in Healthcare: How It's Used and 17 Examples », sur Built In (consulté le 2 décembre 2024)
  6. ↑ « Trésor de la Langue Française Informatisé, à l’entrée « donnée ». », sur atilf.atilf.fr (consulté le 9 mai 2024).
  7. ↑ a et b Cédric du Mouza, « De l’histoire numérique à l’histoire données ? », Les Cahiers de Framespa, no 42,‎ 4 juillet 2023 (lire en ligne)
  8. ↑ Jean-Bernard Mateu et Jean-Jacques Pluchart, « L’économie de l’intelligence artificielle », Revue d'économie financière, vol. 135, no 3,‎ 2019, p. 257–272 (ISSN 0987-3368, DOI 10.3917/ecofi.135.0257, lire en ligne, consulté le 9 mai 2024)
  9. ↑ Stage Recherche-M2 : Mise en correspondance de bases de données et de données textuelles, encadré par Mathieu Roche (TETIS-Cirad & LIRMM, Montpellier) et Sophie Fortuno (TETIS-Cirad, Montpellier) « http://www.lirmm.fr/~mroche/Web/STAGES/Stages_2015/SujetM2Heterogeniete_MR_v2.pdf »(Archive.org • Wikiwix • Archive.is • Google • Que faire ?)
  10. ↑ a b c d e f g h i j et k Abiteboul, S., Bancilhon, F., Bourdoncle, F., Clemencon, S., De La Higuera, C., Saporta, G., & Soulié, F. F. (2014). L'émergence d'une nouvelle filière de formation:«d ata scientist s» (Doctoral dissertation, INRIA Saclay)
  11. ↑ « Data Science Blog », sur France Data Science Blog, 2020 (consulté le 19 juin 2020).
  12. ↑ « Science des données », sur writingstatement.com.
  13. ↑ « Salaire Data Scientist : combien gagne un scientifique des données ? », sur DataScientest.com, 3 mars 2021 (consulté le 18 mars 2022).

Voir aussi

[modifier | modifier le code]

Sur les autres projets Wikimedia :

  • Science des données, sur Wikimedia Commons

Bibliographie

[modifier | modifier le code]
  • (en) William Cleveland, « Data Science : An Action Plan for Expanding the Technical Areas of the Field of Statistics », International Statistical Review / Revue internationale de statistique, vol. 69,‎ 2001, p. 21-26
  • Serge Abiteboul, Sciences des données : De la logique du premier ordre à la Toile, Fayard, coll. « Collège de France », 2012 (lire en ligne)
  • (en) Rachel Schutt et Cathy O'Neil, Doing Data Science : Straight Talk from the Frontline, O'Reilly Media, octobre 2013, 406 p. (ISBN 978-1-4493-5865-5)

Articles connexes

[modifier | modifier le code]
  • Apprentissage automatique
  • Big data
  • Économétrie
  • Intelligence artificielle
  • Interopérabilité
  • Kaggle
  • Métadonnée
  • Méthodologie politique
  • Ontologie (informatique)
  • Qualité des données
  • Sociologie quantitative
  • Visualisation de données

Liens externes

[modifier | modifier le code]
  • (en) Journal of Data Science
  • (en) CODATA Data Science Journal
v · m
Big data
Méthodes
  • Algorithme de fouille de flots de données
  • Analyse des données
  • Parallélisme
Services
  • Centre de données
  • Cloud computing
  • Analyse de sentiments
  • Opt in
  • Opt out
Exploration de données
  • Fouille de données spatiales
  • Fouille du web
  • Fouille de flots de données
  • Fouille de textes
  • Fouille d'images
  • Fouille audio
  • Glossaire de l'exploration de données
Outils
  • Base de données relationnelle
  • Hadoop
  • Logiciels de fouille de données
  • Robot d'indexation
  • Système de gestion de base de données
    • NoSQL
    • NewSQL
  • Technologies matérielles dédiées
Organismes
  • Union internationale des télécommunications
  • Histoire d'Internet
  • Révolution numérique
  • Science des données
  • Données ouvertes
v · m
Science des données
Concepts
  • MapReduce
  • Apprentissage profond
  • Extreme learning machine
  • Apprentissage automatique
  • Apprentissage supervisé
  • Apprentissage non supervisé
  • Réseau de neurones artificiels
  • Visualisation de données
  • Exploration de données
  • Fouille de textes
  • Segmentation
  • Intelligence artificielle
  • Big data
  • Data lineage
Architecture
  • Hadoop
  • Cloudera
  • Hortonworks
  • Apache Hive
  • NoSQL
  • NewSQL
  • HBase
  • Cassandra
  • Apache Spark
Outils
  • Presto
  • Apache Impala
  • Pig
  • Tableau Software
  • Elasticsearch
  • MongoDB
  • Apache Mahout
  • Scikit-learn
  • TensorFlow
  • Theano (logiciel)
  • SPSS
  • JMP
  • Dataiku
  • Apache MXNet
  • ONNX
  • Apache SINGA
  • Keras
Programmation
  • R
  • Ggplot2
  • SAS
  • Python
  • Julia
  • SQL
  • Scala
Statistique
  • ACP
  • AFC
  • ACM
  • Méthode des moindres carrés
  • Analyse des données
  • Homoscédasticité
  • Knn
  • Cartes de Kohonen
  • Statistique multivariée
  • Théorème de Bayes
  • Analyse de la variance
  • Test du χ²
  • Distance de Cook
Articles liés
  • Watson
  • Teradata
  • Glossaire de l'exploration de données
  • Extract-transform-load
  • Traitement analytique en ligne
v · m
Informatique théorique
Codage
  • Codage de l'information
  • Compression de données
  • Chiffrement
  • Cryptanalyse
  • Cryptographie
  • Théorie de l'information
Modèles de calcul
  • Calculabilité
  • Décidabilité et indécidabilité
  • Ensemble récursif
  • Problème de l'arrêt
  • Ensemble récursivement énumérable
  • Machine de Turing
  • Thèse de Church
  • Automate cellulaire
  • Réseau de neurones artificiels
  • Réduction polynomiale
  • Problème NP-complet
  • Principe de Church-Turing-Deutsch
Algorithmique
  • Algorithmique
  • Algorithme glouton
  • Algorithme probabiliste
  • Algorithme génétique
  • Complexité algorithmique
  • Analyse d'algorithme
  • Diviser pour régner
  • Heuristique
  • Programmation dynamique
  • Géométrie algorithmique
  • Algorithmes de tri
  • Algorithmique du texte
  • Exploration de données
  • Science des données
  • Apprentissage profond
  • Test de primalité
  • Structure de données
  • Arbre enraciné
  • Concurrence
  • Parallélisme
Syntaxe
  • Réécriture
  • Compilation
  • Expression régulière
  • Grammaire formelle
  • Langage rationnel
  • Ensemble rationnel
  • Théorie des langages
  • Théorie des automates
  • Automate fini
  • Automate sur les mots infinis
  • Automate d'arbres
  • Automate à pile
  • Hiérarchie de Chomsky
  • Linguistique informatique
Sémantique
  • Interprétation abstraite
  • Méthodes formelles
  • Vérification de modèles
  • Sémantique des langages de programmation
  • Sémantique dénotationnelle
  • Sémantique axiomatique
  • Sémantique opérationnelle
Logique mathématique
  • Assistant de preuve
  • Calcul des prédicats
  • Correspondance de Curry-Howard
  • Fonction récursive
  • Lambda-calcul
  • Théorèmes d'incomplétude de Gödel
  • Théorie des types
Mathématiques discrètes
  • Combinatoire
  • Algorithme du simplexe
  • Optimisation combinatoire
  • Théorie des graphes
  • Algorithmes de la théorie des graphes
  • Recherche opérationnelle
  • Théorie de la décision
  • Analyse numérique
  • icône décorative Portail des données
  • icône décorative Portail des probabilités et de la statistique
  • icône décorative Portail de l’informatique
Ce document provient de « https://fr.teknopedia.teknokrat.ac.id/w/index.php?title=Science_des_données&oldid=230621149 ».
Catégories :
  • Science de l'information
  • Science des données
  • Statistiques
Catégories cachées :
  • Article contenant un lien mort
  • Page utilisant P279
  • Page utilisant P3095
  • Page utilisant P2578
  • Page utilisant P18
  • Article utilisant l'infobox Discipline
  • Article utilisant une Infobox
  • Article avec section à recycler
  • Article à référence nécessaire
  • Article à référence souhaitée
  • Catégorie Commons avec lien local identique sur Wikidata
  • Portail:Données/Articles liés
  • Portail:Informatique/Articles liés
  • Portail:Sciences/Articles liés
  • Portail:Probabilités et statistiques/Articles liés
  • Portail:Mathématiques/Articles liés
  • Portail:Technologies/Articles liés

  • indonesia
  • Polski
  • الرية
  • Deutsch
  • English
  • Español
  • Français
  • Italiano
  • مصر
  • Nederlands
  • 本語
  • Português
  • Sinugboanong Binisaya
  • Svenska
  • Українска
  • Tiếng Việt
  • Winaray
  • 中文
  • Русски
Sunting pranala
Pusat Layanan

UNIVERSITAS TEKNOKRAT INDONESIA | ASEAN's Best Private University
Jl. ZA. Pagar Alam No.9 -11, Labuhan Ratu, Kec. Kedaton, Kota Bandar Lampung, Lampung 35132
Phone: (0721) 702022
Email: pmb@teknokrat.ac.id