Qu’est ce que la Data Science ?
Introduction
La Data Science, en français ‘Science des données’, est une discipline axée sur la transformation de données brutes en valeur ajoutée pour une entreprise. Elle résulte d’un savant mélange entre le développement informatique, les sciences pures (biologie, physique, mathématiques, sciences sociales) et l’inférence statistique ayant pour finalité la résolution de problèmes analytiques.
En somme, la Data Dcience permet à une entreprise de comprendre les données qui lui parviennent afin de les transformer en connaissance empirique des profils clients et ainsi remplir les objectifs de consumer satisfaction.
La Data Science est un concept assez récent puisqu’il est apparu en même temps que les concepts d’intelligence artificielle, de machine Learning, et surtout de Big Data.
Histoire de la Data Science
Le postulat le plus communément admis revient à offrir la création du terme à William Cleveland lorsqu’il l’a exprimé dans son article scientifique : « Data Science : An Action Plan for expanding The technical Areas of the Field of Statistics ».
Auparavant appelée data analysis, la Data Science a évolué en parallèle de l’émergence des Big Data et des nouvelles méthodes automatisées d’analyse. Avec le développement d’Internet et la croissance exponentielle des bases de données numériques, la complexité de tri et de compréhension de cette infobésité a apporté un nouveau lot de problématiques dans de nombreux secteurs tels que : l’aéronautique, la finance, le e-commerce, les médias, la télécommunication ou encore l’ensemble de l’industrie manufacturière.
Qui est le data scientist
Son profil
Le Data Scientist, plus qu’un simple collecteur de données, est un véritable dénicheur d’informations. Son travail consiste à trier, analyser et synthétiser les informations disponibles afin d’apporter des réponses aux questionnements des autres services de l’entreprises : marketing, communication, développement technique. Avec l’arrivée du Big Data, le Data Analyst a ainsi laissé sa place à un véritable scientifique de la donnée.
Afin de parvenir à ses objectifs, le Data Scientist se doit d’imaginer, puis créer, des méthodes et outils d’analyses des données. Le Data Scientiste se positionne en tant qu’experts dans de nombreux domaines afin de maîtriser tous les paramètres de son environnement. Aussi, avoir une véritable maîtrise des outils mathématiques lui permet de concevoir des algorithmes à même de déterminer quelle donnée est intéressante ou non.
Ensuite, il doit être un « créateur », c’est à dire pouvoir développer de nouvelles techniques de recherche en codant puis en intégrant ces nouveaux prototypes de solution à des systèmes déjà fort complexes. Pour une efficience optimale, il se doit de connaître les langages primaires utilisés dans ce domaine et qui sont SQL, Python, R et SAS, Java et Scala.
La connaissance de ses langages n’est pourtant utile que si le data scientiste parvient a développer ses compétences parallèles de consultant et d’esprit critique lui permettant alors de comprendre les différentes problématiques de l’entreprise et pouvoir y répondre par des solutions complexes. Il se doit donc de se créer une facette « business » en plus de ces compétences d’experts en technologie, en mathématique et en développement.
Il serait donc regrettable de ne voir le Data Scientiste que comme un analyste de données brutes puisqu’il est en finalité un véritable inventeur. Un bon Data Scientist est rare puisqu’il doit être capable de développer une palette de compétences incroyable.
Ses objectifs
Le Data Scientiste aura des objectifs différents en fonction du secteur pour lequel il analyse les données. Ainsi, s’il travaille dans l’industrie, la finalité de sa mission sera de mettre en place des processus de maintenance prédictive afin d’éviter les problèmes sur le long terme.
En revanche, un data scientiste du domaine de la santé devra surtout sortir des statistiques des datasetsafin de permettre aux scientifiques de déterminer l’orientation de leurs recherches sur des sujets comme la toxicologie ou les épidémies.
De nombreuses collectivités territoriales et publiques utilisent le savoir-faire des data scientistes afin d’optimiser les réseaux de transports en fonction du taux de voyageurs, de la croissance démographique d’un quartier ou de l’environnement sur lequel l’urbanisation s’accroît.