Comprendre le Big Data
Introduction
Dans sa traduction la plus pure, le Big Data représente les mégadonnées, ou simplement un ensemble conséquent de donnée ne pouvant être traitées par les technologies informatique classiques. Ces données peuvent être utilisées en vue d’objectifs personnels ou professionnels. L’instauration d’un système de Machine Learning pour les traiter est coûteux et donc plutôt utilisé par les entreprises.
Ces données peuvent provenir de nombreuses sources :
- Visuelles : images, vidéos.
- Professionnelles : base de données, mails, documents pro, habitudes des consommateurs via recommandations personnalisées de l’information et publicités ciblées.
- Réseaux sociaux : les échanges commerciaux et interactions avec les entreprises (posts, contenus sponsorisés).
- Objets connectés : Apple Watch, applications, module de traçage, GPS.
Quelques chiffres
- 2.5 trillions : c’est le nombre d’octets de données que l’être humain créé quotidiennement
- 210 milliards : le chiffre en dollars du chiffre d’affaire généré par les vendeurs de services Big Data en 2020
- 8.2 % : équivaut au taux de croissance annuelle moyen du secteur Big Data entre 2017 et 2021
- 130 000 : le nombre d’emplois disponibles et spécifiques au domaine du Big Data avant 2020
- 40 : le nombre de formations en France spécialisée dans la Data
- 75 % : le nombre d’entreprises qui compte utiliser le Big Data ou l’IA d’ici à 2020
- 200 milliards : le nombre d’objets connectés sur la planète en 2020
- 6 millions : le chiffre hallucinant de développeurs actuels travaillant avec le Big Data
Des BIG DATA pour une BIG HISTORY
À en croire l’Association for Computing Machinery, la première fois que l’expression BIG DATA* est apparue dans le panorama du génie informatique c’était en 1997. Cependant, c’est en 2001 que les principales caractéristiques seront explicitées par l’analyste sectoriel Doug Laney qui déterminera les « 3V ». Cependant, les définitions du Big Data peuvent être adaptées à tous les secteurs qui l’utilise et ne possède donc pas véritablement de définition universelle. Celle qui s’en rapprocherait le plus est celle énoncée par Gartner (2001) : « le BIG DATA regroupe des données présentant une grande variété, arrivant en volumes croissants, à grande vitesse. C’est ce que l’on appelle les trois V ».
Pour autant, les premiers « jeux de données » sont apparus courant années 60/70 avec le tout premier data center. Il faudra ensuite attendre les années 2000 pour voir la véritable émergence du potentiel des data avec la création de plateformes sociales telles que Youtube et Facebook. Tandis qu’auparavant, seuls les utilisateurs créaient des données, l’éclosion des objets connectés fait considérablement augmenter la collecte de data et a permis un développement rapide de l’apprentissage automatique et du Machine Learning.
Les avancées technologiques et sociétales acquises par l’apparition du Big Data est aujourd’hui considéré comme semblable à ce que l’Europe a connu durant la révolution industrielle du XIXe siècle.
Les 3 « V »
En partant du postulat de Gartner, le concept de Big Data est un amoncellement d’outils visant à un répondre à un triple objectif : volume, vitesse et variété.
Vitesse / vélocité : avec l’augmentation du volume de données, la vitesse de réception, de stockage et de partage de ces dernières est essentielle au bon fonctionnement d’une entreprise de e-commerce par exemple. De la vitesse d’exécution des outils professionnels de stockage et de partage de données (CRM notamment) dépendra la valeur de la donnée.
Volume : l’arrivée des nouvelles technologies de stockage (Google Cloud Dataflow, Hadoop, Spark) a facilité la concentration de données provenant de multiples sources : médias sociaux, objets connectés, taux de clics, applications mobiles. Cette quantité revêt une importance certaine puisque, à leur arrivée, ces données sont non structurées et vont devoir être triées selon un ordre de priorité correspondant aux objectifs recherchés.
Variété : une fois sortie du cadre des données transactionnelles classiques des entreprises, l’amoncellement de données provenant de sources diverses comme les réseaux sociaux, les médias, les mobiles, les objets connectés, entraîne une forte concentration de données à caractères unique : géographique, connectique, mesures, mobiles, physiques, audio, financières, etc. Certaines de ses données appelées « non structurées » et « semi-structurées » obligent un traitement adéquat afin de leur donner une véritable valeur ajoutée.
⚠️ Deux nouvelles caractéristiques en « V » ont fait une apparition remarquée ces dernières années : la valeur et la véracité. Bien plus complexes à déterminer que les trois premières, ces deux qualités sont en effet plus abstraites et dépendantes du contexte et du secteur d’analyse (industrie, commerce, finance, médias).
Valeur : la valeur dépendra de l’utilisation qui v être faite d’une donnée brute. Ainsi, selon le secteur et le contexte, la valeur pourra être tout autant une valeur d’impact sur contexte, de management, économique, de prédiction, de modélisation ou encore de recommandations d’information.
Véracité : cette caractéristique s’attaque directement à la pertinence des données dans le sens ou une « fausse donnée » peut avoir un impact d’autant plus grand si elle se retrouve entouré de données à forte valeur dans un contexte donné.
Quels sont les intérêts du Big Data
Les intérêts de l’utilisation de mégadonnées sont divers. Le Big Data peut être utilisé à des fins particulières selon l’utilité qui en est faite. Pour les sites de e-commerce, l’accumulation de données permettra de créer des personas et ainsi d’influencer le comportement d’achat du consommateur par la recommandation personnalisée.
Lors de la conception d’outils, les données de création seront utiles lorsque ce même outil tombera en panne. Mais le Big Data est aussi fortement utile pour acquérir un retour sur l’expérience client ou encore la sécurité anti-fraude. Ainsi, que ce soit dans les domaines des transports, du commerce, de la santé ou encore de la construction, le Big Data est un élément essentiel de la bonne compréhension des tenants et des aboutissants d’un projet.
Le Big Data possède de nombreux avantages pour les entreprises qui peuvent en effectuer une analyse précise. Ainsi, les apports du Big Data assurent la conception de solutions axées sur la demande et non sur les envies du PO (Product Owner) et permettent donc de réduire les coûts de l’organisation grâce à une stratégie précise.
La possibilité de bien connaître sa cible permet aussi d’adapter son positionnement et ainsi de diminuer les prix ou du moins à établir une gamme plus élargie permettant à chacun d’y trouver son compte. Par conséquence directe, la fidélisation des consommateurs et des collaborateurs devient d’autant plus aisée qu’elle est rendue possible par une approche directe et parfaitement ciblée des besoins de ces derniers.