Big data : qu’est-ce que c’est et à quoi ça sert ?
4 avril, 2023
10 min
Qu’est-ce que la big data ? En bref, il s’agit de l’immense quantité d’informations qu‘internet génère, dépassant les capacités des outils conçus pour l’analyser et la stocker. Voilà ce que signifie la big data, mais pour mieux comprendre de quoi il s’agitet à quoi ça sert, prenons quelques exemples et cherchons une définition plus précise.
Qu’est-ce que la big data : signification et définition
Une étude récente menée par statista.com pourrait nous faire découvrir ce qu’est la big data. En 60 secondes sur internet, 16 millions de messages et plus de 230 millions de mails sont envoyés, environ 6 millions de recherches sur Google ont lieu et plus de 90 millions de dollars de cryptomonnaies sont achetés.
Ces actions entraînent une telle quantité de données qu’elles représentent justement un exemple de big data ou de mégadonnées. Cependant, il n’y a pas de taille “minimale” par définition. Ce seuil, s’il existait, évoluerait dans le temps avec la croissance exponentielle des volumes : par exemple, on estime que 120 zettaoctets (1 milliard de téraoctets) seront générés pour la seule année 2023, contre 97 en 2022 et 180 en 2025.
La définition de big data est donc “dynamique” : elle répond au cas où l’information est si complexe que de nouvelles technologies doivent être créées pour la stocker et la traiter dans un délai acceptable. La possibilité est concrète, c’est même déjà une réalité, car l’évolution du matériel et des logiciels ne suit pas le rythme de croissance des données. Les capturer et les traiter a toujours été un défi. Dès 1958 IBM inventait le terme “business intelligence” pour désigner la capacité à comprendre les relations entre les données afin d’orienter les décisions futures.
En 2001, Douglas Laney a créé le modèle des “3V”, énumérant les caractéristiques utiles pour expliquer ce qu’est la big data :
- Volume – la quantité de données produites par différentes sources, des réseaux sociaux aux capteurs de l’internet des objets, en passant par les achats sur les exchanges de cryptomonnaies et les places de marché NFT ;
- Variété – il existe différents types d’informations en ligne, mais il est possible de les diviser en deux catégories : structurées et non structurées. On peut parfois envisager la nuance “semi-structuré”, un niveau dont les qualités sont mixtes ;
- Vitesse – la communication instantanée génère un flux très important d’informations par seconde, et nous avons donc besoin d’outils capables de les capturer et de les analyser “en temps réel”.
Ce schéma tridimensionnel permet toujours de comprendre la signification de big data, mais elle a été complétée au fil du temps par d’autres paramètres. Tout d’abord, nous avons le quatrième V de la valeur : l’analyse des activités des utilisateurs en ligne représente une opportunité de profit, les entreprises les traduisant par exemple en campagnes de marketing ciblées ou en prévisions sur l’avenir de l’industrie.
Dans ce contexte, le degré de fiabilité contribue à la définition de big data : nous trouvons le cinquième V dans la véracité de l’information, qui est fondamentale pour faire des estimations utiles et précises. Nous pouvons reconnaître une certaine variabilité dans les formats de données, essentiellement la variété par rapport au temps, et enfin une visualisation est nécessaire pour les expliquer, c’est-à-dire des graphiques et des tableaux.
Où les big data sont-elles collectées ?
Nous disposons donc de pas moins de 7 V pour exprimer ce qu’est la big data, mais pour certains spécialistes, cela n’en épuise pas le sens. Dans la pratique, il est possible de mettre en évidence d’autres caract éristiques, résultant des processus de stockage et d’analyse.
Fait
Le terme “big data” a été inventé par John Mashey en 1998 et présenté dans une série de diapositives intitulée Big Data … et la prochaine vague d’InfraStress.
Par exemple, l’exhaustivité de l’information est évaluée en fonction du nombre et de la nature des sources prises en compte. Selon une autre définition des “big data”, leur complexité est telle qu’il serait impossible de les comprendre si elles étaient examinées en plus petites portions. À cet égard, il est utile de préciser la différence entre les données structurées et non structurées : dans le premier cas, les propriétés et le format des informations sont prédéfinis, tandis que dans le second, il est impossible de construire un tableau avec des “champs fixes”.
En d’autres termes, les caractéristiques des données structurées sont déjà connues : les transactions auront toujours une date, une heure, un expéditeur, un destinataire et une valeur échangée. Les données non structurées, en revanche, sont des contenus impossibles à cataloguer de manière systématique : images, vidéo, audio et texte, dont la forme et la taille sont toujours différentes. Les posts sur Instagram ou les tweets sont donc des exemples de big data non structurées et on estime qu’ils représentent 80 % du total.
Compte tenu de ces différences, il existe deux types de bases de données pour le stockage et l’analyse des big data :
- Data warehouses : utile pour les données qui sont déjà structurées et qui ont donc passé le processus ETL (Extract, Transform, Load), c’est-à-dire l’extraction et la transformation avant le chargement dans la base de données. En pratique, les informations sont déjà “nettoyées” des redondances et organisées par relation, et donc prêtes à être étudiées.
- Data lakes : collecte de données non structurées, brutes et non filtrées, qui ne seront triées qu’au moment d’une éventuelle analyse. Cette approche est moins coûteuse en termes opérationnels, mais nécessite plus d’espace. La technologie du stockage cloud est adaptée à cet usage et surtout peu coûteuse.
Les entreprises préfèrent toutefois combiner les fonctionnalités des deux types de bases de données en un seul data lakehouse, adapté à la fois aux données structurées et non structurées, pour plus d’efficacité et de fiabilité.
La signification de big data passe donc aussi par la granularité, le niveau de détail de l’information. En imaginant un tableau, cet aspect mesure combien de colonnes “de qualité” existent pour chaque élément inscrit dans les lignes. Ces bases de données doivent être évolutives et extensibles : il faut pouvoir ajouter de nouveaux éléments et de nouveaux champs à “remplir”.
À quoi servent les big data : exemples et applications
Maintenant que nous avons commencé à comprendre ce que sont les big data, essayons également de faire la lumière sur leur fonctionnalité. Les objectifs des mégadonnées sont essentiellement au nombre de trois et découlent des différents types d’analyse qui en sont faits :
- Descriptive – étudie le statu quo ou les phénomènes passés, en résumant et en représentant les données dans des graphiques et des formules, puis en recherchant les relations qui les unissent ;
- Prédictive – les méthodes statistiques sont appliquées aux big data pour faire des prédictions sur l’avenir. Elle ne se contente pas de décrire la réalité, mais en recherche les causes possibles afin d’anticiper les événements à venir, qui pourraient se répéter selon les mêmes mécanismes ;
- Prescriptive – dérive de prédictive, car elle est tournée vers l’avenir et fournit des lignes directrices et des solutions optimales pour résoudre des problèmes spécifiques.
Ces analyses sont menées par des scientifiques des données, mais peuvent être assistées par l’intelligence artificielle, qui utilise les big data comme des “échantillons d’entraînement” pour le machine learning. Outre la description et la mise en relation des informations disponibles, l’IA est en effet capable de prédire les événements à venir, sur la base de lois découvertes au cours de l’analyse. Les données structurées constituent la base des tâches “supervisées” (telles que la régression linéaire), dans lesquelles l’IA est guidée par des “étiquettes”, tandis que les données non structurées sont appliquées à des algorithmes non supervisés (tels que le regroupement), parce qu’elles n’ont pas besoin de lignes directrices pour effectuer des recherches.
En connaissant les types d’analyse et le rôle de l’apprentissage automatique, nous pouvons ensuite comprendre comment les entreprises utilisent les big data et à quoi elles servent. Tout d’abord, les mégadonnées sont collectées et analysées pour créer des modèles prédictifs afin d’anticiper les demandes des utilisateurs. Les produits et services sont conçus sur la base des fonctionnalités en ligne les plus performantes, en essayant de répondre à la demande des clients. Netflix ou Disney+, par exemple, évaluent les opinions sur la première saison d’une série, observent les interactions sur les médias sociaux, afin de planifier les suivantes sur la base des fonctionnalités les plus populaires.
Les entreprises peuvent exploiter les big data pour améliorer l’expérience client : il s’agit essentiellement de générer des impressions positives chez les utilisateurs lors de l’interaction avec les produits ou les services, afin de les fidéliser ou d’en acquérir de nouveaux. Des exemples de big data, utiles dans ce cas, sont les retours d’information collectés par le biais de simples formulaires, les évaluations dans les magasins d’applications, mais aussi les commentaires sur les messages sociaux. Enfin, grâce à l’analyse des données, il est possible de détecter les tentatives de fraude, qui peuvent suivre des schémas récurrents, afin d’améliorer la sécurité des plateformes telles que les exchanges.
En dehors du monde d’internet, on trouve d’autres exemples pour expliquer à quoi sert la big data.
- Maintenance prédictive : les capteurs qui surveillent le fonctionnement des voitures produisent des données non structurées, accompagnées d’informations structurées telles que l’année d’immatriculation, le modèle ou le type de carburant. Ces deux exemples de big data sont utiles pour prévoir les pannes éventuelles, de sorte que la maintenance puisse être planifiée à l’avance.
- Efficacité de la gestion : dans le secteur industriel, l’analyse des mégadonnées est utile pour améliorer les processus de production des biens de consommation. Par exemple, il est possible de surveiller les taux de “retour” et la demande générale du marché afin d’optimiser la production future.
Ces applications nous aident à comprendre ce qu’est la big data, mais elles ont également d’importantes implications en matière de protection de la vie privée. Les réglementations actuelles obligent les entreprises à avertir leurs clients lorsqu’elles souhaitent collecter leurs données. Il devrait être possible de refuser : par exemple, chaque page web gère les consentements par le biais d’options de cookies, les fichiers qui enregistrent les préférences des utilisateurs.
Par le passé, l’utilisation abusive de big data a donné lieu à des scandales tels que celui de Cambridge Analytica, qui aurait exploité des informations liées à de nombreux profils Facebook au profit de Trump lors de l’élection de 2016. Cependant, l’application de la technologie blockchain à internet, représentée par le Web3, devrait résoudre les problèmes de propriété des données, donnant un nouveau sens et une nouvelle définition à la big data.