glossaire-de-la-data
Une brève histoire de la data : Partie 3 - le Big Data
Quelle est l’histoire du Big Data ? Cet article va vous permettre de découvrir son évolution au cours du temps. Cet article est le troisième d’une série d’articles sur l'histoire de la data. Nous vous conseillons d’abord de lire notre article précédent sur l’histoire des analyses.
Les trois V
Commençons par définir ce qu’est le Big Data. La meilleure manière de définir le Big Data est par les “3V” qui sont :
- Volume : Avec le Big Data, les données collectées sont en grande quantité. Quand on parle de quantité, on parle du nombre d’octets, généralement mesuré à partir du téraoctet pour le Big Data.
- Variété : Si on travaille avec du Big Data c'est que les données utilisées sont de nature diverses : données chiffrées, image, vidéo, texte ou encore son. Elles peuvent être structurées (données chiffrées par exemple) ou non structurées (texte, image, son, vidéo) et chaque type va alors nécessiter des traitement différents
- Vitesse : Qui dit Big Data dit augmentation de la capacité à traiter des gros volumes. Avec des machines assez vieilles on pourrait traiter 1To de données.. mais en plusieurs années. Le Big Data implique qu’on soit capable de traiter ce Téraocter en quelques minutes, voire quelques secondes.
On parle de plus en plus des 5V avec 2 caractéristiques supplémentaires :
- Valeur : Les données collectées ont une valeur intrinsèque, ce qui n’est pas le cas de toutes, certaines données n’ont pas ou peu d’utilité et les collecter n’apporte pas grand chose.
- Véracité : qui va être synonyme de fiabilité. Collecter de nombreuses données imprécises n’est que peu utile et peut mener à des erreurs importantes lors d’analyses et prédictions.
Chronologie du Big Data
Années 70
Bien que le terme de Big Data n’apparaisse pour la première fois qu’en 1997 dans l’ACM (Association for Computing Machinery), la forte augmentation du volume de données à commencé dès les années 70 date à laquelle une course commence entre augmentation de la capacité de stockage suivie directement d’une augmentation de la quantité de données stockées, l’un entraînant l’autre. C’est le début de la course à la donnée.
Depuis les années 2000
L’apparition du parallélisme dans les années 2000 avec les multi-processeurs multi-cores à l’échelle des ordinateurs ou les machines en réseau avec des clusters de machines ont permis de décomposer des calculs complexes en plusieurs calculs faits séparément. Dans ce type d’architecture, chaque composant peut travailler séparément, c’est le principe du “shared nothing”.
C’est aussi à cette période qu’ont émergé deux éléments fondamentaux pour permettre le développement du Big Data. D’une part, le NoSQL permet de relâcher des contraintes par rapport au SQL et de requêter des plus gros volumes de données plus rapidement. D’autre part, l’architecture de stockage a été totalement repensée avec des systèmes comme :
- Le lac de données, où on va stocker la donnée dans de nombreux clusters, de manière brute pour pouvoir l’écrire rapidement.
- Le Cloud Computing qui va gérer cela mais en réseau, créant des services accessibles à la demande sur des ressources partagées.
- Les DFS (distributed file systems) où on va stocker les gros fichiers sur plusieurs sources de données.
C’est vers 2005 qu’ont commencé à apparaître les supercalculateurs. En France, parmi les plus importants, on a celui de Météo-France et celui du CEA - le Commissariat à l'énergie atomique et aux énergies alternatives - ou dans d’autres centres de recherches en France.
En 2010, Eric Schmidt, ancien CEO de Google annonce qu’en 2009-2010, autant de données ont été produites que depuis la naissance de la terre jusqu’à 2003.
Pour l'instant, la quantité de données collectées continue d’être en croissance chaque année. Aujourd’hui, le numérique constituerait 3 à 4 % des émissions de gaz à effet de serre dans le monde.
Hear from our students about their amazing journeys and achievements
At Albert School, the student council fosters community and learning through events. By bringing students together, we enhance campus life and create connections, contributing to develop new soft skills.
Eleonore
Bachelor in Business & Data - President of the student body Paris
What I like best about Albert School is how the professors foster our ambition and encourage us to have an entrepreneurial mindset!
Nathan
Bachelor Business & Data
Paris
Albert School has really helped me to develop, professionally, academically and even outside the classroom!
Jonathan
Bachelor Business & Data
Paris