glossaire-de-la-data

Tour du monde de la data

“Data is the new oil” voici ce qu’a dit le mathématicien Clive Humby dès 2006. Aujourd’hui, la data est partout autour de nous. Finance, supply chain, marketing et même management sont des secteurs parmi d’autres dans lesquels la data prend une place toujours plus importante. Découvrez dans cette introduction générale à la data comment la data fait partie de nos vies. Au sommaire de cet article : 

  • Infrastructures de données
  • Les données pour l’analyse
  • Les données pour la prédiction
  • Les secteurs révolutionnés par la donnée. 

Data is the new oil : comment la data fait partie de nos vies

Les infrastructures de données

Une infrastructure de données est la manière d’organiser la donnée et la manière dont elle est collectée. On va créer autour de cela des dictionnaires de données, c'est-à-dire des guides expliquant comment cette donnée est collectée, traitée et comment les utiliser. Les bonnes technologies permettent. 

Les données sont collectées dans des bases de données, relationnelles ou non relationnelles. Pour gérer ces données, on va utiliser des systèmes de gestion de bases de données (SGBD). Parmi les plus connus, les SGBDR (SGBD relationnels) comme MySQL, PostgreSQL ou non relationnels comme MongoDB ou NoSQL. Avec l’évènement du cloud, d’autres types d’infrastructures se sont développées : les datawarehouses et les data lakes.  

Les données pour l’analyse

Une fois qu’on a collecté ces données avec la bonne architecture, on peut commencer à faire des analyses. On va donc utiliser cette donnée collectée pour mieux expliquer certains phénomènes passés. 

Les outils de l’analyse de données

Les outils pour analyser cette donnée ont plusieurs niveaux de sophistication. On peut commencer par des agrégats connus par beaucoup : moyenne, médiane, quartiles, écart-type sont des outils de base de base utilisés pour analyser certaines données. 

Le niveau supérieur est ensuite d’utiliser des outils statistiques plus évolués. En voici quelques-uns : 

  • La régression linéaire
  • La régression logistique
  • L’analyse en composantes principales
  • L’analyse factorielle
  • L’analyse en composantes indépendantes

La liste est évidemment plus longue que ces seuls outils. 

Les étapes de l’analyse de données

On va d’abord collecter des données, en provenance d’une ou plusieurs sources. C’est là que l’architecture de données prend son importance. Il est important de bien définir l’objectif de collecte de ces données pour bien choisir la bonne architecture. 

Ensuite, avant de pouvoir les analyser, il faut d’abord nettoyer ces données et les transformer, pour les rendre prêtes à être analysées. On appelle cela la préparation de données, ou en anglais data prep.

On peut maintenant les analyser, la qualité de la donnée a bien évidemment toutes ces importances. On va utiliser des outils comme définis précédemment pour faire ces analyses. C’est à cette étape qu’on va transformer la donnée brute en information exploitable. Et de ces informations, on va générer des insights qui ont de la valeur pour les entreprises.

L’étape finale est celle de la restitution. Elle se fait via la visualisation de ces données.

Exemples d’utilisation de l’analyse de données

Voici quelques cas d’usages utilisés lors de l’analyse de données. L’analyse de données peut être utile pour détecter des anomalies. On va souvent parler avec le terme anglais outliers. Les techniques d’analyse de données vont permettre de détecter les données statistiquement improbables qui donc sont sûrement fausses. L’anomalie peut être de diverses formes : mauvaise mesure, erreur dans le modèle, exception qui va perturber les analyses (notamment en calculant une moyenne par exemple). 

Un autre exemple d’utilisation est la réalisation d’études de marché. Pour comparer un secteur, des entreprises, les études de marché vont être issues d’analyses de données qui vont permettre de comprendre en profondeur un secteur.

Le niveau supérieur à l’analyse est ensuite la prédiction, pour estimer des évènements qui ne se sont pas encore passés. 

Les données pour la prédiction

La prédiction est une sous-branche de l’analyse des données. C’est le fait d’utiliser des données pour prédire le futur… ou en tout cas l’estimer le mieux possible. C’est donc d’estimer parmi tous les futurs possibles, lequel est le plus probable, basé sur les données qu’on a collectées. Prévoir le futur ? C’est ce dont toute entreprise rêve. La réalité est bien sûr loin de la prédiction parfaite, mais si on peut limiter les risques, cela a une forte valeur pour les entreprises.

Les différents types de prédiction

Voici quelques exemples de types de prédiction : 

  • Classification : un algorithme prédit, d’après des données historiques, une catégorie. Par exemple, à partir du contenu d’un mail, de son objet et de son expéditeur s’il est probable que ce soit un spam ou non. Les deux catégories sont donc spam et non spam. 
  • Régression : Un algorithme prédit une valeur à partir de données historiques. Par exemple, quel sera le prix du baril de pétrole dans 2 mois. Combien vaut une maison ayant telle surface, tel nombre de pièces, tel nombre de chambres et située à tel emplacement défini ? 
  • Clustering : Le but est de regrouper des données. Exemple : on dispose de diverses mensurations d’un groupe de personnes. Comment faire 3 groupes pour créer 3 tailles de tee-shirt : S, M et L ? Les algorithmes de clustering vont nous aider à cela. 

Les secteurs révolutionnés par la donnée

Assurance

En assurance, la data va permettre de comprendre quelles sont les zones géographiques les plus à risques sur certains sinistres et donc de bien jauger le risque et le provisionner pour le jour où il survient. 

Côté client, il va permettre d’identifier quels sont les clients les plus susceptibles de partir chez la concurrence et donc de trouver le bon moyen pour les retenir. 

Cybersécurité

En matière de cybersécurité, la data peut permettre d’aider à détecter les plus grosses failles, celles qui ont les plus grosses conséquences notamment. Elle permet de détecter parmi les alertes, lesquelles présentent le plus de risques et sont à traiter en premier.  

Energie

Avez-vous entendu parler de la smart grid ? La smart grid permet d’optimiser le flux d’électricité en temps réel. Avec l’avènement des énergies renouvelables qui rendent très variables la production d’électricité, la smart grid permet de réguler la demande en électricité. On va par exemple pouvoir différer la charge des batteries de voitures électriques. On peut faire en sorte que tous les frigos ou les chauffe-eau ne tournent pas en même temps mais soient plutôt utilisés quand l’offre d’électricité est la plus importante. 

Finance

Amener les données en temps réel pour permettre des décisions éclairées est le premier élément. La détection de fraudes et la création de modèles de risques toujours plus poussés sont 2 autres cas d’usages dans lesquels la data est présente dans ce secteur

Logistique

Les cas dans l’industrie sont nombreux mais en voici un important : la data permet de mieux gérer les stocks. C’est important pour le secteur de l’industrie. Acheter trop de stocks crée un trou dans la trésorerie et nécessite d’avoir suffisamment de places, ce qui représente là aussi un coût. De l’autre côté, pour des raisons évidentes, ne pas avoir assez de stock est problématique. En effet, cela peut bloquer tout le reste de la chaîne. 

Marketing

De manière générale, la data permet de mieux comprendre sa clientèle. En amont, cela va permettre d’identifier quels clients sont les plus susceptibles d’acquérir votre produit et services. Cela va permettre de développer des stratégies pour acquérir des clients. En aval, la data va ensuite permettre d’aider à identifier les clients les plus susceptibles de partir et donc de définir des stratégies pour être capable de les garder. 

Santé

La data est en train de révolutionner le monde de la santé. Le premier cas, qui concerne tout le monde est Doctolib. En créant une plateforme et en utilisant les données, Doctolib a créé un système qui optimise les réservations pour chacun et permet de trouver les créneaux encore disponibles. Tout le monde est gagnant : les médecins réduisent les trous dans leur agenda. Les patients voient les créneaux disponibles et peuvent trouver le créneau le plus proche qui correspond à leur agenda et être informés quand un créneau se libère. 

Et avec des prédictions plus poussées : détecter certaines maladies complexes à évaluer. La détection de cancer par exemple, à l’aide d’analyses d’images (computer vision) est une grande évolution si elle permet de diminuer les erreurs humaines. En effet, un cancer mal diagnostiqué a des conséquences dans les deux sens. Par exemple, personne qui n’a pas le cancer et diagnostiquée comme ayant un cancer va subir un traitement lourd pour rien.

Transports

Les véhicules autonomes sont prévus pour dans quelques années. De nombreux essais sont prometteurs. Les données collectées à l’aide de capteurs placés un peu partout sur les voitures devraient permettre cela et rendre le transport plus agréable et réduire le risque d’accident. La prédiction de pannes est aussi un champ d’applications important de la data dans les transports et l’industrie. 

Comme vous l’avez vu, la data s’intègre aujourd’hui de plus en plus à tous les niveaux de l’entreprise. Elle permet d’optimiser la production, garantir la satisfaction client et permet d’importantes innovations, c’est pourquoi les métiers en data ont le vent en poupe ! 

Engaged Students

Hear from our students about their amazing journeys and achievements

At Albert School, the student council fosters community and learning through events. By bringing students together, we enhance campus life and create connections, contributing to develop new soft skills.

Eleonore

Bachelor in Business & Data - President of the student body Paris

What I like best about Albert School is how the professors foster our ambition and encourage us to have an entrepreneurial mindset!

Nathan

Bachelor Business & Data

Paris

Albert School has really helped me to develop, professionally, academically and even outside the classroom!

Jonathan

Bachelor Business & Data

Paris

Accredited Qualifications

Certification "AI Project Manager" Level 7, with NSF codes 326t and 326p, issued by Ascencia
Registered in the National Directory of Professional Certifications (RNCP), under number 36129, by decision of France Compétences dated January 26, 2022