logo academy

Data Warehouse : qu’est-ce que c’est, définition et cas d’utilisation de l’entrepôt de données

5 avril, 2023

12 min

Data Warehouse : qu’est-ce que c’est, définition et cas d’utilisation de l’entrepôt de données
intermédiaire

Qu’est-ce qu’un data warehouse ? Par définition, c’est bien plus qu’une base de données : un DWH est un système de stockage et d’analyse de big data, qui soutient les processus décisionnels d’une entreprise afin d’obtenir de meilleures orientations pour l’avenir. Étudions la structure d’un entrepôt de données et son fonctionnement, afin de connaître les avantages, les inconvénients et les applications de cette technologie. 

Data Warehouse : qu’est-ce que c’est ?

Comprendre ce qu’est un entrepôt de données (DW ou DWH) et en formuler une définition est essentiel pour toute entreprise. Il s’agit de l’ensemble des outils utilisés pour gérer le flux continu d’informations dans lequel nous sommes immergés, afin d’en extraire de la valeur. Un DWH est composé d’une archive historique de données, structurée à plusieurs niveaux, qui peut être analysée par le biais de requêtes spécifiques afin de soutenir les décisions stratégiques.

Ce processus est appelé business intelligence (BI), un concept formulé par la société IBM, qui a également inventé le terme de data warehouse. En 1988, ce sont en effet les chercheurs Barry Devlin et Paul Murphy qui ont nommé cette technologie permettant de construire un entrepôt de données (base de données) et les outils pour l’examiner. Un DWH est la seule source de vérité factuelle pour une entreprise, sur la base de laquelle elle peut faire des choix optimaux pour l’avenir

La définition d’un entrepôt de données implique donc la big data, des informations d’un grand volume, d’une grande variété et d’une grande rapidité, incompatibles avec les systèmes d’analyse et d’archivage traditionnels. Un DWH est avant tout une vaste collection de données structurées, des informations aux caractéristiques prédéfinies, agrégées à partir de sources internes et externes à l’entreprise. 

C’est notamment William Inmon qui explique ce qu’est un entrepôt de données, en commençant par les 4 caractéristiques de ce système :

  • Sujet : les DWH suivent une logique sectorielle, considérant les données appartenant uniquement à des sujets d’intérêt pour l’entreprise. Il s’agit d’archives orientées autour d’un sujet, organisées en domaines spécifiques, tels que les produits, les clients, les ventes, etc ; 
  • Intégré : un entrepôt de données extrait des informations de différentes sources, il est donc nécessaire de veiller à la cohérence entre elles, en croisant les données à la recherche d’incohérences. Cette intégration est généralement réalisée avant l’archivage, dans la phase de transformation des données ;
  • Variable dans le temps : un DWH sert d’archive historique pour l’entreprise et se réfère donc à une période très longue, de l’ordre de plusieurs années. Toutes les modifications de l’information, relatives à chaque élément individuel, sont donc enregistrées, créant de nouvelles instances sans écraser les données ;
  • Non volatile : l’accès aux informations stockées se fait en lecture seule car, étant donné la valeur historique d’un entrepôt de données, il n’est pas nécessaire de le modifier ou de le mettre à jour. Seules de nouvelles informations peuvent être ajoutées.

Une définition complète d’un data warehouse pourrait donc être la suivante : 

Un système d’archivage et d’analyse d’entreprise pour soutenir les processus de prise de décision, basé sur une collection historique d’informations, permanente et organisée par sujet, en consultant différentes sources. 

Types de Data Warehouse : couches et composants

Une autre façon de comprendre ce qu’est un entrepôt de données est d’examiner son architecture, les éléments qui le composent et les étapes de son fonctionnement.

Sur la base du parcours de l’information, on peut d’abord distinguer deux types de DWH. Le premier est organisé en suivant, dans l’ordre, les opérations d’extraction, de transformation et de chargement des données. Le second inverse les deux dernières étapes du processus, ce qui donne un système techniquement différent.

Si l’on considère le premier type d’entrepôt de données, le processus ETL (Extract, Transform, Load) commence par l’extraction des informations à partir des sources sélectionnées en interrogeant les bases de données respectives. Les données brutes ainsi extraites sont rassemblées dans une sorte “d’antichambre” de l’entrepôt de données, appelée “zone de transit”

Ensuite, l’information est transformée : elle est essentiellement “traduite” dans un langage unique conforme à des désignations, des codifications et des unités de mesure précises. Les données incomplètes, les erreurs et les informations corrompues ou redondantes sont intégrées ou éliminées. Ce processus est également appelé nettoyage des données et contribue à la définition d’un entrepôt de données au même titre que la phase ultérieure de “chargement”.

Ces données traitées et “nettoyées” sont ensuite enregistrées dans le magasin de données opérationnelles  (ODS), où elles seront encore organisées avant d’être transférées dans la “mémoire” de l’entrepôt de données proprement dit. Cette base de données contient un maximum d’informations détaillées, mais peut être divisée en sous-groupes : les data marts, des ensembles limités de données qui concernent une branche particulière d’une entreprise, comme le marketing ou le service client. 

Ici, les big data sont organisées en étoile : pour un élément donné, la table des faits énumère ses caractéristiques essentielles, qui sont ensuite explicitées dans les tables des dimensions. Dans la pratique, les faits sont des codes sommaires, auxquels les dimensions donnent un contexte plus large. 

Par exemple, un client serait représenté comme suit dans un entrepôt de données : les faits précèdent les dimensions :

  • ID de résidence : région, province et ville
  • ID d’âge : jour, mois, année (de naissance)
  • ID d’emploi : rôle, salaire, ancienneté
Star Scheme

Si les dimensions étaient divisées en sous-tableaux, un pour chaque attribut, le modèle en étoile se transformerait en un modèle en flocon de neige plus ramifié. 

Ces types de bases de données, qui lient les informations dans des structures hiérarchiques, sont appelées relationnelles. Chacune d’entre elles est associée à un catalogue : une sorte de registre de métadonnées, c’est-à-dire d’informations supplémentaires qui expliquent la nature de l’information qu’elles accompagnent comme par exemple sa provenance ou sa date d’extraction.

Le processus ETL ne suffit cependant pas à expliquer ce qu’est un data warehouse : les données finement traitées doivent encore être analysées par des outils de veille stratégique. C’est donc à ce stade que les différentes bases de données de l’entrepôt de données sont interrogées : des requêtes leur sont soumises, formulées selon le langage SQL (Structured Query Language). Ces requêtes sont des directives basées sur des faits et des dimensions, qui explorent la base de données à la recherche des données les mieux adaptées. L’exploitation de data marts spécifiques permet d’obtenir des solutions en peu de temps, mais le niveau de détail de l’archive générale est sacrifié. 

Dans tous les cas, les outils d’analyse d’un entrepôt de données sont les OLAP (On-Line Analytical Processing), basés sur des schémas en étoile, qui construisent ce que l’on appelle des cubes multidimensionnels, des instantanés de la base de données. Les réponses aux requêtes sont ensuite visualisées dans des rapports écrits, des graphiques ou des tableaux de bord à présenter à l’utilisateur final.

Selon le modèle ETL, nous pourrions donc expliquer ce qu’est un entrepôt de données en 4 niveaux ou couches : 

  • Transformation : extraction et intégration (nettoyage)
  • Préparation et stockage : base de données DWH et data mart
  • Analyse : outils OLAP
  • Présentation : écrite ou graphique
Data warehouse structure

La définition d’un data warehouse inclut également le type ELT (Extract, Load, Transform), qui charge les données brutes directement dans la base de données centrale et ne les transforme que lorsqu’elles sont nécessaires à l’analyse. Dans le processus ELT, il n’y a pas de zones d’attente ou de data marts : les données sont à la fois stockées et traitées dans la base de données unique de l’entrepôt.

Le modèle ELT nécessite moins d’opérations et est donc plus rapide et moins coûteux. Il prend également en charge les données non structurées (telles que les images, les vidéos ou les sons). Toutefois, il pourrait entraîner des atteintes à la vie privée et à la sécurité : par exemple, si aucun prétraitement n’est effectué, les données sensibles ne peuvent pas être “occultées” au début du processus. 

Avantages, inconvénients et utilisations d’un Data Warehouse

La définition d’un entrepôt de données permet non seulement de clarifier de quoi il s’agit, mais aussi de présenter ses principaux avantages. 

Tout d’abord, elle fournit des données qualitatives : l’agrégation de différentes sources permet d’obtenir des informations complètes, mais c’est la phase de traitement qui les rend fiables, en éliminant les erreurs et en normalisant les données. De plus, l’interrogation d’une base de données unique, curée et intégrée, au lieu de consulter des sources individuelles, accélère les opérations de compréhension.

Le principal avantage d’un entrepôt de données, à cet égard, est l’aide à la prise de décision : les stratégies et les plans futurs peuvent être organisés sur la base des données, ce qui augmente la probabilité de réussite. Cela représente enfin un avantage concurrentiel par rapport aux entreprises qui ne font pas de choix éclairés à l’aide d’un DWH.

Cependant, les data warehouses présentent également des inconvénients :

  • La création et la maintenance d’un système DWH nécessitent beaucoup de temps et des efforts constants, des ressources spécifiques doivent être consacrées à la préservation de sa valeur informative.
  • L’intervention humaine dans le traitement des données peut générer des incohérences dans les données. Étant donné l’immensité des bases de données, il est difficile de détecter les erreurs, ce qui peut conduire à des résultats faussés, réduisant ainsi l’utilité de l’entrepôt de données.
  • Les archives historiques ont besoin de beaucoup d’espace pour couvrir plusieurs années. Cela peut entraîner une augmentation des coûts, compte tenu de la croissance exponentielle des informations générées par internet. Les solutions de stockage cloud peuvent toutefois constituer une alternative au matériel propriétaire, en fournissant un espace de stockage à des prix économiques.
  • L’évolutivité est un défi pour toute technologie : l’accès simultané de plusieurs utilisateurs à un entrepôt de données peut provoquer une congestion et ralentir les opérations. Toutefois, la répartition du trafic entre plusieurs entrepôts de données peut être une solution.

À présent, nous pouvons nous pencher sur certaines applications. En général, deux types de systèmes découlent d’un entrepôt de données, représentant ses deux objectifs : 

  1. Système d’aide à la décision (DSS) – système permettant de résoudre des problèmes spécifiques
  2. Système d’information de l’exécutif/de l’entreprise (EIS) – l’infrastructure qui permet à l’information de se répandre, sans objectif particulier.

Le premier cas d’utilisation est celui, déjà exploré, de l’analyse et du reporting, ce que l’on appelle le “contrôle de gestion”. Cependant, les entrepôts de données peuvent également être utilisés pour la gestion des risques et la détection des fraudes : leur puissance statistique, fournie par diverses sources, permet un suivi approfondi, à partir duquel les vulnérabilités potentielles de l’entreprise peuvent être identifiées. L’application au marketing est la plus connue, car l’entrepôt de données contient des informations utiles pour organiser des campagnes, des stratégies de conversion de la clientèle ou des ventes de produits, encore plus si les activités passent par internet. 

Comme mentionné ci-dessus, les DWH représentent une source de connaissances pour les entreprises, surtout dans le cas de données structurées. Leur pouvoir d’information est toutefois renforcé par les data lakes contenant des données non structurées (telles que celles provenant des réseaux sociaux), de sorte que les deux types de bases de données sont souvent intégrés dans un seul et même entrepôt de données (data lakehouse).

Enfin, les entrepôts de données sont cruciaux pour la conception de nouveaux produits et services : les outils d’analyse, dans ce cas, sont complétés par des environnements de simulation appelés “sandbox” (pas le métavers) où il est possible de tester, de construire des solutions ou d’appliquer de nouvelles méthodes.

En conclusion, les data scientists savent bien ce qu’est un data warehouse, sa définition opérationnelle et ses utilisations possibles, mais il est possible de combiner leur apport d’analyse avec l’intelligence artificielle, afin d’automatiser certains processus grâce au machine learning.

En rapport