Qu'est-ce qu'un data lakehouse ?

Partout dans le monde, les entreprises recherchent des solutions de stockage capables de gérer le volume, la latence, la résilience et l'accès aux données du big data. Au départ, les entreprises utilisaient leurs piles technologiques existantes pour faire en sorte que leurs lacs de données fournissent les mêmes capacités qu'un entrepôt, pour ajuster leurs entrepôts de données pour traiter d'énormes quantités de données semi-structurées ou choisir de conserver les données dans les deux.

En fin de compte, ces approches ont entraîné des coûts élevés, des utilisateurs mécontents et la duplication des données dans l'ensemble de l'entreprise. Le data lakehouse a émergé comme une nouvelle architecture de données hybride qui vise à offrir tous les avantages des entrepôts et des lacs de données tout en éliminant les faiblesses des deux systèmes.

Google Cloud fournit une solution de data lakehouse cloud native, hautement évolutive et sécurisée, qui s'appuie sur nos solutions de stockage à faible coût, nos moteurs de calcul sans serveur et nos solutions performantes de gestion des données. Découvrez comment créer un data lakehouse ouvert sur Google Cloud.

Définition de data lakehouse

Un data lakehouse est une architecture de données qui combine un lac de données et un entrepôt de données. Les data lakehouses favorisent le machine learning, l'informatique décisionnelle et l'analyse prédictive. Les entreprises peuvent ainsi bénéficier d'un stockage flexible et peu coûteux pour tous les types de données (structurées, non structurées et semi-structurées). Ils fournissent également des structures et des fonctionnalités de gestion des données.

Qu'est-ce qu'un lakehouse ?

Un data lakehouse est une architecture de données moderne qui crée une plate-forme unique en combinant les principaux avantages des lacs de données (grands dépôts de données brutes dans leur forme d'origine) et des entrepôts de données (ensembles organisés de données structurées). Plus précisément, ils permettent aux entreprises d'utiliser un espace de stockage à faible coût pour stocker de grandes quantités de données brutes tout en fournissant une structure et des fonctions de gestion des données.

Auparavant, les entrepôts et les lacs de données devaient être implémentés sous la forme d'architectures cloisonnées distinctes pour éviter de surcharger les systèmes sous-jacents et de créer des conflits pour les mêmes ressources. Des entreprises utilisaient des entrepôts de données afin de stocker des données structurées pour l'informatique décisionnelle, ainsi que des rapports et des lacs de données afin de stocker des données non structurées et semi-structurées pour les charges de travail d'intelligence artificielle (IA) et de machine learning (ML). Toutefois, cette approche nécessitait un transfert régulier des données entre les deux systèmes distincts lorsque les données de l'une ou l'autre des architectures devaient être traitées ensemble, ce qui générait de la complexité, des coûts plus élevés et des problèmes d'actualisation, de duplication et de cohérence des données.

L'objectif des data lakehouses est de décloisonner ces silos et d'offrir la flexibilité, l'évolutivité et l'agilité nécessaires pour que vos données génèrent de la valeur pour votre entreprise plutôt que des sources d'inefficacité.

Data lakehouse, lac de données ou entrepôt de données

Le terme "data lakehouse" fusionne deux types de dépôts de données existants : l'entrepôt de données et le lac de données. Quelles sont donc exactement les différences entre un data lakehouse, un lac de données ou un entrepôt de données ?

Entrepôts de données

Les entrepôts de données offrent un accès rapide aux données et à la compatibilité SQL pour les utilisateurs professionnels qui ont besoin de générer des rapports et des insights pour prendre des décisions. Toutes les données doivent passer par la phase ETL (extraction, transformation, chargement). Cela signifie qu'elles sont optimisées dans un format ou un schéma spécifique en fonction du cas d'utilisation avant de les charger afin de prendre en charge des requêtes hautes performances et de garantir l'intégrité des données. Cependant, cette approche limite la flexibilité de l'accès aux données et engendre des coûts supplémentaires si des données doivent être déplacées pour une utilisation ultérieure.

Lacs de données

Les lacs de données stockent de grandes quantités de données non structurées et structurées dans leur format natif. Contrairement aux entrepôts de données, les données sont traitées, nettoyées et transformées lors de l'analyse pour accélérer le chargement, ce qui les rend idéales pour le traitement de big data, le machine learning ou l'analyse prédictive. Cependant, ils nécessitent une expertise en science des données, ce qui limite le nombre de personnes pouvant utiliser les données, et si elles ne sont pas correctement gérées, la qualité des données peut se dégrader avec le temps. Étant donné que les données ne sont pas traitées, les lacs de données compliquent également l'obtention de requêtes en temps réel. Les données doivent donc encore être nettoyées, traitées, ingérées et intégrées avant de pouvoir être utilisées.

Data lakehouse

Un data lakehouse fusionne ces deux approches pour créer une structure unique qui vous permet d'accéder aux données et de les exploiter à différentes fins, de l'informatique décisionnelle à la data science en passant par l'IA et le machine learning. En d'autres termes, un data lakehouse capture toutes les données non structurées, structurées et semi-structurées de votre organisation et les stocke dans un espace de stockage à faible coût, tout en offrant à tous les utilisateurs la possibilité d'organiser et d'explorer les données en fonction de leurs besoins.

Fonctionnalités des data lakehouse

Voici les principales fonctionnalités du data lakehouse :

Data store unique à faible coût pour tous les types de données (structurées, non structurées et semi-structurées)
Fonctionnalités de gestion des données permettant d'appliquer un schéma, d'appliquer une gouvernance des données, et de fournir des processus ETL et un nettoyage des données
Prise en charge des transactions pour les propriétés ACID (atomicité, cohérence, isolation et durabilité) afin d'assurer la cohérence des données lorsque plusieurs utilisateurs lisent et écrivent simultanément des données
Formats de stockage standardisés pouvant être utilisés dans plusieurs logiciels
Streaming de bout en bout pour permettre l'ingestion en temps réel des données et la génération d'insights
Séparation des ressources de calcul et de stockage pour garantir l'évolutivité pour un ensemble varié de charges de travail
Interopérabilité avec des moteurs Open Source comme Apache Spark et des plates-formes d'analyse basées sur SQL comme BigQuery
Gouvernance de bout en bout et gestion des métadonnées pour toutes vos données
Accès direct pour les applications d'informatique décisionnelle aux données sources du lakehouse afin de réduire la duplication des données

Comment fonctionne un data lakehouse ?

Pour faire fonctionner un data lakehouse, il est important de réfléchir à l'objectif visé. Les data lakehouses ont pour but de centraliser des sources de données disparates et de simplifier les efforts d'ingénierie pour que tous les membres de votre entreprise puissent utiliser les données.

Un data lakehouse utilise le même service de stockage d'objets cloud économique que les lacs de données afin de fournir un stockage à la demande pour faciliter le provisionnement et le scaling. Comme un lac de données, il peut capturer et stocker d'importants volumes de tous types de données sous forme brute. Le lakehouse intègre des couches de métadonnées dans ce magasin pour fournir des fonctionnalités de type entrepôt, telles que les schémas structurés, la prise en charge des transactions ACID, la gouvernance des données, ainsi que d'autres fonctionnalités de gestion et d'optimisation des données.

Avantages d'un data lakehouse

Architecture simplifiée Un data lakehouse élimine les silos de deux plates-formes distinctes pour vous permettre de vous concentrer uniquement sur la gestion et la maintenance d'un seul dépôt de données. Les outils peuvent également être connectés directement aux données sources. Vous n'avez donc pas à extraire ni à préparer les données à utiliser dans un entrepôt de données.	Données de meilleure qualité Vous pouvez appliquer des schémas pour les données structurées et l'intégrité des données dans les architectures de data lakehouse, ce qui vous permet d'assurer la cohérence. De plus, les lakehouses accélèrent la mise à disposition des nouvelles données, ce qui permet d'obtenir des données plus récentes.	Réduction des coûts Stockez d'énormes volumes de données dans un espace de stockage à faible coût, sans avoir à gérer à la fois un entrepôt et un lac de données. Les data lakehouses permettent également de réduire les coûts liés aux processus ETL et à la déduplication.
Fiabilité accrue Les data lakehouses réduisent les transferts de données ETL entre plusieurs systèmes, ce qui réduit le risque de problèmes techniques ou de qualité liés aux mouvements de données.	Amélioration de la gouvernance des données Les données et les ressources sont consolidées en un seul et même endroit avec des data lakehouses, ce qui facilite la mise en œuvre, le test et la diffusion de contrôles de gouvernance et de sécurité.	Réduction de la duplication des données Plus il y a de copies des données qui existent dans des systèmes disparates, plus elles sont incohérentes et moins fiables. Avec les data lakehouses, vous pouvez obtenir une source unique de données que l'entreprise peut partager pour prendre des décisions, ce qui évite les incohérences et les coûts de stockage supplémentaires causés par la duplication des données.
Charges de travail variées Vous pouvez connecter plusieurs outils directement au lakehouse pour gérer les charges de travail d'analyse, de SQL, de machine learning et de science des données à partir du même dépôt.	Évolutivité élevée Le stockage d'objets cloud à faible coût dans les data lakehouses vous permet de dissocier le calcul du stockage pour offrir une évolutivité quasi illimitée et instantanée. Vous pouvez adapter la puissance de calcul et le stockage séparément en fonction des besoins de votre entreprise.

Architecture simplifiée

Un data lakehouse élimine les silos de deux plates-formes distinctes pour vous permettre de vous concentrer uniquement sur la gestion et la maintenance d'un seul dépôt de données. Les outils peuvent également être connectés directement aux données sources. Vous n'avez donc pas à extraire ni à préparer les données à utiliser dans un entrepôt de données.

Données de meilleure qualité

Vous pouvez appliquer des schémas pour les données structurées et l'intégrité des données dans les architectures de data lakehouse, ce qui vous permet d'assurer la cohérence. De plus, les lakehouses accélèrent la mise à disposition des nouvelles données, ce qui permet d'obtenir des données plus récentes.

Réduction des coûts

Stockez d'énormes volumes de données dans un espace de stockage à faible coût, sans avoir à gérer à la fois un entrepôt et un lac de données. Les data lakehouses permettent également de réduire les coûts liés aux processus ETL et à la déduplication.

Fiabilité accrue

Les data lakehouses réduisent les transferts de données ETL entre plusieurs systèmes, ce qui réduit le risque de problèmes techniques ou de qualité liés aux mouvements de données.

Amélioration de la gouvernance des données

Les données et les ressources sont consolidées en un seul et même endroit avec des data lakehouses, ce qui facilite la mise en œuvre, le test et la diffusion de contrôles de gouvernance et de sécurité.

Réduction de la duplication des données

Plus il y a de copies des données qui existent dans des systèmes disparates, plus elles sont incohérentes et moins fiables. Avec les data lakehouses, vous pouvez obtenir une source unique de données que l'entreprise peut partager pour prendre des décisions, ce qui évite les incohérences et les coûts de stockage supplémentaires causés par la duplication des données.

Charges de travail variées

Vous pouvez connecter plusieurs outils directement au lakehouse pour gérer les charges de travail d'analyse, de SQL, de machine learning et de science des données à partir du même dépôt.

Évolutivité élevée

Le stockage d'objets cloud à faible coût dans les data lakehouses vous permet de dissocier le calcul du stockage pour offrir une évolutivité quasi illimitée et instantanée. Vous pouvez adapter la puissance de calcul et le stockage séparément en fonction des besoins de votre entreprise.

Défis liés à l'utilisation d'un data lakehouse

Le concept de data lakehouse a évolué au fil du temps, les entreprises souhaitant une flexibilité maximale pour le stockage des données, ainsi que plus de choix et d'interopérabilité avec les moteurs d'analyse et de traitement des données. De plus, les data lakehouses sont complexes à construire de A à Z et doivent désormais être étroitement associées aux fonctionnalités d'IA. Dans la plupart des cas, vous devrez opter pour une solution de data lakehouse prête à l'emploi ou utiliser une plate-forme comme Google Cloud, qui offre tous les composants nécessaires à une architecture de lakehouse ouverte.

Couches de l'architecture du data lakehouse

Une architecture de data lakehouse comprend les couches suivantes :

Couche de stockage : la couche de stockage est la couche de lac de données utilisée pour toutes vos données brutes. Il s'agit généralement d'un magasin d'objets peu coûteux pour tous vos ensembles de données non structurés, structurés et semi-structurés. Il est découplé des ressources de calcul pour que le calcul puisse évoluer indépendamment.
Couche de préproduction : la couche de préproduction est la couche de métadonnées qui se trouve au-dessus de votre couche de lac de données. Elle fournit un catalogue détaillé de tous les objets de données stockés, ce qui vous permet d'appliquer des fonctionnalités de gestion des données, telles que l'application du schéma, les propriétés ACID, l'indexation, la mise en cache et le contrôle des accès.
Couche sémantique : la couche sémantique, la couche de lakehouse, expose toutes vos données afin que les utilisateurs puissent les utiliser à l'aide d'applications clientes et d'outils d'analyse pour accéder aux données et les exploiter à des fins de test et de présentation de l'informatique décisionnelle.

Apache Iceberg transforme les data lakehouses

Apache Iceberg révolutionne les architectures de lakehouse en fournissant un format de table ouvert qui offre des fonctionnalités propres aux entrepôts de données (par exemple, transactions ACID, schémas évolutifs et fonctionnalités temporelles) directement aux lacs de données stockés dans un stockage d'objets. Les entreprises peuvent ainsi créer des plates-formes de données hautement évolutives, performantes et flexibles, qui sont interopérables dans différents moteurs d'analyse et évitent la dépendance vis-à-vis d'un fournisseur.

L'approche de Google Cloud a consisté à fournir aux entreprises un data lakehouse ouvert, géré et hautement performant basé sur BigLake. Ce moteur de stockage unifié offre une implémentation native pour Apache Iceberg sur Cloud Storage, ce qui vous permet d'exploiter le moteur Open Source de votre choix directement sur les données Iceberg. BigLake Metastore permet de simplifier la gestion des données et s'intègre à Dataplex Universal Catalog pour une gouvernance unifiée. Vous pouvez appliquer un contrôle des accès ultraprécis et accélérer les performances des requêtes sur les données distribuées.

Cette approche, combinée au stockage et à la puissance de calcul de BigQuery, place le data lakehouse hautes performances géré au cœur des charges de travail d'analyse avancée, de flux de données et d'IA/de ML avec Iceberg. En plus d'être intégré à l'écosystème Google Cloud, BigQuery vous permet d'utiliser des technologies partenaires et Open Source pour réunir le meilleur des capacités des lacs et des entrepôts dans un seul système.