Qu'est-ce qu'un data lakehouse ?

Partout dans le monde, les entreprises recherchent des solutions de stockage capables de gérer le volume, la latence, la résilience et l'accès aux données du big data. Au départ, les entreprises utilisaient leurs piles technologiques existantes pour faire en sorte que leurs lacs de données fournissent les mêmes capacités qu'un entrepôt, pour ajuster leurs entrepôts de données pour traiter d'énormes quantités de données semi-structurées ou choisir de conserver les données dans les deux.

En fin de compte, ces approches ont entraîné des coûts élevés, des utilisateurs mécontents et la duplication des données dans l'ensemble de l'entreprise. Le data lakehouse a émergé comme une nouvelle architecture de données hybride qui vise à offrir tous les avantages des entrepôts et des lacs de données tout en éliminant les faiblesses des deux systèmes.

Google Cloud fournit une solution de data lakehouse cloud native, hautement évolutive et sécurisée, qui s'appuie sur nos solutions de stockage à faible coût, nos moteurs de calcul sans serveur et nos solutions performantes de gestion des données. Découvrez comment Google Cloud vous aide à créer un data lakehouse ouvert.

Définition de data lakehouse

Un data lakehouse est une architecture de données qui combine un lac de données et un entrepôt de données. Les data lakehouses favorisent le machine learning, l'informatique décisionnelle et l'analyse prédictive. Les entreprises peuvent ainsi bénéficier d'un stockage flexible et peu coûteux pour tous les types de données (structurées, non structurées et semi-structurées) tout en offrant des structures et des fonctionnalités de gestion des données.

Qu'est-ce qu'un lakehouse ?

Un data lakehouse est une architecture de données moderne qui crée une plate-forme unique en combinant les principaux avantages des lacs de données (grands dépôts de données brutes dans leur forme d'origine) et des entrepôts de données (ensembles organisés de données structurées). Plus précisément, ils permettent aux entreprises d'utiliser un espace de stockage à faible coût pour stocker de grandes quantités de données brutes tout en fournissant une structure et des fonctions de gestion des données.

Auparavant, les entrepôts et les lacs de données devaient être implémentés sous la forme d'architectures cloisonnées distinctes pour éviter de surcharger les systèmes sous-jacents et de créer des conflits pour les mêmes ressources. Des entreprises utilisaient des entrepôts de données pour stocker des données structurées pour l'informatique décisionnelle (BI), ainsi que des rapports et des lacs de données pour stocker des données non structurées et semi-structurées pour les charges de travail de machine learning (ML). Toutefois, cette approche nécessitait un transfert régulier des données entre les deux systèmes distincts lorsque les données de l'une ou l'autre des architectures devaient être traitées ensemble, ce qui générait de la complexité, des coûts plus élevés et des problèmes d'actualisation, de duplication et de cohérence des données.

L'objectif des data lakehouses est de décloisonner ces silos et d'offrir la flexibilité, l'évolutivité et l'agilité nécessaires pour que vos données génèrent de la valeur pour votre entreprise plutôt que des sources d'inefficacité.

Data lakehouses, lac de données ou entrepôt de données

Le terme "data lakehouse" fusionne deux types de dépôts de données existants : l'entrepôt de données et le lac de données. Quelles sont donc exactement les différences entre un data lakehouse, un lac de données ou un entrepôt de données ?

Entrepôts de données

Les entrepôts de données offrent un accès rapide aux données et à la compatibilité SQL pour les utilisateurs professionnels qui ont besoin de générer des rapports et des insights pour prendre des décisions. Toutes les données doivent passer par la phase ETL (extraction, transformation, chargement). Cela signifie qu'elles sont optimisées dans un format ou un schéma spécifique en fonction du cas d'utilisation avant de les charger afin de prendre en charge des requêtes hautes performances et de garantir l'intégrité des données. Cependant, cette approche limite la flexibilité de l'accès aux données et engendre des coûts supplémentaires si des données doivent être déplacées pour une utilisation ultérieure.

Lacs de données

Les lacs de données stockent de grandes quantités de données non structurées et structurées dans leur format natif. Contrairement aux entrepôts de données, les données sont traitées, nettoyées et transformées lors de l'analyse pour accélérer le chargement, ce qui les rend idéales pour le traitement de big data, le machine learning ou l'analyse prédictive. Cependant, ils nécessitent une expertise en science des données, ce qui limite le nombre de personnes pouvant utiliser les données, et si elles ne sont pas correctement gérées, la qualité des données peut se dégrader avec le temps. Étant donné que les données ne sont pas traitées, les lacs de données compliquent également l'obtention de requêtes en temps réel. Les données doivent donc encore être nettoyées, traitées, ingérées et intégrées avant de pouvoir être utilisées.

Data lakehouse

Un data lakehouse fusionne ces deux approches pour créer une structure unique qui vous permet d'accéder aux données et de les exploiter à de nombreuses fins différentes, de l'informatique décisionnelle à la science des données en passant par le machine learning. En d'autres termes, un data lakehouse capture toutes les données non structurées, structurées et semi-structurées de votre organisation et les stocke dans un espace de stockage à faible coût, tout en offrant à tous les utilisateurs la possibilité d'organiser et d'explorer les données en fonction de leurs besoins.

Fonctionnalités des data lakehouse

Voici les principales fonctionnalités du data lakehouse :

  • Data store unique à faible coût pour tous les types de données (structurées, non structurées et semi-structurées)
  • Fonctionnalités de gestion des données permettant d'appliquer un schéma, d'appliquer une gouvernance des données, et de fournir des processus ETL et un nettoyage des données
  • Prise en charge des transactions pour les propriétés ACID (atomicité, cohérence, isolation et durabilité) afin d'assurer la cohérence des données lorsque plusieurs utilisateurs lisent et écrivent simultanément des données
  • Formats de stockage standardisés pouvant être utilisés dans plusieurs logiciels
  • Streaming de bout en bout pour permettre l'ingestion en temps réel des données et la génération d'insights
  • Séparation des ressources de calcul et de stockage pour garantir l'évolutivité pour un ensemble varié de charges de travail

Accès direct pour les applications d'informatique décisionnelle aux données sources du lakehouse afin de réduire la duplication des données

Comment fonctionne un data lakehouse ?

Pour faire fonctionner un data lakehouse, il est important de réfléchir à l'objectif visé. Les data lakehouses ont pour but de centraliser des sources de données disparates et de simplifier les efforts d'ingénierie pour que tous les membres de votre entreprise puissent utiliser les données.

Un data lakehouse utilise le même service de stockage d'objets cloud économique que les lacs de données afin de fournir un stockage à la demande pour faciliter le provisionnement et le scaling. Comme un lac de données, il peut capturer et stocker d'importants volumes de tous types de données sous forme brute. Le lakehouse intègre des couches de métadonnées dans ce magasin pour fournir des fonctionnalités de type entrepôt, telles que les schémas structurés, la prise en charge des transactions ACID, la gouvernance des données, ainsi que d'autres fonctionnalités de gestion et d'optimisation des données.

Avantages d'un data lakehouse

Architecture simplifiée

Un data lakehouse élimine les silos de deux plates-formes distinctes pour vous permettre de vous concentrer uniquement sur la gestion et la maintenance d'un seul dépôt de données. Les outils peuvent également être connectés directement aux données sources. Vous n'avez donc pas à extraire ni à préparer les données à utiliser dans un entrepôt de données.

Données de meilleure qualité

Vous pouvez appliquer des schémas pour les données structurées et l'intégrité des données dans les architectures de data lakehouse, ce qui vous permet d'assurer la cohérence. De plus, les lakehouses accélèrent la mise à disposition des nouvelles données, ce qui permet d'obtenir des données plus récentes.

Réduction des coûts

Stockez d'énormes volumes de données dans un espace de stockage à faible coût, sans avoir à gérer à la fois un entrepôt et un lac de données. Les data lakehouses permettent également de réduire les coûts liés aux processus ETL et à la déduplication.

Fiabilité accrue

Les data lakehouses réduisent les transferts de données ETL entre plusieurs systèmes, ce qui réduit le risque de problèmes techniques ou de qualité liés aux mouvements de données.

Amélioration de la gouvernance des données

Les données et les ressources sont consolidées en un seul et même endroit avec des data lakehouses, ce qui facilite la mise en œuvre, le test et la diffusion de contrôles de gouvernance et de sécurité.

Réduction de la duplication des données

Plus il y a de copies des données qui existent dans des systèmes disparates, plus elles sont incohérentes et moins fiables. Avec les data lakehouses, vous pouvez obtenir une source unique de données que l'entreprise peut partager pour prendre des décisions, ce qui évite les incohérences et les coûts de stockage supplémentaires causés par la duplication des données.

Charges de travail variées

Vous pouvez connecter plusieurs outils directement au lakehouse pour gérer les charges de travail d'analyse, de SQL, de machine learning et de science des données à partir du même dépôt.

Évolutivité élevée

Le stockage d'objets cloud à faible coût dans les data lakehouses vous permet de dissocier le calcul du stockage pour offrir une évolutivité quasi illimitée et instantanée. Vous pouvez adapter la puissance de calcul et le stockage séparément en fonction des besoins de votre entreprise.

Architecture simplifiée

Un data lakehouse élimine les silos de deux plates-formes distinctes pour vous permettre de vous concentrer uniquement sur la gestion et la maintenance d'un seul dépôt de données. Les outils peuvent également être connectés directement aux données sources. Vous n'avez donc pas à extraire ni à préparer les données à utiliser dans un entrepôt de données.

Données de meilleure qualité

Vous pouvez appliquer des schémas pour les données structurées et l'intégrité des données dans les architectures de data lakehouse, ce qui vous permet d'assurer la cohérence. De plus, les lakehouses accélèrent la mise à disposition des nouvelles données, ce qui permet d'obtenir des données plus récentes.

Réduction des coûts

Stockez d'énormes volumes de données dans un espace de stockage à faible coût, sans avoir à gérer à la fois un entrepôt et un lac de données. Les data lakehouses permettent également de réduire les coûts liés aux processus ETL et à la déduplication.

Fiabilité accrue

Les data lakehouses réduisent les transferts de données ETL entre plusieurs systèmes, ce qui réduit le risque de problèmes techniques ou de qualité liés aux mouvements de données.

Amélioration de la gouvernance des données

Les données et les ressources sont consolidées en un seul et même endroit avec des data lakehouses, ce qui facilite la mise en œuvre, le test et la diffusion de contrôles de gouvernance et de sécurité.

Réduction de la duplication des données

Plus il y a de copies des données qui existent dans des systèmes disparates, plus elles sont incohérentes et moins fiables. Avec les data lakehouses, vous pouvez obtenir une source unique de données que l'entreprise peut partager pour prendre des décisions, ce qui évite les incohérences et les coûts de stockage supplémentaires causés par la duplication des données.

Charges de travail variées

Vous pouvez connecter plusieurs outils directement au lakehouse pour gérer les charges de travail d'analyse, de SQL, de machine learning et de science des données à partir du même dépôt.

Évolutivité élevée

Le stockage d'objets cloud à faible coût dans les data lakehouses vous permet de dissocier le calcul du stockage pour offrir une évolutivité quasi illimitée et instantanée. Vous pouvez adapter la puissance de calcul et le stockage séparément en fonction des besoins de votre entreprise.

Défis liés à l'utilisation d'un data lakehouse

Le concept de data lakehouse est encore une architecture relativement récente. Par conséquent, certains des plus grands défis concernent son évolution et les bonnes pratiques sont encore en train d'être définies par les utilisateurs de la première heure.

De plus, les data lakehouses sont complexes à construire de A à Z. Dans la plupart des cas, vous devrez opter pour une solution de data lakehouse prête à l'emploi ou utiliser une plate-forme comme Google Cloud, qui offre tous les composants nécessaires à une architecture de lakehouse ouverte.

Couches de l'architecture du data lakehouse

Une architecture de data lakehouse comprend les couches suivantes :

  • Couche de stockage : la couche de stockage est la couche de lac de données utilisée pour toutes vos données brutes. Il s'agit généralement d'un magasin d'objets peu coûteux pour tous vos ensembles de données non structurés, structurés et semi-structurés. Il est découplé des ressources de calcul pour que le calcul puisse évoluer indépendamment.
  • Couche de préproduction : la couche de préproduction est la couche de métadonnées qui se trouve au-dessus de votre couche de lac de données. Elle fournit un catalogue détaillé de tous les objets de données stockés, ce qui vous permet d'appliquer des fonctionnalités de gestion des données, telles que l'application du schéma, les propriétés ACID, l'indexation, la mise en cache et le contrôle des accès.
  • Couche sémantique : la couche sémantique, la couche de lakehouse, expose toutes vos données afin que les utilisateurs puissent les utiliser à l'aide d'applications clientes et d'outils d'analyse pour accéder aux données et les exploiter à des fins de test et de présentation de l'informatique décisionnelle.

Exemples de data lakehouse

Il existe plusieurs exemples de data lakehouse existants, dont la plate-forme Databricks Lakehouse et Amazon Redshift Spectrum. Toutefois, à mesure que les technologies continuent de mûrir et que l'adoption du data lakehouse est de plus en plus importante, l'implémentation s'est davantage éloignée du couplage des composants du lakehouse à un lac de données spécifique.

Par exemple, l'approche de Google Cloud a consisté à unifier les principales fonctionnalités des opérations de données d'entreprise, des lacs de données et des entrepôts de données. Cette implémentation place le stockage et la puissance de calcul de BigQuery au cœur de l'architecture du data lakehouse. Vous pouvez ensuite appliquer une approche de gouvernance unifiée et d'autres fonctionnalités de type entrepôt à l'aide de Dataplex et d'Analytics Hub.

En plus d'être intégré à l'écosystème Google Cloud, BigQuery vous permet d'utiliser des technologies partenaires et Open Source pour réunir le meilleur des capacités des lacs et des entrepôts dans un seul système.

Nous poursuivons cette approche avec le lancement de BigLake, désormais disponible en version preview, un moteur de stockage unifié qui simplifie l'accès aux données aux entrepôts et aux lacs de données. Vous pouvez appliquer un contrôle des accès ultraprécis et accélérer les performances des requêtes sur les données distribuées.

Relevez vos plus grands défis avec Google Cloud

Les nouveaux clients bénéficient de 300 $ de crédits à dépenser sur Google Cloud.
Contactez un spécialiste des ventes Google Cloud pour discuter plus en détail de votre propre défi.
  • Faites des économies grâce à notre approche transparente concernant la tarification
  • Le paiement à l'usage de Google Cloud permet de réaliser des économies automatiques basées sur votre utilisation mensuelle et des tarifs réduits pour les ressources prépayées. Contactez-nous dès aujourd'hui afin d'obtenir un devis.
Google Cloud