Comparaison entre les lacs de données et les entrepôts de données

La gestion des données est indispensable pour les analyses métier et la création d'expériences client exceptionnelles. Vous avez probablement déjà entendu parler de lacs de données et d'entrepôts de données, mais il est difficile de savoir lequel convient à votre projet. Ces deux systèmes gèrent les données de différentes manières. Un lac de données est comme un grand bassin de données brutes dont vous ne définissez pas l'objectif immédiatement. Un entrepôt de données ressemble davantage à une bibliothèque de données organisées et filtrées, prêtes à être utilisées pour des tâches spécifiques. Connaître les différences entre ces deux outils vous aide à choisir celui qui répond le mieux à vos besoins en matière de données.

Définition du lac de données et de l'entrepôt de données

  • Un lac de données est un emplacement centralisé où vous pouvez stocker toutes vos données à n'importe quelle échelle. Vous n'avez pas besoin de modifier les données avant de les enregistrer. Il stocke les données dans leur forme brute, qu'elles soient structurées, semi-structurées ou non structurées. C'est donc un excellent choix pour les équipes qui souhaitent collecter de nombreuses données et décider ultérieurement de la façon de les utiliser.
  • Un entrepôt de données est un système conçu pour l'analyse de données et le reporting. Contrairement à un lac de données, un entrepôt de données ne contient que des données qui ont déjà été nettoyées et traitées. Il utilise une structure ou un "schéma" spécifique pour organiser les données. Vous pouvez ainsi exécuter des requêtes et créer des rapports métier très rapidement.

Quelle est la différence entre un lac de données et un entrepôt de données ?

La principale différence entre ces deux systèmes réside dans la façon dont ils gèrent la structure et l'utilisation des données. Un lac de données est destiné aux données brutes non structurées, tandis qu'un entrepôt de données est conçu pour les données structurées et traitées.

Caractéristique

Lac de données

Entrepôt de données

Type de données

Toutes les données (brutes, structurées, non structurées)

Données structurées traitées

Objectif

Pas encore défini

Défini et spécifique

Utilisateurs

Data scientists, ingénieurs de données

Analystes de données, analystes de l'informatique décisionnelle

Accessibilité

Très flexible, facile à modifier

Plus difficile à modifier, plus rigide

Traitement

Schéma à la lecture (défini lors de l'utilisation)

Schéma à l'écriture (défini avant l'enregistrement)

Avantages


  • Faible coût pour les volumes importants
  • Flexibilité pour tout type de données
  • Évolutivité pour les modèles d'IA et de ML
  • Requêtes SQL hautes performances
  • Qualité et fiabilité des données
  • Sécurisé et simple pour les utilisateurs SQL

Caractéristique

Lac de données

Entrepôt de données

Type de données

Toutes les données (brutes, structurées, non structurées)

Données structurées traitées

Objectif

Pas encore défini

Défini et spécifique

Utilisateurs

Data scientists, ingénieurs de données

Analystes de données, analystes de l'informatique décisionnelle

Accessibilité

Très flexible, facile à modifier

Plus difficile à modifier, plus rigide

Traitement

Schéma à la lecture (défini lors de l'utilisation)

Schéma à l'écriture (défini avant l'enregistrement)

Avantages


  • Faible coût pour les volumes importants
  • Flexibilité pour tout type de données
  • Évolutivité pour les modèles d'IA et de ML
  • Requêtes SQL hautes performances
  • Qualité et fiabilité des données
  • Sécurisé et simple pour les utilisateurs SQL

Exemples de secteurs

Imaginez que vous développez un jeu mobile. Vous voulez suivre chaque clic effectué par les utilisateurs. Vous ne savez pas encore lesquels sont importants pour votre prochaine mise à jour. Vous pouvez envoyer tous ces événements JSON bruts directement dans un lac de données. Par la suite, vos data scientists peuvent exécuter un script pour trouver des tendances dans ces données brutes.

Les capteurs IoT en sont un autre exemple. Si vous avez des milliers de capteurs qui envoient des données de température chaque seconde, vous pouvez charger ces données brutes dans un lac. Vous disposerez d'un historique complet de tout ce qui s'est passé, sans avoir à vous soucier de la mise en forme.

Prenons l'exemple d'une entreprise de commerce de détail qui doit suivre ses ventes. Chaque soir, le système récupère toutes les commandes de la journée, nettoie les adresses, calcule les taxes et enregistre le tout dans un entrepôt de données. Un responsable peut ensuite générer un rapport pour connaître le nombre exact de chemises bleues vendues à Chicago. Les données sont propres, bien ordonnées et prêtes à être utilisées dans un graphique.

Une banque peut également utiliser un entrepôt de données pour suivre les comptes. Elle doit connaître le solde exact de chaque client à tout moment. Elle ne veut pas de journaux bruts, mais une table structurée qui affiche clairement chaque transaction.

Créer un modèle d'IA avec un lac de données

Les data scientists doivent souvent créer un modèle d'IA capable de repérer les réservations frauduleuses en temps réel. Comme les données proviennent de nombreux endroits (journaux de sites Web, événements d'applications mobiles, partenaires tiers, etc.), un lac de données est idéal pour entraîner des modèles d'IA.

Collecter des données brutes

Commencez par configurer un pipeline pour envoyer chaque événement brut dans Cloud Storage. Cela inclut les fichiers JSON désordonnés du site Web et les journaux binaires de l'application mobile. Vous n'avez pas besoin de vous soucier de la mise en forme des données pour le moment, car Cloud Storage est conçu pour ce type d'échelle.

Traitement à grande échelle

Vous devez nettoyer les données pour que le modèle d'IA puisse les exploiter. Google Cloud Service pour Apache Spark vous permet d'exécuter un job Apache Spark sans serveur. Vous pouvez ainsi transformer des millions de journaux bruts en un format structuré, sans avoir à gérer de serveurs ni de clusters.

Entraîner le modèle

Maintenant que les données sont prêtes, vous pouvez les charger dans un outil de machine learning. Comme les données brutes d'origine se trouvent toujours dans le lac, vous pouvez toujours y revenir et examiner les détails "cachés" qui pourraient vous aider à améliorer davantage le modèle.

En utilisant un lac de données, vous pouvez tout stocker à faible coût et ne traiter que ce qui est nécessaire au moment de créer le modèle.

Prédire les ventes avec un entrepôt de données

Examinons maintenant un cas d'utilisation de la data science pour les marchands. Vous pouvez prédire le nombre de manteaux d'hiver que l'entreprise vendra le mois prochain. Comme les données de vente sont déjà nettoyées et stockées dans une base de données, il est recommandé d'utiliser un entrepôt de données pour cette tâche.

Accéder à des données nettoyées

Commencez par BigQuery, qui fait office d'entrepôt de données centralisé pour l'entreprise. Les données de vente sont déjà organisées en tables pratiques, avec des colonnes pour les dates, les prix et les identifiants produit. Comme les données sont déjà structurées, vous n'avez pas besoin de passer du temps à les nettoyer.

Exécuter rapidement des requêtes

Écrivez une requête SQL pour afficher les ventes d'hiver des cinq dernières années. Bien qu'il y ait des milliards de lignes de données, BigQuery trouve la réponse en quelques secondes. Cette rapidité vous permet de tester différentes idées et d'affiner les prévisions rapidement.

Partager des insights

Une fois les prévisions prêtes, vous pouvez utiliser un outil intégré pour créer un tableau de bord. L'équipe marketing peut désormais voir exactement combien de manteaux elle doit commander. Comme BigQuery est une solution sans serveur, l'entreprise ne paie que pour les requêtes qu'elle exécute, ce qui permet de limiter les coûts.

Pour ce cas d'utilisation, l'entrepôt de données est l'outil le plus adapté, car il fournit des réponses rapides et fiables à des questions métier spécifiques à l'aide des données qui sont déjà dans un format exploitable.

Relevez vos plus grands défis avec Google Cloud

Les nouveaux clients bénéficient de 300 $ de crédits à dépenser sur Google Cloud.
Contactez un spécialiste des ventes Google Cloud pour discuter plus en détail de votre problématique.

Choisir entre les lacs de données et les entrepôts de données

Le choix entre un lac de données et un entrepôt de données dépend de ce que vous essayez de créer. Si vous possédez un volume important de données brutes et que vous souhaitez les explorer avec du code, commencez par un lac de données. Si vous avez des questions métier spécifiques et que vous souhaitez obtenir des rapports rapides et fiables, un entrepôt de données est probablement le meilleur choix. En réalité, de nombreuses entreprises combinent les deux approches pour tirer profit du meilleur de chaque solution.

Passez à l'étape suivante

Commencez à créer sur Google Cloud avec 300 $ de crédits inclus et plus de 20 produits toujours sans frais.

Google Cloud