La gestion des données est indispensable pour les analyses métier et la création d'expériences client exceptionnelles. Vous avez probablement déjà entendu parler de lacs de données et d'entrepôts de données, mais il est difficile de savoir lequel convient à votre projet. Ces deux systèmes gèrent les données de différentes manières. Un lac de données est comme un grand bassin de données brutes dont vous ne définissez pas l'objectif immédiatement. Un entrepôt de données ressemble davantage à une bibliothèque de données organisées et filtrées, prêtes à être utilisées pour des tâches spécifiques. Connaître les différences entre ces deux outils vous aide à choisir celui qui répond le mieux à vos besoins en matière de données.
La principale différence entre ces deux systèmes réside dans la façon dont ils gèrent la structure et l'utilisation des données. Un lac de données est destiné aux données brutes non structurées, tandis qu'un entrepôt de données est conçu pour les données structurées et traitées.
Caractéristique | Lac de données | Entrepôt de données |
Type de données | Toutes les données (brutes, structurées, non structurées) | Données structurées traitées |
Objectif | Pas encore défini | Défini et spécifique |
Utilisateurs | Data scientists, ingénieurs de données | Analystes de données, analystes de l'informatique décisionnelle |
Accessibilité | Très flexible, facile à modifier | Plus difficile à modifier, plus rigide |
Traitement | Schéma à la lecture (défini lors de l'utilisation) | Schéma à l'écriture (défini avant l'enregistrement) |
Avantages |
|
|
Caractéristique
Lac de données
Entrepôt de données
Type de données
Toutes les données (brutes, structurées, non structurées)
Données structurées traitées
Objectif
Pas encore défini
Défini et spécifique
Utilisateurs
Data scientists, ingénieurs de données
Analystes de données, analystes de l'informatique décisionnelle
Accessibilité
Très flexible, facile à modifier
Plus difficile à modifier, plus rigide
Traitement
Schéma à la lecture (défini lors de l'utilisation)
Schéma à l'écriture (défini avant l'enregistrement)
Avantages
Imaginez que vous développez un jeu mobile. Vous voulez suivre chaque clic effectué par les utilisateurs. Vous ne savez pas encore lesquels sont importants pour votre prochaine mise à jour. Vous pouvez envoyer tous ces événements JSON bruts directement dans un lac de données. Par la suite, vos data scientists peuvent exécuter un script pour trouver des tendances dans ces données brutes.
Les capteurs IoT en sont un autre exemple. Si vous avez des milliers de capteurs qui envoient des données de température chaque seconde, vous pouvez charger ces données brutes dans un lac. Vous disposerez d'un historique complet de tout ce qui s'est passé, sans avoir à vous soucier de la mise en forme.
Prenons l'exemple d'une entreprise de commerce de détail qui doit suivre ses ventes. Chaque soir, le système récupère toutes les commandes de la journée, nettoie les adresses, calcule les taxes et enregistre le tout dans un entrepôt de données. Un responsable peut ensuite générer un rapport pour connaître le nombre exact de chemises bleues vendues à Chicago. Les données sont propres, bien ordonnées et prêtes à être utilisées dans un graphique.
Une banque peut également utiliser un entrepôt de données pour suivre les comptes. Elle doit connaître le solde exact de chaque client à tout moment. Elle ne veut pas de journaux bruts, mais une table structurée qui affiche clairement chaque transaction.
Les data scientists doivent souvent créer un modèle d'IA capable de repérer les réservations frauduleuses en temps réel. Comme les données proviennent de nombreux endroits (journaux de sites Web, événements d'applications mobiles, partenaires tiers, etc.), un lac de données est idéal pour entraîner des modèles d'IA.
Commencez par configurer un pipeline pour envoyer chaque événement brut dans Cloud Storage. Cela inclut les fichiers JSON désordonnés du site Web et les journaux binaires de l'application mobile. Vous n'avez pas besoin de vous soucier de la mise en forme des données pour le moment, car Cloud Storage est conçu pour ce type d'échelle.
Vous devez nettoyer les données pour que le modèle d'IA puisse les exploiter. Google Cloud Service pour Apache Spark vous permet d'exécuter un job Apache Spark sans serveur. Vous pouvez ainsi transformer des millions de journaux bruts en un format structuré, sans avoir à gérer de serveurs ni de clusters.
Maintenant que les données sont prêtes, vous pouvez les charger dans un outil de machine learning. Comme les données brutes d'origine se trouvent toujours dans le lac, vous pouvez toujours y revenir et examiner les détails "cachés" qui pourraient vous aider à améliorer davantage le modèle.
En utilisant un lac de données, vous pouvez tout stocker à faible coût et ne traiter que ce qui est nécessaire au moment de créer le modèle.
Examinons maintenant un cas d'utilisation de la data science pour les marchands. Vous pouvez prédire le nombre de manteaux d'hiver que l'entreprise vendra le mois prochain. Comme les données de vente sont déjà nettoyées et stockées dans une base de données, il est recommandé d'utiliser un entrepôt de données pour cette tâche.
Commencez par BigQuery, qui fait office d'entrepôt de données centralisé pour l'entreprise. Les données de vente sont déjà organisées en tables pratiques, avec des colonnes pour les dates, les prix et les identifiants produit. Comme les données sont déjà structurées, vous n'avez pas besoin de passer du temps à les nettoyer.
Écrivez une requête SQL pour afficher les ventes d'hiver des cinq dernières années. Bien qu'il y ait des milliards de lignes de données, BigQuery trouve la réponse en quelques secondes. Cette rapidité vous permet de tester différentes idées et d'affiner les prévisions rapidement.
Une fois les prévisions prêtes, vous pouvez utiliser un outil intégré pour créer un tableau de bord. L'équipe marketing peut désormais voir exactement combien de manteaux elle doit commander. Comme BigQuery est une solution sans serveur, l'entreprise ne paie que pour les requêtes qu'elle exécute, ce qui permet de limiter les coûts.
Pour ce cas d'utilisation, l'entrepôt de données est l'outil le plus adapté, car il fournit des réponses rapides et fiables à des questions métier spécifiques à l'aide des données qui sont déjà dans un format exploitable.
Le choix entre un lac de données et un entrepôt de données dépend de ce que vous essayez de créer. Si vous possédez un volume important de données brutes et que vous souhaitez les explorer avec du code, commencez par un lac de données. Si vous avez des questions métier spécifiques et que vous souhaitez obtenir des rapports rapides et fiables, un entrepôt de données est probablement le meilleur choix. En réalité, de nombreuses entreprises combinent les deux approches pour tirer profit du meilleur de chaque solution.
Commencez à créer sur Google Cloud avec 300 $ de crédits inclus et plus de 20 produits toujours sans frais.