Un produit de données représente simplement une façon d'empaqueter les données dans le but de résoudre un problème métier spécifique. Au lieu de proposer des données brutes qui peuvent être désordonnées ou difficiles à interpréter, nous les traitons comme un produit dans un rayon de magasin, avec une description de ce qu'elles sont, de la façon de les utiliser et la garantie de leur exactitude. Cela transforme les informations brutes en un asset de haute qualité et facile à trouver sur lequel toute l'organisation peut s'appuyer.
Pensez à la différence entre acheter des ingrédients en vrac et acheter un kit repas. Ce kit représente le produit de données : il regroupe les données brutes avec les instructions et le contexte nécessaires à la résolution d'un problème métier spécifique. Il transforme les données dispersées en informations fiables, faciles à trouver et immédiatement utiles pour l'organisation.
Les produits de données peuvent être utilisés sous de nombreuses formes, y compris les suivantes :
Même s'il est facile de confondre les termes "produits de données" et "données en tant que produit", ils ont des significations différentes. Il est important de comprendre la différence entre ces deux concepts pour la création de solutions cloud.
Différences majeures :
Fonctionnalité | Données en tant que produits | Produits de données |
De quoi s'agit-il ? | Une stratégie ou une philosophie. | Un asset de données préempaqueté. |
Objectif principal | Améliorer la qualité et la fiabilité des données. | Pour résoudre un problème spécifique de l'utilisateur. |
Exemple | Une table "Customer" propre et documentée dans BigQuery avec un propriétaire désigné. | Un produit de données "Customer 360" qui extrait des informations de cette table pour afficher l'historique d'un utilisateur |
Fonctionnalité
Données en tant que produits
Produits de données
De quoi s'agit-il ?
Une stratégie ou une philosophie.
Un asset de données préempaqueté.
Objectif principal
Améliorer la qualité et la fiabilité des données.
Pour résoudre un problème spécifique de l'utilisateur.
Exemple
Une table "Customer" propre et documentée dans BigQuery avec un propriétaire désigné.
Un produit de données "Customer 360" qui extrait des informations de cette table pour afficher l'historique d'un utilisateur
Les produits de données servent de capacité de gouvernance en regroupant les données et les modèles dans des unités logiques, sécurisées et découvrables. Les organisations peuvent ainsi établir une propriété claire et gérer les accès grâce à des workflows d'approbation.
Les marchands peuvent regrouper les données sur le comportement des clients et les modèles de recommandation de produits dans un "produit de données de personnalisation" unique. En utilisant Knowledge Catalog, l'organisation peut s'assurer que seuls les développeurs autorisés peuvent accéder aux ensembles de données sous-jacents et aux points de terminaison des modèles. Cette couche de gouvernance fournit du contexte via des métadonnées (aspects) tout en protégeant les interactions sensibles des utilisateurs.
Les institutions financières peuvent créer un produit de données "Risque de fraude" qui regroupe des flux de transactions en temps réel avec des modèles de machine learning. Ce package unifié permet de sécuriser le workflow d'approbation. Lorsqu'un enquêteur a besoin d'accéder aux scores de risque, il en fait la demande via un portail central. Cela garantit que l'accès est limité dans le temps et entièrement audité, ce qui empêche l'exposition non autorisée des données.
Dans le secteur de l'industrie manufacturière, un produit de données sur l'état des machines combine les données des capteurs avec des modèles de détection d'anomalies. Les fonctionnalités de gouvernance, comme les vérifications et le profilage automatisés de la qualité des données, garantissent que le modèle ne consomme que des données fiables. Cela évite les fausses prédictions d'échec causées par des capteurs défectueux ou des entrées brutes "désordonnées".
Les équipes logistiques peuvent regrouper les algorithmes de routage et les ensembles de données de contraintes des véhicules dans un produit de données "d'optimisation des livraisons". En établissant la propriété au niveau du domaine dans une plate-forme data fabric, l'entreprise peut suivre la traçabilité des données, qui montre exactement comment les données de localisation brutes ont été transformées en plannings finaux de chauffeurs.
Créer des produits de données peut offrir des avantages considérables à une entreprise. Ils peuvent aider à passer de la simple collecte de données à leur utilisation effective pour générer de la valeur.
Des décisions plus avisées
Les organisations peuvent utiliser les produits de données pour présenter des insights essentiels directement aux personnes qui en ont besoin. Cela permet aux équipes de prendre des décisions stratégiques plus intelligentes, basées sur des preuves plutôt que sur l'intuition.
Innovation accélérée
Les produits de données réutilisables réduisent le temps nécessaire pour implémenter de nouveaux cas d'utilisation. Les développeurs peuvent intégrer des produits de données existants dans leurs applications, ce qui les aide à déployer des fonctionnalités et à résoudre les problèmes plus rapidement sans avoir à gérer des pipelines de données brutes complexes.
Hausse du revenu
Les produits de données aident les entreprises à monétiser directement leurs assets. Par exemple, une entreprise peut empaqueter ses données propriétaires pour que d'autres développeurs puissent les utiliser.
Avantage concurrentiel
Les entreprises basées sur les données sont souvent plus efficaces pour acquérir et fidéliser des clients. En proposant des expériences plus intelligentes et personnalisées, les entreprises peuvent se démarquer de leurs concurrents qui n'utilisent pas leurs données de manière efficace.
Créer des agents de manière sécurisée
En créant des agents d'IA à partir de ces produits de données "prêts à l'emploi", vous vous assurez que l'IA apprend à partir d'informations vérifiées et de haute qualité, plutôt qu'à partir de données brutes désordonnées. Cela crée un environnement sécurisé dans lequel l'IA fournit des réponses précises et fiables, sans divulguer accidentellement des informations sensibles ou incorrectes.
Voyons comment vous pouvez créer un produit de données, comme un "outil de prédiction d'inventaire de magasin", à l'aide d'outils tels que BigQuery et Knowledge Catalog.
Objectif : créer un outil interne qui indique aux responsables de magasin les articles en rupture de stock et prédit les quantités à commander pour la semaine suivante.
Tout d'abord, vous avez besoin d'un emplacement pour stocker les données de ventes. Vous pouvez utiliser BigQuery, un entrepôt de données sans serveur, pour configurer un pipeline qui transfère les chiffres de ventes quotidiens de chaque magasin vers des tables BigQuery.
Avant de créer le modèle, vous devez vous assurer que les données sont propres. Utilisez Knowledge Catalog pour gérer le cycle de vie des données. Cet outil peut vous aider à :
Maintenant, vous créez l'intelligence. Au lieu d'exporter des données vers un outil distinct, vous utilisez BigQuery ML pour écrire une requête SQL simple qui entraîne un modèle de machine learning. Ce modèle examine les tendances de ventes passées pour prévoir la demande future.
Enfin, vous pouvez créer une API simple ou un tableau de bord à l'aide de Looker. Lorsqu'un responsable de magasin se connecte, au lieu de voir des requêtes SQL, il voit une interface claire qui indique : "Commandez 50 chemises rouges supplémentaires d'ici mardi". Félicitations ! Vous avez réussi à transformer des données brutes en un produit de données utile.
Commencez à créer sur Google Cloud avec 300 $ de crédits inclus et plus de 20 produits toujours sans frais.