Que sont les produits de données ?

Un produit de données représente simplement une façon d'empaqueter les données dans le but de résoudre un problème métier spécifique. Au lieu de proposer des données brutes qui peuvent être désordonnées ou difficiles à interpréter, nous les traitons comme un produit dans un rayon de magasin, avec une description de ce qu'elles sont, de la façon de les utiliser et la garantie de leur exactitude. Cela transforme les informations brutes en un asset de haute qualité et facile à trouver sur lequel toute l'organisation peut s'appuyer.

Pensez à la différence entre acheter des ingrédients en vrac et acheter un kit repas. Ce kit représente le produit de données : il regroupe les données brutes avec les instructions et le contexte nécessaires à la résolution d'un problème métier spécifique. Il transforme les données dispersées en informations fiables, faciles à trouver et immédiatement utiles pour l'organisation.

Points à retenir

Les produits de données peuvent être utilisés sous de nombreuses formes, y compris les suivantes :

  • Des API qui renvoient des scores de prédiction (comme un score de risque lié au crédit)
  • Des tableaux de bord intégrés dans une application pour afficher les données analytiques des utilisateurs
  • Des moteurs de recommandations qui suggèrent des films ou des produits
  • Des modèles de machine learning qui détectent les fraudes en temps réel
  • Des agents IA qui peuvent être entraînés et fonctionner sur des données qui ont déjà été nettoyées, organisées et alignées sur les objectifs d'entreprise

Les données en tant que produit et les produits de données

Même s'il est facile de confondre les termes "produits de données" et "données en tant que produit", ils ont des significations différentes. Il est important de comprendre la différence entre ces deux concepts pour la création de solutions cloud.

  • Les données en tant que produit (DaaP) sont un état d'esprit ou une stratégie, et sont généralement liées au concept architectural de maillage de données. Cela signifie que vous devez traiter vos ensembles de données internes avec le même soin que s'il s'agissait d'un produit logiciel public.
  • Les produits de données, quant à eux, sont les livrables techniques à proprement parler. Il s'agit des données prête à l'emploi qui alimentent les logiciels ou les outils que vous créez à l'aide de ces données de haute qualité.

Différences majeures :

Fonctionnalité

Données en tant que produits

Produits de données

De quoi s'agit-il ?

Une stratégie ou une philosophie.

Un asset de données préempaqueté.

Objectif principal

Améliorer la qualité et la fiabilité des données.

Pour résoudre un problème spécifique de l'utilisateur.

Exemple

Une table "Customer" propre et documentée dans BigQuery avec un propriétaire désigné.

Un produit de données "Customer 360" qui extrait des informations de cette table pour afficher l'historique d'un utilisateur

Fonctionnalité

Données en tant que produits

Produits de données

De quoi s'agit-il ?

Une stratégie ou une philosophie.

Un asset de données préempaqueté.

Objectif principal

Améliorer la qualité et la fiabilité des données.

Pour résoudre un problème spécifique de l'utilisateur.

Exemple

Une table "Customer" propre et documentée dans BigQuery avec un propriétaire désigné.

Un produit de données "Customer 360" qui extrait des informations de cette table pour afficher l'historique d'un utilisateur

Cas d'utilisation des produits de données

Les produits de données servent de capacité de gouvernance en regroupant les données et les modèles dans des unités logiques, sécurisées et découvrables. Les organisations peuvent ainsi établir une propriété claire et gérer les accès grâce à des workflows d'approbation.


Les marchands peuvent regrouper les données sur le comportement des clients et les modèles de recommandation de produits dans un "produit de données de personnalisation" unique. En utilisant Knowledge Catalog, l'organisation peut s'assurer que seuls les développeurs autorisés peuvent accéder aux ensembles de données sous-jacents et aux points de terminaison des modèles. Cette couche de gouvernance fournit du contexte via des métadonnées (aspects) tout en protégeant les interactions sensibles des utilisateurs.

Les institutions financières peuvent créer un produit de données "Risque de fraude" qui regroupe des flux de transactions en temps réel avec des modèles de machine learning. Ce package unifié permet de sécuriser le workflow d'approbation. Lorsqu'un enquêteur a besoin d'accéder aux scores de risque, il en fait la demande via un portail central. Cela garantit que l'accès est limité dans le temps et entièrement audité, ce qui empêche l'exposition non autorisée des données.

Dans le secteur de l'industrie manufacturière, un produit de données sur l'état des machines combine les données des capteurs avec des modèles de détection d'anomalies. Les fonctionnalités de gouvernance, comme les vérifications et le profilage automatisés de la qualité des données, garantissent que le modèle ne consomme que des données fiables. Cela évite les fausses prédictions d'échec causées par des capteurs défectueux ou des entrées brutes "désordonnées".

Les équipes logistiques peuvent regrouper les algorithmes de routage et les ensembles de données de contraintes des véhicules dans un produit de données "d'optimisation des livraisons". En établissant la propriété au niveau du domaine dans une plate-forme data fabric, l'entreprise peut suivre la traçabilité des données, qui montre exactement comment les données de localisation brutes ont été transformées en plannings finaux de chauffeurs.

Avantages des produits de données

Créer des produits de données peut offrir des avantages considérables à une entreprise. Ils peuvent aider à passer de la simple collecte de données à leur utilisation effective pour générer de la valeur.

Des décisions plus avisées

Les organisations peuvent utiliser les produits de données pour présenter des insights essentiels directement aux personnes qui en ont besoin. Cela permet aux équipes de prendre des décisions stratégiques plus intelligentes, basées sur des preuves plutôt que sur l'intuition.

Innovation accélérée

Les produits de données réutilisables réduisent le temps nécessaire pour implémenter de nouveaux cas d'utilisation. Les développeurs peuvent intégrer des produits de données existants dans leurs applications, ce qui les aide à déployer des fonctionnalités et à résoudre les problèmes plus rapidement sans avoir à gérer des pipelines de données brutes complexes.

Hausse du revenu

Les produits de données aident les entreprises à monétiser directement leurs assets. Par exemple, une entreprise peut empaqueter ses données propriétaires pour que d'autres développeurs puissent les utiliser.

Avantage concurrentiel

Les entreprises basées sur les données sont souvent plus efficaces pour acquérir et fidéliser des clients. En proposant des expériences plus intelligentes et personnalisées, les entreprises peuvent se démarquer de leurs concurrents qui n'utilisent pas leurs données de manière efficace.

Créer des agents de manière sécurisée

En créant des agents d'IA à partir de ces produits de données "prêts à l'emploi", vous vous assurez que l'IA apprend à partir d'informations vérifiées et de haute qualité, plutôt qu'à partir de données brutes désordonnées. Cela crée un environnement sécurisé dans lequel l'IA fournit des réponses précises et fiables, sans divulguer accidentellement des informations sensibles ou incorrectes.

Exemple : Développeur e-commerce en entreprise utilisant Knowledge Catalog et BigQuery

Voyons comment vous pouvez créer un produit de données, comme un "outil de prédiction d'inventaire de magasin", à l'aide d'outils tels que BigQuery et Knowledge Catalog.

Objectif : créer un outil interne qui indique aux responsables de magasin les articles en rupture de stock et prédit les quantités à commander pour la semaine suivante.

Étape 1 : Ingérer et stocker des données avec BigQuery

Tout d'abord, vous avez besoin d'un emplacement pour stocker les données de ventes. Vous pouvez utiliser BigQuery, un entrepôt de données sans serveur, pour configurer un pipeline qui transfère les chiffres de ventes quotidiens de chaque magasin vers des tables BigQuery.

Étape 2 : Gérer et gouverner les données avec Knowledge Catalog

Avant de créer le modèle, vous devez vous assurer que les données sont propres. Utilisez Knowledge Catalog pour gérer le cycle de vie des données. Cet outil peut vous aider à :

  • cataloguer les données pour que les autres développeurs puissent les trouver ;
  • définir des règles de qualité des données (par exemple, "Le prix ne peut pas être négatif") ;
  • sécuriser les données pour que seuls les utilisateurs autorisés puissent y accéder.

Étape 3 : Créer le modèle avec BigQuery ML

Maintenant, vous créez l'intelligence. Au lieu d'exporter des données vers un outil distinct, vous utilisez BigQuery ML pour écrire une requête SQL simple qui entraîne un modèle de machine learning. Ce modèle examine les tendances de ventes passées pour prévoir la demande future.

  • SQL
Chargement en cours...

Étape 4 : Exposer le produit de données

Enfin, vous pouvez créer une API simple ou un tableau de bord à l'aide de Looker. Lorsqu'un responsable de magasin se connecte, au lieu de voir des requêtes SQL, il voit une interface claire qui indique : "Commandez 50 chemises rouges supplémentaires d'ici mardi". Félicitations ! Vous avez réussi à transformer des données brutes en un produit de données utile.

Relevez vos plus grands défis avec Google Cloud

Les nouveaux clients bénéficient de 300 $ de crédits à dépenser sur Google Cloud.

Autres ressources

Passez à l'étape suivante

Commencez à créer sur Google Cloud avec 300 $ de crédits inclus et plus de 20 produits toujours sans frais.

Google Cloud