Présentation du framework de résolution des entités BigQuery
Ce document décrit l'architecture du framework de résolution des entités BigQuery. La résolution d'entités consiste à mettre en correspondance des enregistrements entre des données partagées pour lesquelles aucun identifiant commun n'existe ou à augmenter les données partagées à l'aide du service d'identité d'un partenaire Google Cloud.
Ce document est destiné aux utilisateurs finaux de la résolution d'entités (nommés ci-après utilisateurs finaux) et aux fournisseurs d'identité. Pour en savoir plus sur l'implémentation, consultez la page Configurer et utiliser la résolution d'entités dans BigQuery.
Vous pouvez utiliser la résolution d'entités BigQuery pour toutes les données préparées avant d'ajouter des données à une data clean room. La résolution des entités est disponible dans les modèles de tarification à la demande et des capacités, ainsi que dans toutes les éditions BigQuery.
Avantages
En tant qu'utilisateur final, vous pouvez bénéficier de la résolution d'entités de différentes manières :
- Vous pouvez résoudre les entités en place sans appeler de frais de transfert de données, car un abonné ou un partenaire Google Cloud fait correspondre vos données à sa table d'identité et écrit les résultats des correspondances dans un ensemble de données de votre projet.
- Vous n'avez pas besoin de gérer les tâches d'extraction, de transformation et de chargement (ETL).
En tant que fournisseur d'identité, vous pouvez bénéficier de la résolution des entités de différentes manières :
- Vous pouvez proposer la résolution d'entités sous forme d'offre Software as a Service (SaaS) gérée sur Google Cloud Marketplace.
- Vous pouvez utiliser vos graphiques d'identité propriétaires et votre logique de correspondance sans les révéler aux utilisateurs.
Architecture
BigQuery met en œuvre la résolution d'entités à l'aide d'appels de fonction distants qui activent les processus de résolution d'entités dans l'environnement d'un fournisseur d'identité. Vous n'avez pas besoin de copier ni de déplacer vos données au cours de ce processus. Le schéma et l'explication suivants décrivent le workflow de résolution d'entités :
- L'utilisateur final accorde au compte de service du fournisseur d'identité un accès en lecture à son ensemble de données d'entrée et un accès en écriture à son ensemble de données de sortie.
- L'utilisateur appelle la fonction distante qui correspond à ses données d'entrée avec les données du graphe d'identité du fournisseur. Les paramètres de correspondance sont transmis au fournisseur avec la fonction distante.
- Le compte de service du fournisseur lit l'ensemble de données d'entrée et le traite.
- Le compte de service du fournisseur écrit les résultats de la résolution d'entité dans l'ensemble de données de sortie de l'utilisateur.
Les sections suivantes décrivent les composants de l'utilisateur final et les projets du fournisseur.
Composants de l'utilisateur final
Les composants de l'utilisateur final sont les suivants :
- Appel de fonction distante : appel qui exécute une procédure définie et mise en œuvre par le fournisseur d'identité. Cet appel démarre le processus de résolution de l'entité.
- Ensemble de données d'entrée : ensemble de données source contenant les données à mettre en correspondance. L'ensemble de données peut éventuellement contenir une table de métadonnées avec des paramètres supplémentaires. Les fournisseurs spécifient les exigences de schéma pour les ensembles de données d'entrée.
- Ensemble de données de sortie : ensemble de données de destination dans lequel le fournisseur stocke les résultats correspondants sous forme de table de sortie. Le fournisseur peut éventuellement écrire une table d'état de la tâche contenant les détails de la tâche de résolution d'entité dans cet ensemble de données. L'ensemble de données de sortie peut être identique à l'ensemble de données d'entrée.
Composants du fournisseur d'identité
Les composants du fournisseur d'identité sont les suivants :
- Plan de contrôle : contient une fonction distante BigQuery qui orchestre le processus de mise en correspondance. Cette fonction peut être implémentée en tant que tâche Cloud Run ou fonction Cloud Run. Le plan de contrôle peut également contenir d'autres services, tels que l'authentification et l'autorisation.
- Plan de données : contient l'ensemble de données du graphe d'identité et la procédure stockée qui met en œuvre la logique de mise en correspondance du fournisseur. La procédure stockée peut être implémentée en tant que procédure stockée SQL ou procédure stockée Apache Spark. L'ensemble de données du graphe d'identité contient les tables avec lesquelles les données de l'utilisateur final sont mises en correspondance.
Étapes suivantes
- Pour savoir comment utiliser la résolution d'entités dans votre projet, consultez la page Configurer et utiliser la résolution d'entités dans BigQuery.