Présentation du framework de résolution des entités BigQuery

Ce document décrit l'architecture du framework de résolution des entités BigQuery. La résolution d'entités consiste à mettre en correspondance des enregistrements entre des données partagées pour lesquelles aucun identifiant commun n'existe ou à augmenter les données partagées à l'aide du service d'identité d'un partenaire Google Cloud.

Ce document est destiné aux utilisateurs finaux de la résolution d'entités (nommés ci-après utilisateurs finaux) et aux fournisseurs d'identité. Pour en savoir plus sur l'implémentation, consultez la page Configurer et utiliser la résolution d'entités dans BigQuery.

Vous pouvez utiliser la résolution d'entités BigQuery pour toutes les données préparées avant d'ajouter des données à une data clean room. La résolution des entités est disponible dans les modèles de tarification à la demande et des capacités, ainsi que dans toutes les éditions BigQuery.

Avantages

En tant qu'utilisateur final, vous pouvez bénéficier de la résolution d'entités de différentes manières :

  • Vous pouvez résoudre les entités en place sans appeler de frais de transfert de données, car un abonné ou un partenaire Google Cloud fait correspondre vos données à sa table d'identité et écrit les résultats des correspondances dans un ensemble de données de votre projet.
  • Vous n'avez pas besoin de gérer les tâches d'extraction, de transformation et de chargement (ETL).

En tant que fournisseur d'identité, vous pouvez bénéficier de la résolution des entités de différentes manières :

  • Vous pouvez proposer la résolution d'entités sous forme d'offre Software as a Service (SaaS) gérée sur Google Cloud Marketplace.
  • Vous pouvez utiliser vos graphiques d'identité propriétaires et votre logique de correspondance sans les révéler aux utilisateurs.

Architecture

BigQuery met en œuvre la résolution des entités à l'aide d'appels de fonction distants qui activent les processus de résolution d'entités dans l'environnement d'un fournisseur d'identité. Vos données n'ont pas besoin d'être copiées ni déplacées au cours de ce processus. Le schéma et l'explication suivants décrivent le workflow de résolution d'entités :

Schéma représentant deux sections principales : un projet d'utilisateur final et un projet de fournisseur d'identité.

  1. L'utilisateur final accorde au compte de service du fournisseur d'identité un accès en lecture à son ensemble de données d'entrée et un accès en écriture à son ensemble de données de sortie.
  2. L'utilisateur appelle la fonction distante qui correspond à ses données d'entrée avec les données du graphique d'identité du fournisseur. Les paramètres de correspondance sont transmis au fournisseur avec la fonction distante.
  3. Le compte de service du fournisseur lit l'ensemble de données d'entrée et le traite.
  4. Le compte de service du fournisseur écrit les résultats de la résolution d'entité dans l'ensemble de données de sortie de l'utilisateur.

Les sections suivantes décrivent les composants de l'utilisateur final et les projets du fournisseur.

Composants de l'utilisateur final

Les composants de l'utilisateur final sont les suivants :

  • Appel de fonction distante : appel qui exécute une procédure définie et mise en œuvre par le fournisseur d'identité. Cet appel démarre le processus de résolution de l'entité.
  • Ensemble de données d'entrée : ensemble de données source contenant les données à mettre en correspondance. L'ensemble de données peut éventuellement contenir une table de métadonnées avec des paramètres supplémentaires. Les fournisseurs spécifient des exigences de schéma pour les ensembles de données d'entrée.
  • Ensemble de données de sortie : ensemble de données de destination dans lequel le fournisseur stocke les résultats correspondants sous forme de table de sortie. Le fournisseur peut éventuellement écrire une table d'état des tâches contenant les détails des tâches de résolution des entités dans cet ensemble de données. L'ensemble de données de sortie peut être identique à l'ensemble de données d'entrée.

Composants du fournisseur d'identité

Les composants du fournisseur d'identité sont les suivants :

  • Plan de contrôle : contient une fonction distante BigQuery qui orchestre le processus de mise en correspondance. Cette fonction peut être mise en œuvre en tant que tâche Cloud Run ou fonction Cloud. Le plan de contrôle peut également contenir d'autres services, tels que l'authentification et l'autorisation.
  • Plan de données : contient l'ensemble de données du graphe d'identité et la procédure stockée qui met en œuvre la logique de mise en correspondance du fournisseur. La procédure stockée peut être mise en œuvre sous la forme d'une procédure stockée SQL ou d'une procédure stockée Apache Spark. L'ensemble de données du graphique d'identité contient les tables avec lesquelles les données de l'utilisateur final sont mises en correspondance.

Étapes suivantes