Einführung in das BigQuery-Framework zur Entitätsauflösung

In diesem Dokument wird die Architektur des BigQuery-Frameworks für Entitätsauflösung beschrieben. Bei der Entitätsauflösung können Datensätze mit freigegebenen Daten abgeglichen werden, bei denen keine gemeinsame Kennzeichnung vorhanden ist, oder freigegebene Daten mithilfe eines Identitätsdienstes eines Google Cloud-Partners erweitern.

Dieses Dokument richtet sich an Endnutzer der Entitätsauflösung (im Folgenden als Endnutzer bezeichnet) und Identitätsanbieter. Weitere Informationen zur Implementierung finden Sie unter Entitätsauflösung in BigQuery konfigurieren und verwenden.

Sie können die BigQuery-Entitätsauflösung für alle Daten verwenden, die vorbereitet werden, bevor Daten einem Data-Clean-Room hinzugefügt werden. Die Entitätsauflösung ist sowohl für die On-Demand-Preise als auch für die Kapazitäts-Preismodelle und in allen BigQuery-Versionen verfügbar.

Vorteile

Als Endnutzer können Sie auf folgende Weise von der Entitätsauflösung profitieren:

  • Sie können vorhandene Entitäten auflösen, ohne Datenübertragungsgebühren aufzurufen, da ein Abonnent oder Google Cloud-Partner Ihre Daten mit seiner Identitätstabelle abgleicht und die Übereinstimmungsergebnisse in ein Dataset in Ihrem Projekt schreibt.
  • Sie müssen keine ETL-Jobs (Extraktion, Transformation, Laden) verwalten.

Als Identitätsanbieter können Sie auf folgende Weise von der Entitätsauflösung profitieren:

  • Sie können die Entitätsauflösung als SaaS-Angebot (Software as a Service) im Google Cloud Marketplace anbieten.
  • Sie können Ihre proprietären Identitätsgrafiken und Abgleichslogik verwenden, ohne sie den Nutzern zugänglich zu machen.

Architektur

BigQuery implementiert die Entitätsauflösung mithilfe von Remote-Funktionsaufrufen, die Entitätsauflösungsprozesse in der Umgebung eines Identitätsanbieters aktivieren. Die Daten müssen während dieses Vorgangs nicht kopiert oder verschoben werden. Im folgenden Diagramm mit Erläuterung wird der Workflow für die Entitätsauflösung beschrieben:

Diagramm mit zwei Hauptabschnitten: ein Endnutzerprojekt und ein Identitätsanbieterprojekt.

  1. Der Endnutzer gewährt dem Dienstkonto des Identitätsanbieters Lesezugriff auf sein Eingabe-Dataset und Schreibzugriff auf sein Ausgabe-Dataset.
  2. Der Nutzer ruft die Remote-Funktion auf, die seine Eingabedaten mit den Identitätsdiagrammdaten des Anbieters abgleicht. Übereinstimmende Parameter werden mit der Remote-Funktion an den Anbieter übergeben.
  3. Das Dienstkonto des Anbieters liest das Eingabe-Dataset und verarbeitet es.
  4. Das Dienstkonto des Anbieters schreibt die Ergebnisse der Entitätsauflösung in das Ausgabe-Dataset des Nutzers.

In den folgenden Abschnitten werden die Endnutzerkomponenten und Anbieterprojekte beschrieben.

Endnutzerkomponenten

Zu den Endnutzerkomponenten gehören:

  • Remote-Funktionsaufruf: Ein Aufruf, der ein vom Identitätsanbieter definiertes und implementiertes Verfahren ausführt. Dieser Aufruf startet den Prozess der Entitätsauflösung.
  • Eingabe-Dataset: Das Quell-Dataset, das die Daten enthält, die abgeglichen werden sollen. Optional kann das Dataset eine Metadatentabelle mit zusätzlichen Parametern enthalten. Anbieter geben Schemaanforderungen für Eingabe-Datasets an.
  • Ausgabe-Dataset: Das Ziel-Dataset, in dem der Anbieter die übereinstimmenden Ergebnisse als Ausgabetabelle speichert. Optional kann der Anbieter eine Jobstatustabelle mit Details zu Jobs zur Entitätsauflösung in dieses Dataset schreiben. Das Ausgabe-Dataset kann mit dem Eingabe-Dataset übereinstimmen.

Komponenten von Identitätsanbietern

Die Komponenten des Identitätsanbieters umfassen Folgendes:

  • Steuerungsebene: Enthält eine BigQuery-Remote-Funktion, die den Abgleichsprozess orchestriert. Diese Funktion kann als Cloud Run-Job oder Cloud Functions-Funktion implementiert werden. Die Steuerungsebene kann auch andere Dienste wie Authentifizierung und Autorisierung enthalten.
  • Datenebene: Enthält das Dataset der Identitätsgrafik und das gespeicherte Verfahren, das die Logik des Anbieterabgleichs implementiert. Die gespeicherte Prozedur kann als gespeicherte SQL-Prozedur oder als gespeicherte Apache Spark-Prozedur implementiert werden. Das Dataset der Identitätsgrafik enthält die Tabellen, mit denen die Endnutzerdaten abgeglichen werden.

Nächste Schritte