Auf dieser Seite wird beschrieben, wie Sie die Data Lineage aufrufen können, die von Ihrem Cloud Data Fusion-Pipelines mit anderen Datenbewegungen in Google Cloud, für Discovery- und Governance-Zwecke. Sie können die Herkunftsdiagramme für unterstützte Datenquellen auf der Dataplex-Seite in der Console oder die Data Lineage API verwenden um vollständige Data Lineage-Datensätze abzurufen.
Plug-ins, die Dataplex Data Lineage unterstützen
Cloud Data Fusion und Dataplex unterstützen die Datenherkunft auf Asset-Ebene für die folgenden Plug-ins:
- Amazon S3
- BigQuery
- Multi-Table-Senke in BigQuery (Version 6.9.1 und höher)
- Spanner
- Cloud Storage
- Cloud SQL for MySQL
- Cloud SQL for PostgreSQL
- Dataplex
- FTP
- Generische Datenbank
- HTTP
- MSSQL/SQL Server
- Mehrere Datenbanktabellen als Quelle (Version 6.9.1 und höher)
- MySQL
- Oracle
- PostgreSQL
- SAP OData
- SAP ODP
- SAP-Tabelle
Weitere Informationen finden Sie unter Cloud Data Fusion-Plug-ins
Hinweise
Um das Anzeigen von Cloud Data Fusion-Herkunftsdiagrammen auf der Führen Sie in der Dataplex-Seite die folgenden Schritte aus:
Datenpipeline erstellen für die nur unterstützte Plug-ins verwendet werden.
Aktivieren Sie die Data Lineage API in dem Projekt, das die Cloud Data Fusion-Instanz.
Rolle „Data Lineage Events Producer“ gewähren (
roles/datalineage.producer
) dem von Cloud Data Fusion verwalteten Dienstkonto, dem Cloud Data Fusion API-Dienst Kundenservicemitarbeiter. Dieser Vorgang variiert, wenn Ihre Instanz in einer früheren Version von Cloud Data Fusion und RBAC sind aktiviert.6.10 oder höher oder keine RBAC
Wenn für Ihre Cloud Data Fusion-Instanz Version 6.10.0 oder höher verwendet wird oder Ihre Instanz eine ältere Version verwendet und die RBAC nicht aktiviert ist, gehen Sie so vor:
Öffnen Sie in der Google Cloud Console die Seite IAM.
Klicken Sie auf das Kästchen Von Google bereitgestellte Rollenzuweisungen einschließen.
Wählen Sie das Dienstkonto „Cloud Data Fusion API-Dienst-Agent“ aus und klicken Sie auf
Bearbeiten.Klicken Sie auf Weitere Rolle hinzufügen und wählen Sie die Rolle Datenabstammungsereignisse erstellen aus.
Klicken Sie auf Speichern.
Unter 6.10 mit RBAC
Wenn für Ihre Cloud Data Fusion-Instanz eine Version vor 6.10.0 verwendet wird und die RBAC aktiviert ist, wird das Dienstkonto nicht in der Liste der Principals auf der IAM-Seite angezeigt. Sie müssen den Parameter des Dienstkontos manuell.
So weisen Sie die erforderliche Rolle zu:
Öffnen Sie in der Google Cloud Console die Seite IAM.
Klicken Sie auf Zugriff erlauben.
Geben Sie im Feld Neue Hauptkonten das Dienstkonto „Cloud Data Fusion API-Dienst-Agent“ ein. Verwenden Sie das folgende Format:
datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com
Ersetzen Sie
TENANT_PROJECT_ID
durch die Mieter-ID Ihrer Instanz. Zum Ansehen der Mandantenprojekt-ID wechseln Sie zu auf der Seite Instanzen auf den Instanznamen der Instanz Details.Wählen Sie die Rolle Data Lineage Events Producer (Ersteller von Data Lineage-Ereignissen) aus.
Klicken Sie auf Speichern.
Dataplex Data Lineage in Cloud Data Fusion aktivieren
Für neue Instanzen in Cloud Data Fusion, Dataplex-Daten Lineage ist standardmäßig deaktiviert. Wenn Sie die Instanz vor dem 27. Januar erstellt haben, Version 6.8.0 oder höher abgeschlossen ist, wird diese Funktion nach Abschluss der unter Vorbereitung beschrieben.
Dataplex Data Lineage beim Erstellen einer Instanz aktivieren
Console
So aktivieren Sie Dataplex Data Lineage beim Erstellen einer Instanz: führen Sie folgende Schritte aus:
Rufen Sie die Seite Cloud Data Fusion-Instanzen auf und klicken Sie auf Instanz erstellen.
Maximieren Sie bei der Konfiguration der Instanz den Abschnitt Erweiterte Optionen. Klicken Sie auf Integration in Dataplex Data Lineage aktivieren. Weitere Informationen Informationen zum Erstellen von Instanzen finden Sie unter Öffentliche Instanz erstellen Instanz.
REST API
So aktivieren Sie Dataplex Data Lineage beim Erstellen einer Instanz:
das optionale Attribut dataplex_data_lineage_integration_enabled
auf
true
:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"
Wenn Sie die Funktion deaktivieren möchten, setzen Sie die Property entweder auf „falsch“ oder lassen Sie sie weg. Die Zugehörigkeit ist standardmäßig deaktiviert, wenn Sie eine neue Instanz erstellen.
Dataplex Data Lineage in einer vorhandenen Instanz aktivieren oder deaktivieren
Console
So aktivieren oder deaktivieren Sie Dataplex Data Lineage in einer vorhandenen Instanz in Gehen Sie in Cloud Data Fusion so vor:
- Rufen Sie die Instanzdetails auf:
Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.
Klicken Sie auf Instanzen und dann auf den Namen der Instanz, um die Seite Instanzdetails aufzurufen.
- Klicken Sie im Feld Einbindung von Dataplex Data Lineage auf Bearbeiten.
- Aktivieren oder deaktivieren Sie Dataplex Data Lineage und klicken Sie dann auf Speichern.
REST API
So aktivieren Sie Dataplex Data Lineage in einer vorhandenen Instanz in
Cloud Data Fusion, legen Sie den dataplex_data_lineage_integration_enabled
fest
auf true
und fügen Sie den Parameterwert updateMask
ein:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
So deaktivieren Sie Dataplex Data Lineage in einer vorhandenen Instanz in
Cloud Data Fusion, legen Sie den dataplex_data_lineage_integration_enabled
fest
auf false
und fügen Sie den Parameterwert updateMask
ein:
echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
--data @- \
"https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"
Diagramme zur Datenherkunft ansehen
So rufen Sie Herkunftsdiagramme für Entitäten in allen Google Cloud-Diensten auf:
Rufen Sie Ihre Instanz in Cloud Data Fusion auf und führen Sie eine Datenpipeline aus, die unterstützte Plug-ins verwendet.
Rufen Sie in der Console auf der Seite „Dataplex“ die Abstammungsdiagramme auf und suchen Sie nach dem Asset, für das Sie Informationen zur Herkunft aufrufen möchten.
Beschränkungen
Das Aufrufen der Lineage in Dataplex unterliegt den folgenden Einschränkungen:
Die Lineage in Dataplex ist nur sichtbar, wenn Folgendes vorhanden ist: BigQuery-Entität, die mit den unterstützten Plug-ins verbunden ist. Weitere Informationen Informationen dazu, wann Data-Lineage-Diagramme verfügbar sind, finden Sie unter Datenherkunft
Die Data Lineage API unterstützt keine vom Kunden verwalteten Verschlüsselungsschlüssel (CMEK).
Cloud Data Fusion unterstützt dieses Feature in
me-central1
odereurope-west12
Standorte.Lesen Sie die Überlegungen zur Data Lineage.