Lineage in Dataplex ansehen

Auf dieser Seite wird beschrieben, wie Sie die von Ihren Cloud Data Fusion-Pipelines generierte Datenherkunft zu Erkennungs- und Governance-Zwecken mit anderen Datenbewegungen in Google Cloud aufrufen können. Sie können sich die Herkunftsdiagramme für unterstützte Datenquellen auf der Dataplex-Seite in der Console ansehen oder die Data Lineage API verwenden, um vollständige Data-Lineage-Datensätze abzurufen.

Plug-ins, die Dataplex Data Lineage unterstützen

Cloud Data Fusion und Dataplex unterstützen die Herkunft auf Asset-Ebene für die folgenden Plug-ins:

  • Amazon S3
  • BigQuery
  • BigQuery-Multi-Tabellen-Senke (Version 6.9.1 und höher)
  • Cloud Spanner
  • Cloud Storage
  • Cloud SQL for MySQL
  • Cloud SQL for PostgreSQL
  • Dataplex
  • FTP
  • Generische Datenbank
  • HTTP
  • MSSQL/SQL Server
  • Quelle für mehrere Datenbanktabellen (Version 6.9.1 und höher)
  • MySQL
  • Oracle
  • PostgreSQL
  • SAP OData
  • SAP ODP
  • SAP-Tabelle

Weitere Informationen finden Sie unter Cloud Data Fusion-Plug-ins.

Hinweise

So aktivieren Sie die Anzeige von Cloud Data Fusion-Herkunftsdiagrammen auf der Dataplex-Seite in der Console:

  1. Erstellen Sie eine Datenpipeline, die nur die unterstützten Plug-ins verwendet.

  2. Aktivieren Sie die Data Lineage API in dem Projekt, das Ihre Cloud Data Fusion-Instanz enthält.

  3. Weisen Sie dem von Cloud Data Fusion verwalteten Dienstkonto, dem Cloud Data Fusion API-Dienst-Agent, die Rolle „Data Lineage Events Producer“ (roles/datalineage.producer) zu. Der Vorgang variiert, wenn die Instanz in einer früheren Version von Cloud Data Fusion und RBAC ausgeführt wird.

    6.10 oder höher oder kein RBAC

    Wenn Ihre Cloud Data Fusion-Instanz Version 6.10.0 oder höher oder eine ältere Version verwendet und RBAC nicht aktiviert ist, führen Sie die folgenden Schritte aus:

    1. Öffnen Sie in der Google Cloud Console die Seite IAM.

      IAM aufrufen

    2. Klicken Sie auf das Kästchen Von Google bereitgestellte Rollenzuweisungen einschließen.

    3. Wählen Sie das Dienstkonto des Cloud Data Fusion API-Dienst-Agents aus und klicken Sie auf Bearbeiten.

    4. Klicken Sie auf Weitere Rolle hinzufügen und wählen Sie die Rolle Data Lineage Events Producer aus.

    5. Klicken Sie auf Speichern.

    <6.10 mit RBAC

    Wenn Ihre Cloud Data Fusion-Instanz eine Version vor 6.10.0 verwendet und RBAC aktiviert ist, wird das Dienstkonto nicht in der Liste der Hauptkonten auf der IAM-Seite angezeigt. Sie müssen den Namen des Dienstkontos manuell eingeben.

    So gewähren Sie die erforderliche Rolle:

    1. Öffnen Sie in der Google Cloud Console die Seite IAM.

      IAM aufrufen

    2. Klicken Sie auf Zugriff erlauben.

    3. Geben Sie im Feld Neue Hauptkonten das Dienstkonto des Cloud Data Fusion API-Dienst-Agents ein. Verwenden Sie das folgende Format: datafusion-system@TENANT_PROJECT_ID.iam.gserviceaccount.com.

      Ersetzen Sie TENANT_PROJECT_ID durch die Mandanten-ID der Instanz. Wenn Sie die Mandantenprojekt-ID ansehen möchten, rufen Sie die Seite Instanzen auf und klicken Sie auf den Instanznamen, um die Instanzdetails aufzurufen.

      Zur Seite „VM-Instanzen“

    4. Wählen Sie die Rolle Data Lineage Events Producer aus.

    5. Klicken Sie auf Speichern.

Dataplex Data Lineage in Cloud Data Fusion aktivieren

Bei neuen Instanzen in Cloud Data Fusion ist Dataplex Data Lineage standardmäßig deaktiviert. Wenn Sie die Instanz vor dem 27. Januar 2024 mit Version 6.8.0 oder höher erstellt haben, ist sie nach Abschluss der Schritte unter Vorbereitung standardmäßig aktiviert.

Dataplex Data Lineage beim Erstellen einer Instanz aktivieren

Console

So aktivieren Sie Dataplex Data Lineage beim Erstellen einer Instanz:

  1. Rufen Sie die Cloud Data Fusion-Seite Instanzen auf und klicken Sie auf Instanz erstellen.

    Instanz erstellen

  2. Maximieren Sie beim Konfigurieren der Instanz den Abschnitt Erweiterte Optionen und klicken Sie auf Integration mit Dataplex Data Lineage aktivieren. Weitere Informationen zum Erstellen von Instanzen finden Sie unter Öffentliche Instanz erstellen.

REST API

Wenn Sie Dataplex Data Lineage beim Erstellen einer Instanz aktivieren möchten, legen Sie das optionale Attribut dataplex_data_lineage_integration_enabled auf true fest:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME"

Wenn Sie die Funktion deaktivieren möchten, setzen Sie das Attribut entweder auf „false“ oder lassen Sie es aus, da die Herkunft standardmäßig beim Erstellen einer neuen Instanz deaktiviert ist.

Dataplex Data Lineage in einer vorhandenen Instanz aktivieren oder deaktivieren

Console

So aktivieren oder deaktivieren Sie Dataplex Data Lineage in einer vorhandenen Instanz in Cloud Data Fusion:

  1. Sehen Sie sich die Instanzdetails an:
    1. Rufen Sie in der Google Cloud Console die Seite „Cloud Data Fusion“ auf.

    2. Klicken Sie auf Instanzen und dann auf den Namen der Instanz, um die Seite Instanzdetails aufzurufen.

      Zur Seite „VM-Instanzen“

  2. Klicken Sie im Feld Dataplex Data Lineage-Integration auf Bearbeiten.
  3. Aktivieren oder deaktivieren Sie Dataplex Data Lineage und klicken Sie dann auf Speichern.

REST API

Zum Aktivieren von Dataplex Data Lineage in einer vorhandenen Instanz in Cloud Data Fusion setzen Sie das Attribut dataplex_data_lineage_integration_enabled auf true und fügen Sie den Parameterwert updateMask ein:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "true"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Wenn Sie Dataplex Data Lineage in einer vorhandenen Instanz in Cloud Data Fusion deaktivieren möchten, setzen Sie das Attribut dataplex_data_lineage_integration_enabled auf false und fügen Sie den Parameterwert updateMask hinzu:

echo '{ "description": "CDAPinstance", "dataplex_data_lineage_integration_enabled": "false"}' | curl -X POST \
  -H "Authorization: Bearer $(gcloud auth print-access-token)" \
  -H "Content-Type: application/json" \
  --data @- \
  "https://datafusion.googleapis.com/v1/projects/PROJECT/locations/LOCATION/instances?instanceId=INSTANCE_NAME?updateMask=dataplex_data_lineage_integration_enabled"

Data Lineage-Diagramme ansehen

So rufen Sie Herkunftsdiagramme für Entitäten in allen Google Cloud-Diensten auf:

  1. Rufen Sie Ihre Instanz in Cloud Data Fusion auf und führen Sie eine Datenpipeline aus, die unterstützte Plug-ins verwendet.

  2. Rufen Sie in der Console auf der Dataplex-Seite die Herkunftsdiagramme auf und suchen Sie das Asset, für das Sie Herkunftsinformationen ansehen möchten.

Beschränkungen

Für das Ansehen der Herkunft in Dataplex gelten die folgenden Einschränkungen:

Nächste Schritte