In diesem Dokument wird beschrieben, wie Sie Metadaten aus einer Drittanbieterquelle in Dataplex importieren, indem Sie eine verwaltete Konnektivitätspipeline in Workflows ausführen.
Wenn Sie eine verwaltete Konnektivitätspipeline einrichten möchten, erstellen Sie einen Connector für Ihre Datenquelle. Anschließend führen Sie die Pipeline in Workflows aus. Die Pipeline extrahiert Metadaten aus Ihrer Datenquelle und importiert sie dann in Dataplex. Bei Bedarf erstellt die Pipeline auch Dataplex Catalog-Eintragsgruppen in Ihrem Google Cloud -Projekt.
Weitere Informationen zur verwalteten Konnektivität finden Sie unter Verwaltete Konnektivität – Übersicht.
Hinweis
Führen Sie die Aufgaben in diesem Abschnitt aus, bevor Sie Metadaten importieren.
Connector erstellen
Ein Connector extrahiert die Metadaten aus Ihrer Datenquelle und generiert eine Metadatenimportdatei, die von Dataplex importiert werden kann. Der Connector ist ein Artifact Registry-Image, das auf Dataproc Serverless ausgeführt werden kann.
Erstellen Sie einen benutzerdefinierten Connector, der Metadaten aus der Drittanbieterquelle extrahiert.
Ein Beispiel für einen Connector, den Sie als Referenzvorlage zum Erstellen Ihres eigenen Connectors verwenden können, finden Sie unter Benutzerdefinierten Connector für den Metadatenimport entwickeln.
Google Cloud -Ressourcen konfigurieren
-
Enable the Workflows, Dataproc, Cloud Storage, Dataplex, Secret Manager, Artifact Registry, and Cloud Scheduler APIs.
Wenn Sie die Pipeline nicht nach einem Zeitplan ausführen möchten, müssen Sie die Cloud Scheduler API nicht aktivieren.
Erstellen Sie Secrets in Secret Manager, um die Anmeldedaten für Ihre Drittanbieterdatenquelle zu speichern.
Konfigurieren Sie Ihr VPC-Netzwerk (Virtual Private Cloud), um Dataproc Serverless für Spark-Arbeitslasten auszuführen.
Erstellen Sie einen Cloud Storage-Bucket zum Speichern der Metadatenimportdateien.
Erstellen Sie die folgenden Dataplex Catalog-Ressourcen:
Erstellen Sie benutzerdefinierte Aspekttypen für die Einträge, die Sie importieren möchten.
Erstellen Sie benutzerdefinierte Eintragstypen für die Einträge, die Sie importieren möchten.
Erforderliche Rollen
Ein Dienstkonto stellt die Identität eines Workflows dar und bestimmt, welche Berechtigungen der Workflow hat und auf welche Google Cloud Ressourcen er zugreifen kann. Sie benötigen ein Dienstkonto für Workflows (zum Ausführen der Pipeline) und für Dataproc Serverless (zum Ausführen des Connectors).
Sie können das Compute Engine-Standarddienstkonto (PROJECT_NUMBER-compute@developer.gserviceaccount.com
) verwenden oder eigene Dienstkonten erstellen, um die verwaltete Konnektivitätspipeline auszuführen.
Console
Öffnen Sie in der Google Cloud Console die Seite IAM.
Wählen Sie das Projekt aus, in das Sie Metadaten importieren möchten.
Klicken Sie auf
Zugriff gewähren und geben Sie dann die E-Mail-Adresse des Dienstkontos ein.Weisen Sie dem Dienstkonto die folgenden Rollen zu:
- Log-Autor
- Dataplex Entry Group Owner
- Dataplex Metadata Job Owner
- Dataplex Catalog Editor
- Dataproc-Bearbeiter
- Dataproc-Worker
- Zugriffsperson für Secret Manager-Secret für das Secret, in dem die Anmeldedaten für Ihre Datenquelle gespeichert sind
- Storage Object User für den Cloud Storage-Bucket
- Artifact Registry Reader: Im Artifact Registry-Repository, das das Connector-Image enthält
- Dienstkontonutzer: Wenn Sie verschiedene Dienstkonten verwenden, weisen Sie dem Dienstkonto, auf dem Workflows ausgeführt werden, diese Rolle für das Dienstkonto zu, auf dem die Dataproc-Batchjobs ohne Server ausgeführt werden.
- Workflows Invoker: Wenn Sie die Pipeline planen möchten
Speichern Sie die Änderungen.
gcloud
Weisen Sie dem Dienstkonto Rollen zu. Führen Sie folgende Befehle aus:
gcloud projects add-iam-policy-binding PROJECT_ID \ --member="serviceAccount:SERVICE_ACCOUNT_ID" \ --role=roles/logging.logWriter gcloud projects add-iam-policy-binding PROJECT_ID \ --member="serviceAccount:SERVICE_ACCOUNT_ID" \ --role=roles/dataplex.entryGroupOwner gcloud projects add-iam-policy-binding PROJECT_ID \ --member="serviceAccount:SERVICE_ACCOUNT_ID" \ --role=roles/dataplex.metadataJobOwner gcloud projects add-iam-policy-binding PROJECT_ID \ --member="serviceAccount:SERVICE_ACCOUNT_ID" \ --role=roles/dataplex.catalogEditor gcloud projects add-iam-policy-binding PROJECT_ID \ --member="serviceAccount:SERVICE_ACCOUNT_ID" \ --role=roles/dataproc.editor gcloud projects add-iam-policy-binding PROJECT_ID \ --member="serviceAccount:SERVICE_ACCOUNT_ID" \ --role=roles/dataproc.worker
Ersetzen Sie Folgendes:
-
PROJECT_ID
: Der Name des Zielprojekts Google Cloud, in das die Metadaten importiert werden sollen. SERVICE_ACCOUNT_ID
: das Dienstkonto, z. B.my-service-account@my-project.iam.gserviceaccount.com
.
-
Weisen Sie dem Dienstkonto die folgenden Rollen auf Ressourcenebene zu:
gcloud secrets add-iam-policy-binding SECRET_ID \ --member="serviceAccount:SERVICE_ACCOUNT_ID" \ --role=roles/secretmanager.secretaccessor gcloud projects add-iam-policy-binding PROJECT_ID \ --member="serviceAccount:SERVICE_ACCOUNT_ID" \ --role=roles/storage.objectUser \ --condition=resource.name.startsWith('projects/_/buckets/BUCKET_ID') gcloud artifacts repositories add-iam-policy-binding REPOSITORY \ --location=REPOSITORY_LOCATION \ --member=SERVICE_ACCOUNT_ID} \ --role=roles/artifactregistry.reader
Ersetzen Sie Folgendes:
SECRET_ID
: die ID des Secrets, in dem die Anmeldedaten für Ihre Datenquelle gespeichert sind. Sie verwendet das Formatprojects/PROJECT_ID/secrets/SECRET_ID
.BUCKET_ID
: den Namen des Cloud Storage-Buckets.REPOSITORY
: das Artifact Registry-Repository, das das Connector-Image enthält.REPOSITORY_LOCATION
: den Google CloudStandort, an dem das Repository gehostet wird.
Weisen Sie dem Dienstkonto, auf dem Workflows ausgeführt werden, die Rolle
roles/iam.serviceAccountUser
für das Dienstkonto zu, auf dem die Dataproc Serverless-Batchjobs ausgeführt werden. Sie müssen diese Rolle auch gewähren, wenn Sie dasselbe Dienstkonto für Workflows und Dataproc Serverless verwenden.gcloud iam service-accounts add-iam-policy-binding \ serviceAccount:SERVICE_ACCOUNT_ID \ --member='SERVICE_ACCOUNT_ID' \ --role='roles/iam.serviceAccountUser'
Wenn Sie unterschiedliche Dienstkonten verwenden, ist der Wert für das Flag
--member
das Dienstkonto, unter dem die Dataproc-Serverless-Batchjobs ausgeführt werden.Wenn Sie die Pipeline planen möchten, weisen Sie dem Dienstkonto die folgende Rolle zu:
gcloud projects add-iam-policy-binding PROJECT_ID \ --member="SERVICE_ACCOUNT_ID" \ --role=roles/workflows.invoker
Metadaten importieren
Wenn Sie Metadaten importieren möchten, erstellen Sie einen Workflow, in dem die verwaltete Konnektivitätspipeline ausgeführt wird, und führen Sie ihn aus. Optional können Sie auch einen Zeitplan für die Ausführung der Pipeline erstellen.
Console
Erstellen Sie den Workflow. Geben Sie die folgenden Informationen an:
- Dienstkonto: Das Dienstkonto, das Sie im Abschnitt Erforderliche Rollen dieses Dokuments konfiguriert haben.
Verschlüsselung: Wählen Sie Google-managed encryption key aus.
Workflow definieren: Geben Sie die folgende Definitiondatei an:
Wenn Sie die Pipeline on demand ausführen möchten, führen Sie den Workflow aus.
Geben Sie die folgenden Laufzeitargumente an:
Ersetzen Sie Folgendes:
-
PROJECT_ID
: Der Name des Zielprojekts Google Cloud, in das die Metadaten importiert werden sollen. -
LOCATION_ID
: der Ziel Google Cloud speicherort, an dem die Dataproc Serverless- und Metadatenimportjobs ausgeführt und Metadaten importiert werden -
ENTRY_GROUP_ID
: die ID der Eintragsgruppe, in die Metadaten importiert werden sollen. Die ID der Eingangsgruppe kann Kleinbuchstaben, Ziffern und Bindestriche enthalten.Der vollständige Ressourcenname dieser Eintragsgruppe lautet
projects/PROJECT_ID/locations/LOCATION_ID/entryGroups/ENTRY_GROUP_ID
. -
CREATE_ENTRY_GROUP_BOOLEAN
: Wenn die Pipeline die Einstiegsgruppe erstellen soll, wenn sie in Ihrem Projekt noch nicht vorhanden ist, legen Sie diesen Wert auftrue
fest. -
BUCKET_ID
: Der Name des Cloud Storage-Buckets, in dem die vom Connector generierte Metadatenimportdatei gespeichert werden soll. Für jede Workflowausführung wird ein neuer Ordner erstellt. -
SERVICE_ACCOUNT_ID
: das Dienstkonto, das Sie im Abschnitt Erforderliche Rollen dieses Dokuments konfiguriert haben. Das Dienstkonto führt den Connector in Dataproc Serverless aus. -
ADDITIONAL_CONNECTOR_ARGUMENTS
: Eine Liste mit zusätzlichen Argumenten, die an den Connector übergeben werden sollen. Beispiele finden Sie unter Benutzerdefinierten Connector für den Metadatenimport entwickeln. Setzen Sie jedes Argument in Anführungszeichen und trennen Sie die Argumente durch Kommas. -
CONTAINER_IMAGE
: das benutzerdefinierte Container-Image des in Artifact Registry gehosteten Connectors. -
ENTRY_TYPES
: Liste der Eintragstypen, die importiert werden sollen, im Formatprojects/PROJECT_ID/locations/LOCATION_ID/entryTypes/ENTRY_TYPE_ID
. DieLOCATION_ID
muss entweder derselbeGoogle Cloud Speicherort sein, an den Sie Metadaten importieren, oderglobal
. -
ASPECT_TYPES
: Liste der Aspekte, die importiert werden sollen, im Formatprojects/PROJECT_ID/locations/LOCATION_ID/aspectTypes/ASPECT_TYPE_ID
. DieLOCATION_ID
muss entweder derselbeGoogle Cloud Speicherort sein, an den Sie Metadaten importieren, oderglobal
. -
Optional: Geben Sie für das Argument
NETWORK_TAGS
eine Liste von Netzwerk-Tags an. -
Optional: Geben Sie für das Argument
NETWORK_URI
den URI des VPC-Netzwerks an, das eine Verbindung zur Datenquelle herstellt. Wenn Sie ein Netzwerk angeben, lassen Sie das Subnetzargument weg. -
Optional: Geben Sie für das Argument
SUBNETWORK_URI
den URI des Unternetzwerks an, das eine Verbindung zur Datenquelle herstellt. Wenn Sie ein Subnetz angeben, lassen Sie das Netzwerkargument weg.
Je nach Menge der importierten Metadaten kann die Ausführung der Pipeline einige Minuten oder länger dauern. Weitere Informationen zum Aufrufen des Fortschritts finden Sie unter Auf Ergebnisse der Workflowausführung zugreifen.
Nachdem die Pipeline ausgeführt wurde, können Sie in Dataplex Catalog nach den importierten Metadaten suchen.
-
Optional: Wenn Sie die Pipeline nach einem Zeitplan ausführen möchten, erstellen Sie einen Zeitplan mit Cloud Scheduler. Geben Sie die folgenden Informationen an:
- Häufigkeit: Ein Unix-Cron-Ausdruck, der den Zeitplan für die Ausführung der Pipeline definiert.
- Workflow-Argument: Die Laufzeitargumente für den Connector, wie im vorherigen Schritt beschrieben.
- Dienstkonto: Das Dienstkonto. Das Dienstkonto verwaltet den Scheduler.
gcloud
Speichern Sie die folgende Arbeitslastdefinition als YAML-Datei:
Definieren Sie Bash-Variablen, erstellen Sie den Workflow und erstellen Sie optional einen Zeitplan für die Ausführung der Pipeline:
Ersetzen Sie Folgendes:
-
PROJECT_ID
: Der Name des Zielprojekts Google Cloud, in das die Metadaten importiert werden sollen. -
LOCATION_ID
: der Ziel Google Cloud speicherort, an dem die Dataproc Serverless- und Metadatenimportjobs ausgeführt und Metadaten importiert werden -
SERVICE_ACCOUNT_ID
: das Dienstkonto, das Sie im Abschnitt Erforderliche Rollen dieses Dokuments konfiguriert haben. WORKFLOW_DEFINITION_FILE
: Pfad zur YAML-Datei mit der Workflowdefinition.WORKFLOW_NAME
: Der Name des Workflows.WORKFLOW_ARGUMENTS
: die Laufzeitargumente, die an den Connector übergeben werden sollen. Die Argumente müssen im JSON-Format vorliegen:Bei Cloud Scheduler werden die doppelten Anführungszeichen innerhalb des Strings in Anführungszeichen mit Schrägstrichen (\) maskiert. Beispiel:
--message-body="{\"argument\": \"{\\\"key\\\": \\\"value\\\"}\"}"
.Ersetzen Sie Folgendes:
-
ENTRY_GROUP_ID
: die ID der Eintragsgruppe, in die Metadaten importiert werden sollen. Die ID der Eingangsgruppe kann Kleinbuchstaben, Ziffern und Bindestriche enthalten.Der vollständige Ressourcenname dieser Eintragsgruppe lautet
projects/PROJECT_ID/locations/LOCATION_ID/entryGroups/ENTRY_GROUP_ID
. -
CREATE_ENTRY_GROUP_BOOLEAN
: Wenn die Pipeline die Einstiegsgruppe erstellen soll, wenn sie in Ihrem Projekt noch nicht vorhanden ist, legen Sie diesen Wert auftrue
fest. -
BUCKET_ID
: Der Name des Cloud Storage-Buckets, in dem die vom Connector generierte Metadatenimportdatei gespeichert werden soll. Für jede Workflowausführung wird ein neuer Ordner erstellt. -
ADDITIONAL_CONNECTOR_ARGUMENTS
: Eine Liste mit zusätzlichen Argumenten, die an den Connector übergeben werden sollen. Beispiele finden Sie unter Benutzerdefinierten Connector für den Metadatenimport entwickeln. -
CONTAINER_IMAGE
: das benutzerdefinierte Container-Image des in Artifact Registry gehosteten Connectors. -
ENTRY_TYPES
: Liste der Eintragstypen, die importiert werden sollen, im Formatprojects/PROJECT_ID/locations/LOCATION_ID/entryTypes/ENTRY_TYPE_ID
. DieLOCATION_ID
muss entweder derselbeGoogle Cloud Speicherort sein, an den Sie Metadaten importieren, oderglobal
. -
ASPECT_TYPES
: Liste der Aspekte, die importiert werden sollen, im Formatprojects/PROJECT_ID/locations/LOCATION_ID/aspectTypes/ASPECT_TYPE_ID
. DieLOCATION_ID
muss entweder derselbeGoogle Cloud Speicherort sein, an den Sie Metadaten importieren, oderglobal
. -
Optional: Geben Sie für das Argument
NETWORK_TAGS
eine Liste von Netzwerk-Tags an. -
Optional: Geben Sie für das Argument
NETWORK_URI
den URI des VPC-Netzwerks an, das eine Verbindung zur Datenquelle herstellt. Wenn Sie ein Netzwerk angeben, lassen Sie das Subnetzargument weg. -
Optional: Geben Sie für das Argument
SUBNETWORK_URI
den URI des Unternetzwerks an, das eine Verbindung zur Datenquelle herstellt. Wenn Sie ein Subnetz angeben, lassen Sie das Netzwerkargument weg.
-
CRON_SCHEDULE_EXPRESSION
: Ein Cron-Ausdruck, der den Zeitplan für die Ausführung der Pipeline definiert. Wenn Sie den Zeitplan beispielsweise jeden Tag um Mitternacht ausführen möchten, verwenden Sie den Ausdruck0 0 * * *
.
-
Wenn Sie die Pipeline bei Bedarf ausführen möchten, führen Sie den Workflow aus:
Die Workflow-Argumente sind im JSON-Format, aber nicht maskiert.
Je nach Menge der importierten Metadaten kann die Ausführung des Workflows einige Minuten oder länger dauern. Weitere Informationen zum Aufrufen des Fortschritts finden Sie unter Auf Ergebnisse der Workflowausführung zugreifen.
Nachdem die Pipeline ausgeführt wurde, können Sie in Dataplex Catalog nach den importierten Metadaten suchen.
Terraform
Klonen Sie das
cloud-dataplex
-Repository.Das Repository enthält die folgenden Terraform-Dateien:
main.tf
: Google Cloud Definiert die zu erstellenden Ressourcen.variables.tf
: Hier werden die Variablen deklariert.byo-connector.tfvars
: Hiermit werden die Variablen für die verwaltete Konnektivitätspipeline definiert.
Bearbeiten Sie die
.tfvars
-Datei und ersetzen Sie die Platzhalter durch die Informationen für Ihren Connector.Ersetzen Sie Folgendes:
-
PROJECT_ID
: Der Name des Zielprojekts Google Cloud, in das die Metadaten importiert werden sollen. -
LOCATION_ID
: der Ziel Google Cloud speicherort, an dem die Dataproc Serverless- und Metadatenimportjobs ausgeführt und Metadaten importiert werden -
SERVICE_ACCOUNT_ID
: das Dienstkonto, das Sie im Abschnitt Erforderliche Rollen dieses Dokuments konfiguriert haben. -
CRON_SCHEDULE_EXPRESSION
: Ein Cron-Ausdruck, der den Zeitplan für die Ausführung der Pipeline definiert. Wenn Sie den Zeitplan beispielsweise jeden Tag um Mitternacht ausführen möchten, verwenden Sie den Ausdruck0 0 * * *
. -
ENTRY_GROUP_ID
: die ID der Eintragsgruppe, in die Metadaten importiert werden sollen. Die ID der Eingangsgruppe kann Kleinbuchstaben, Ziffern und Bindestriche enthalten.Der vollständige Ressourcenname dieser Eintragsgruppe lautet
projects/PROJECT_ID/locations/LOCATION_ID/entryGroups/ENTRY_GROUP_ID
. -
CREATE_ENTRY_GROUP_BOOLEAN
: Wenn die Pipeline die Einstiegsgruppe erstellen soll, wenn sie in Ihrem Projekt noch nicht vorhanden ist, legen Sie diesen Wert auftrue
fest. -
BUCKET_ID
: Der Name des Cloud Storage-Buckets, in dem die vom Connector generierte Metadatenimportdatei gespeichert werden soll. Für jede Workflowausführung wird ein neuer Ordner erstellt. -
ADDITIONAL_CONNECTOR_ARGUMENTS
: Eine Liste mit zusätzlichen Argumenten, die an den Connector übergeben werden sollen. Beispiele finden Sie unter Benutzerdefinierten Connector für den Metadatenimport entwickeln. Setzen Sie jedes Argument in Anführungszeichen und trennen Sie die Argumente durch Kommas. -
CONTAINER_IMAGE
: das benutzerdefinierte Container-Image des in Artifact Registry gehosteten Connectors. -
ENTRY_TYPES
: Liste der Eintragstypen, die importiert werden sollen, im Formatprojects/PROJECT_ID/locations/LOCATION_ID/entryTypes/ENTRY_TYPE_ID
. DieLOCATION_ID
muss entweder derselbeGoogle Cloud Speicherort sein, an den Sie Metadaten importieren, oderglobal
. -
ASPECT_TYPES
: Liste der Aspekte, die importiert werden sollen, im Formatprojects/PROJECT_ID/locations/LOCATION_ID/aspectTypes/ASPECT_TYPE_ID
. DieLOCATION_ID
muss entweder derselbeGoogle Cloud Speicherort sein, an den Sie Metadaten importieren, oderglobal
. -
Optional: Geben Sie für das Argument
NETWORK_TAGS
eine Liste von Netzwerk-Tags an. -
Optional: Geben Sie für das Argument
NETWORK_URI
den URI des VPC-Netzwerks an, das eine Verbindung zur Datenquelle herstellt. Wenn Sie ein Netzwerk angeben, lassen Sie das Subnetzargument weg. -
Optional: Geben Sie für das Argument
SUBNETWORK_URI
den URI des Unternetzwerks an, das eine Verbindung zur Datenquelle herstellt. Wenn Sie ein Subnetz angeben, lassen Sie das Netzwerkargument weg.
-
Initialisieren Sie Terraform:
terraform init
Validieren Sie Terraform mit Ihrer
.tfvars
-Datei:terraform plan --var-file=CONNECTOR_VARIABLES_FILE.tfvars
Ersetzen Sie
CONNECTOR_VARIABLES_FILE
durch den Namen der Variablendefinitionsdatei.Terraform mit der Datei
.tfvars
bereitstellen:terraform apply --var-file=CONNECTOR_VARIABLES_FILE.tfvars
Terraform erstellt einen Workflow und einen Cloud Scheduler-Job im angegebenen Projekt. Mit Workflows wird die Pipeline gemäß dem von Ihnen angegebenen Zeitplan ausgeführt.
Je nach Menge der importierten Metadaten kann die Ausführung des Workflows einige Minuten oder länger dauern. Weitere Informationen zum Aufrufen des Fortschritts finden Sie unter Auf Ergebnisse der Workflowausführung zugreifen.
Nachdem die Pipeline ausgeführt wurde, können Sie in Dataplex Catalog nach den importierten Metadaten suchen.
Jobprotokolle ansehen
Verwenden Sie Cloud Logging, um Logs für eine verwaltete Konnektivitätspipeline aufzurufen. Die Protokollnutzlast enthält einen Link zu den Protokollen für den Dataproc Serverless-Batchjob und den Metadatenimportjob, sofern zutreffend. Weitere Informationen finden Sie unter Workflow-Logs ansehen.
Fehlerbehebung
Versuchen Sie, das Problem anhand der folgenden Vorschläge zu beheben:
- Konfigurieren Sie die Protokollebene des Importjobs für den Metadatenjob so, dass Logging auf Debugebene anstelle von Logging auf Infoebene verwendet wird.
- Prüfen Sie die Logs für den serverlosen Dataproc-Batchjob (für Connectorausführungen) und den Metadatenimportjob. Weitere Informationen finden Sie unter Dataproc Serverless für Spark-Protokolle abfragen und Metadatenjobprotokolle abfragen.
- Wenn ein Eintrag nicht mithilfe der Pipeline importiert werden kann und die Fehlermeldung nicht genügend Informationen enthält, erstellen Sie einen benutzerdefinierten Eintrag mit denselben Details in einer Testeintragsgruppe. Weitere Informationen finden Sie unter Benutzerdefinierten Eintrag erstellen.