In diesem Dokument finden Sie einen Überblick über die verwalteten Verbindungspipelines, mit denen Sie Metadaten aus Drittanbieterquellen in Dataplex importieren können.
Mit der verwalteten Konnektivität können Sie große Mengen an Metadaten in Dataplex importieren. Eine verwaltete Verbindungspipeline extrahiert Metadaten aus Ihren Datenquellen und importiert sie dann in Dataplex. Bei Bedarf werden mit der Pipeline auch Dataplex Catalog-Eintragsgruppen in IhremGoogle Cloud -Projekt erstellt. Sie können die Workflows orchestrieren und die Importjobs entsprechend Ihren Anforderungen planen.
Sie erstellen eigene benutzerdefinierte Connectors, um Metadaten aus Drittanbieterquellen zu extrahieren. Sie können beispielsweise einen Connector erstellen, um Metadaten aus Quellen wie MySQL, SQL Server, Oracle, Snowflake und Databricks zu extrahieren. Eine Anleitung zum Erstellen eines Beispiels für einen benutzerdefinierten Connector finden Sie unter Benutzerdefinierten Connector für den Metadatenimport entwickeln.
Eine Anleitung zum Ausführen einer verwalteten Konnektivitätspipeline finden Sie unter Metadaten mithilfe von Workflows aus einer benutzerdefinierten Quelle importieren.
So funktioniert die verwaltete Konnektivität
Das folgende Diagramm zeigt eine verwaltete Konnektivitätspipeline.
So funktioniert die verwaltete Konnektivität im Groben:
Sie erstellen einen Connector für Ihre Datenquelle.
Der Connector muss ein Artifact Registry-Image sein, das auf Dataproc Serverless ausgeführt werden kann.
Sie führen die verwaltete Konnektivitätspipeline in Workflows aus, einer Orchestrierungsplattform.
Die Pipeline für die verwaltete Konnektivität führt folgende Aufgaben aus:
- Es wird eine Ziel-Eintragsgruppe basierend auf Ihrer Konfiguration erstellt, falls die Eintragsgruppe noch nicht vorhanden ist.
- Führt den Connector aus. Der Connector extrahiert die Metadaten aus Ihrer Datenquelle und generiert eine Metadatenimportdatei, die in den Dataplex-Katalog importiert werden kann.
- Hier wird der Fortschritt der Metadatenextraktion überwacht.
- Führt einen Metadatenimportjob aus, um die Metadaten in Dataplex Catalog zu importieren.
- Hier wird der Fortschritt des Metadatenimportjobs überwacht.
In der verwalteten Verbindungspipeline wird Dataproc Serverless zum Ausführen des Connectors und die Dataplex-Metadatenimport-API-Methoden zum Ausführen des Metadatenimportjobs verwendet.
Die importierten Metadaten bestehen aus Dataplex Catalog-Einträgen und ihren Aspekten. Weitere Informationen zu Dataplex Catalog-Metadaten finden Sie in der Dataplex Catalog-Übersicht.
Nächste Schritte
- Metadaten mithilfe von Workflows aus einer benutzerdefinierten Quelle importieren
- Benutzerdefinierten Connector für den Metadatenimport entwickeln
- Metadaten mit einer benutzerdefinierten Pipeline importieren