Questo documento fornisce una panoramica delle pipeline di connettività gestite che puoi utilizzare per importare i metadati da origini di terze parti in Dataplex.
La connettività gestita ti consente di importare i metadati in Dataplex su larga scala. Una pipeline di connettività gestita estrae i metadati dalle origini dati e li importa in Dataplex. Se necessario, la pipeline crea anche gruppi di voci di Dataplex Catalog nel tuo progetto.Google Cloud Puoi orchestrare i flussi di lavoro e pianificare i job di importazione in base alle tue esigenze.
Puoi creare i tuoi connettori personalizzati per estrarre i metadati da origini di terze parti. Ad esempio, puoi creare un connettore per estrarre i metadati da origini come MySQL, SQL Server, Oracle, Snowflake, Databricks e altre. Per la procedura per creare un connettore personalizzato di esempio, consulta Sviluppare un connettore personalizzato per l'importazione dei metadati.
Per la procedura per eseguire una pipeline di connettività gestita, consulta Importare i metadati da un'origine personalizzata utilizzando i flussi di lavoro.
Come funziona la connettività gestita
Il seguente diagramma mostra una pipeline di connettività gestita.
Ecco come funziona la connettività gestita a grandi linee:
Crea un connettore per l'origine dati.
Il connettore deve essere un'immagine Artifact Registry che può essere eseguita su Dataproc Serverless.
Esegui la pipeline di connettività gestita in Workflows, una piattaforma di orchestrazione.
La pipeline di connettività gestita esegue le seguenti operazioni:
- Crea un gruppo di voci di destinazione in base alla configurazione, se il gruppo di voci non esiste ancora.
- Esegue il connettore. Il connettore estrae i metadati dall'origine dati e genera un file di importazione dei metadati che può essere importato in Dataplex Catalog.
- Monitora l'avanzamento dell'estrazione dei metadati.
- Esegue un job di importazione dei metadati per importarli in Dataplex Catalog.
- Monitora l'avanzamento del job di importazione dei metadati.
La pipeline di connettività gestita utilizza Dataproc Serverless per eseguire il connettore e i metodi dell'API di importazione dei metadati di Dataplex per eseguire il job di importazione dei metadati.
I metadati importati sono costituiti dalle voci di Dataplex Catalog e dai relativi aspetti. Per saperne di più sui metadati di Dataplex Catalog, consulta la panoramica di Dataplex Catalog.
Passaggi successivi
- Importare metadati da un'origine personalizzata utilizzando i flussi di lavoro
- Sviluppare un connettore personalizzato per l'importazione dei metadati
- Importare metadati utilizzando una pipeline personalizzata