Este documento mostra os aspectos gerais dos pipelines de conectividade gerenciados que que podem ser usados para importar metadados de fontes de terceiros para o Dataplex.
A conectividade gerenciada permite importar metadados para o Dataplex escala. Um pipeline de conectividade gerenciada extrai metadados das suas fontes de dados e, em seguida, importa os metadados para o Dataplex. Se necessário, o pipeline também cria grupos de entrada do catálogo do Dataplex na sua projeto do Google Cloud. É possível orquestrar os fluxos de trabalho e agendar importar jobs com base nos seus requisitos.
Você cria seus próprios conectores personalizados para extrair metadados de fontes de terceiros. Por exemplo, você pode criar um conector para extrair metadados de fontes como MySQL, SQL Server, Oracle, Snowflake, Databricks e outros. Para saber como criar um conector personalizado de exemplo, consulte Desenvolver um conector personalizado para importação de metadados.
Para saber como executar um pipeline de conectividade gerenciada, consulte Importar metadados de uma fonte personalizada usando fluxos de trabalho.
Como a conectividade gerenciada funciona
O diagrama a seguir mostra um pipeline de conectividade gerenciada.
Confira como a conectividade gerenciada funciona:
Você cria um conector para sua fonte de dados.
O conector precisa ser uma imagem do Artifact Registry que possa ser executada Dataproc sem servidor
Você executa o pipeline de conectividade gerenciada no Workflows, uma plataforma de orquestração.
O pipeline de conectividade gerenciada faz o seguinte:
- Cria um grupo de entrada de destino com base na sua configuração, se a entrada O grupo ainda não existe.
- Executa o conector. O conector extrai os metadados dos seus dados e gera um arquivo de importação de metadados que pode ser importado para Catálogo do Dataplex.
- Monitora o andamento da extração de metadados.
- Executa um job de importação de metadados para importar os metadados para o Catálogo do Dataplex.
- Monitora o progresso do job de importação de metadados.
O pipeline de conectividade gerenciada usa o Dataproc Serverless para executar o conector e os métodos da API de importação de metadados do Dataplex para executar o job de importação de metadados.
Os metadados importados consistem no catálogo do Dataplex entradas e seus aspectos. Para mais informações sobre Metadados do catálogo do Dataplex, consulte Visão geral do catálogo do Dataplex.
A seguir
- Importar metadados de uma origem personalizada usando o Workflows
- Desenvolver um conector personalizado para a importação de metadados
- Importar metadados usando um pipeline personalizado