Visão geral da conectividade gerenciada

Este documento apresenta uma visão geral dos pipelines de conectividade gerenciados que podem ser usados para importar metadados de fontes de terceiros para o Dataplex.

Com a conectividade gerenciada, você pode importar metadados para o Dataplex em grande escala. Um pipeline de conectividade gerenciado extrai metadados das suas fontes de dados e os importa para o Dataplex. Se necessário, o pipeline também cria grupos de entrada do Dataplex Catalog no seu projetoGoogle Cloud . É possível orquestrar os fluxos de trabalho e programar os jobs de importação com base nos seus requisitos.

Você cria seus próprios conectores personalizados para extrair metadados de fontes de terceiros. Por exemplo, é possível criar um conector para extrair metadados de origens como MySQL, SQL Server, Oracle, Snowflake, Databricks e outras. Para saber como criar um conector personalizado de exemplo, consulte Desenvolver um conector personalizado para importação de metadados.

Para saber como executar um pipeline de conectividade gerenciada, consulte Importar metadados de uma fonte personalizada usando fluxos de trabalho.

Como funciona a conectividade gerenciada

O diagrama a seguir mostra um pipeline de conectividade gerenciada.

Um pipeline de conectividade gerenciada.

De modo geral, a conectividade gerenciada funciona assim:

  1. Você cria um conector para sua fonte de dados.

    O conector precisa ser uma imagem do Artifact Registry que possa ser executada no Dataproc sem servidor.

  2. Execute o pipeline de conectividade gerenciada no Workflows, uma plataforma de orquestração.

  3. O pipeline de conectividade gerenciada faz o seguinte:

    1. Cria um grupo de entrada de destino com base na sua configuração, se ele ainda não existir.
    2. Executa o conector. O conector extrai os metadados da sua fonte de dados e gera um arquivo de importação de metadados que pode ser importado para o Dataplex Catalog.
    3. Monitora o progresso da extração de metadados.
    4. Executa um job de importação de metadados para o Dataplex Catalog.
    5. Monitora o progresso do job de importação de metadados.

O pipeline de conectividade gerenciada usa o Dataproc Serverless para executar o conector e os métodos da API de importação de metadados do Dataplex para executar o job de importação de metadados.

Os metadados importados consistem em entradas do Dataplex Catalog e nos aspectos delas. Para mais informações sobre os metadados do Dataplex Catalog, consulte Visão geral do Dataplex Catalog.

A seguir