Ingerir dados com o Cloud Data Fusion

O Cloud Data Fusion oferece um plug-in de coletor do Dataplex Universal Catalog para ingerir dados em qualquer um dos recursos compatíveis com o Dataplex Universal Catalog.

Antes de começar

  • Se você não tiver uma instância do Cloud Data Fusion, crie uma. Esse plug-in está disponível em instâncias que executam o Cloud Data Fusion versão 6.6 ou posterior. Para mais informações, consulte Criar uma instância pública do Cloud Data Fusion.
  • O conjunto de dados do BigQuery ou o bucket do Cloud Storage em que os dados são ingeridos precisam fazer parte de um lake do Dataplex Universal Catalog.
  • Para que os dados sejam lidos das entidades do Cloud Storage, o metastore do Dataproc precisa estar anexado ao lake.
  • Não é possível usar dados CSV em entidades do Cloud Storage.
  • No projeto do Dataplex Universal Catalog, ative o Acesso privado do Google na sub-rede, que geralmente é definida como default, ou defina internal_ip_only como false.

Funções exigidas

Para receber as permissões necessárias para gerenciar papéis, peça ao administrador para conceder a você os seguintes papéis do IAM no agente de serviço do Dataproc e no agente de serviço do Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.

Adicionar o plug-in ao pipeline

  1. No console Google Cloud , acesse a página Instâncias do Cloud Data Fusion.

    Acesse "Instâncias"

    Nesta página, é possível gerenciar suas instâncias.

  2. Para abrir a instância, clique em Ver instância.

  3. Acesse a página Studio, expanda o menu Coletor e clique em Dataplex.

Configurar o plug-in

Depois de adicionar esse plug-in ao pipeline na página Studio, clique no gravador do Dataplex Universal Catalog para configurar e salvar as propriedades dele.

Para mais informações sobre configurações, consulte a referência do Dataplex Sink.

Opcional: começar a usar um pipeline de exemplo

Há exemplos de pipelines disponíveis, incluindo um pipeline de origem do SAP para um coletor do Dataplex Universal Catalog e um pipeline de origem do Dataplex Universal Catalog para um coletor do BigQuery.

Para usar um pipeline de exemplo, abra sua instância na interface do Cloud Data Fusion, clique em Hub > Pipelines e selecione um dos pipelines do Catálogo universal do Dataplex. Uma caixa de diálogo vai aparecer para ajudar você a criar o pipeline.

Executar o pipeline

  1. Depois de implantar o pipeline, abra-o na página Studio do Cloud Data Fusion.

  2. Clique em Configurar > Recursos.

  3. Opcional: mude a CPU do executor e a Memória com base no tamanho geral dos dados e no número de transformações usadas no pipeline.

  4. Clique em Salvar.

  5. Para iniciar o pipeline de dados, clique em Executar.

A seguir