Esta página foi traduzida pela API Cloud Translation.

Ingerir dados com o Cloud Data Fusion

O Cloud Data Fusion oferece um plug-in de coletor do Dataplex Universal Catalog para ingerir dados em qualquer um dos recursos compatíveis com o Dataplex Universal Catalog.

Antes de começar

Se você não tiver uma instância do Cloud Data Fusion, crie uma. Esse plug-in está disponível em instâncias que executam o Cloud Data Fusion versão 6.6 ou posterior. Para mais informações, consulte Criar uma instância pública do Cloud Data Fusion.
O conjunto de dados do BigQuery ou o bucket do Cloud Storage em que os dados são ingeridos precisam fazer parte de um lake do Dataplex Universal Catalog.
Para que os dados sejam lidos das entidades do Cloud Storage, o metastore do Dataproc precisa estar anexado ao lake.
Não é possível usar dados CSV em entidades do Cloud Storage.
No projeto do Dataplex Universal Catalog, ative o Acesso privado do Google na sub-rede, que geralmente é definida como default, ou defina internal_ip_only como false.

Funções exigidas

Para receber as permissões necessárias para gerenciar papéis, peça ao administrador para conceder a você os seguintes papéis do IAM no agente de serviço do Dataproc e no agente de serviço do Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Desenvolvedor do Dataplex (roles/dataplex.developer)
Leitor de dados do Dataplex (roles/dataplex.dataReader)
Usuário de metadados do metastore do Dataproc (roles/metastore.metadataUser)
Agente de serviço do Cloud Dataplex (roles/dataplex.serviceAgent)
Leitor de metadados do Dataplex (roles/dataplex.metadataReader)

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias usando papéis personalizados ou outros papéis predefinidos.

Adicionar o plug-in ao pipeline

No console Google Cloud , acesse a página Instâncias do Cloud Data Fusion.

Acesse "Instâncias"

Nesta página, é possível gerenciar suas instâncias.
Para abrir a instância, clique em Ver instância.
Acesse a página Studio, expanda o menu Coletor e clique em Dataplex.

Configurar o plug-in

Depois de adicionar esse plug-in ao pipeline na página Studio, clique no gravador do Dataplex Universal Catalog para configurar e salvar as propriedades dele.

Para mais informações sobre configurações, consulte a referência do Dataplex Sink.

Opcional: começar a usar um pipeline de exemplo

Há exemplos de pipelines disponíveis, incluindo um pipeline de origem do SAP para um coletor do Dataplex Universal Catalog e um pipeline de origem do Dataplex Universal Catalog para um coletor do BigQuery.

Para usar um pipeline de exemplo, abra sua instância na interface do Cloud Data Fusion, clique em Hub > Pipelines e selecione um dos pipelines do Catálogo universal do Dataplex. Uma caixa de diálogo vai aparecer para ajudar você a criar o pipeline.

Executar o pipeline

Depois de implantar o pipeline, abra-o na página Studio do Cloud Data Fusion.
Clique em Configurar > Recursos.
Opcional: mude a CPU do executor e a Memória com base no tamanho geral dos dados e no número de transformações usadas no pipeline.
Clique em Salvar.
Para iniciar o pipeline de dados, clique em Executar.

A seguir

Processe dados com o Cloud Data Fusion usando o plug-in de origem do Dataplex Universal Catalog.