Carregue dados com o Cloud Data Fusion

O Cloud Data Fusion fornece um plug-in Dataplex Universal Catalog Sink para carregar dados para qualquer um dos recursos suportados pelo Dataplex Universal Catalog.

Antes de começar

  • Se não tiver uma instância do Cloud Data Fusion, crie uma. Este plug-in está disponível em instâncias executadas na versão 6.6 ou posterior do Cloud Data Fusion. Para mais informações, consulte o artigo Crie uma instância pública do Cloud Data Fusion.
  • O conjunto de dados do BigQuery ou o contentor do Cloud Storage onde os dados são carregados têm de fazer parte de um lago do catálogo universal do Dataplex.
  • Para que os dados sejam lidos a partir de entidades do Cloud Storage, o Dataproc Metastore tem de estar anexado ao lake.
  • Os dados CSV em entidades do Cloud Storage não são suportados.
  • No projeto do Dataplex Universal Catalog, ative o acesso privado da Google na sub-rede, que normalmente está definido como default, ou defina internal_ip_only como false.

Funções necessárias

Para obter as autorizações de que precisa para gerir funções, peça ao seu administrador que lhe conceda as seguintes funções de IAM no agente de serviço do Dataproc e no agente de serviço do Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.

Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas.

Adicione o plug-in à sua conduta

  1. Na Google Cloud consola, aceda à página Instâncias do Cloud Data Fusion.

    Aceda a Instâncias

    Esta página permite-lhe gerir as suas instâncias.

  2. Para abrir a sua instância, clique em Ver instância.

  3. Aceda à página Studio, expanda o menu Sink e clique em Dataplex.

Configure o plug-in

Depois de adicionar este plug-in ao seu pipeline na página Studio, clique no Dataplex Universal Catalog para configurar e guardar as respetivas propriedades.

Para mais informações sobre as configurações, consulte a referência do Dataplex Sink.

Opcional: comece com um pipeline de amostra

Estão disponíveis pipelines de exemplo, incluindo um pipeline de origem SAP para o pipeline de destino do Dataplex Universal Catalog e um pipeline de origem do Dataplex Universal Catalog para o pipeline de destino do BigQuery.

Para usar um pipeline de exemplo, abra a sua instância na IU do Cloud Data Fusion, clique em Hub > Pipelines e selecione um dos pipelines do catálogo universal do Dataplex. É aberta uma caixa de diálogo para ajudar a criar o pipeline.

Execute o pipeline

  1. Após implementar o pipeline, abra-o na página Studio do Cloud Data Fusion.

  2. Clique em Configurar > Recursos.

  3. Opcional: altere o Executor CPU e a Memória com base no tamanho geral dos dados e no número de transformações usadas no pipeline.

  4. Clique em Guardar.

  5. Para iniciar o pipeline de dados, clique em Executar.

O que se segue?