Processe dados com o Cloud Data Fusion

O Cloud Data Fusion oferece um plug-in de origem do Dataplex para ler dados de entidades (tabelas) do Dataplex que residem do Cloud Storage ou do BigQuery. O plug-in de origem do Dataplex permite tratar dados em recursos do Cloud Storage como tabelas e filtrar os dados com consultas SQL simples.

Antes de começar

  • Crie uma instância do Cloud Data Fusion, caso ainda não tenha uma. Esse plug-in está disponível em instâncias executadas no Cloud Data Fusion versão 6.6 ou mais recente.

  • Os dados de origem já precisam fazer parte de um Dataplex zone e um asset como um bucket do Cloud Storage ou um conjunto de dados do BigQuery.

  • Para usar tabelas do Cloud Storage, configure um metastore para seu lake.

  • Para que os dados sejam lidos das entidades do Cloud Storage, o metastore do Dataproc precisa ser anexado ao data lake.

  • Os dados CSV em entidades do Cloud Storage não são compatíveis.

  • No projeto do Dataplex, ative o Acesso privado do Google na sub-rede, que geralmente é definida como default, ou defina internal_ip_only como false.

Funções exigidas

Para receber as permissões necessárias para gerenciar papéis, peça ao administrador para conceder a você os seguintes papéis do IAM no agente de serviço do Dataproc e no agente de serviço do Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

Limitações

  • Para recursos do Cloud Storage: esse plug-in não oferece suporte à leitura de arquivos CSV. Ele é compatível com leitura nos formatos JSON, Avro, Parquet e ORC.

  • Para recursos do Cloud Storage: Data de início da partição e Partição Data de término não aplicáveis.

Adicionar o plug-in ao pipeline

  1. No console do Google Cloud, acesse a página Instâncias do Cloud Data Fusion.

    Acesse "Instâncias"

    Nesta página, você pode gerenciar suas instâncias.

  2. Clique em Ver instância para abrir a instância na interface do Cloud Data Fusion.

  3. Acesse a página Studio, expanda o menu Origem e clique em Dataplex.

Configurar o plug-in

Depois de adicionar esse plug-in ao pipeline na página do Studio, clique em a fonte do Dataplex para configurar as propriedades dela.

Para mais informações sobre configurações, consulte a Referência de Origem do Dataplex.

Opcional: começar com um pipeline de amostra

Há pipelines de amostra disponíveis, incluindo uma origem SAP para o pipeline de coletor do Dataplex e uma origem do Dataplex para o pipeline de coletor do BigQuery.

Para usar um pipeline de exemplo, abra sua instância na interface do Cloud Data Fusion, clique em Hub > Pipelines e selecione um dos pipelines do Dataplex. Uma caixa de diálogo é aberta para ajudar a criar o pipeline.

A seguir