Processar dados com o Cloud Data Fusion

O Cloud Data Fusion fornece um plug-in de origem do Dataplex para ler dados de entidades (tabelas) do Dataplex que residem em recursos do Cloud Storage ou do BigQuery. O plug-in de origem do Dataplex permite tratar dados em recursos do Cloud Storage como tabelas e filtrar os dados com consultas SQL.

Antes de começar

  • Crie uma instância do Cloud Data Fusion, se você ainda não tiver uma. Esse plug-in está disponível em instâncias executadas na versão 6.6 ou mais recente do Cloud Data Fusion.

  • Os dados de origem precisam fazer parte de uma zona do Dataplex e de um recurso (um bucket do Cloud Storage ou um conjunto de dados do BigQuery).

  • Para usar tabelas do Cloud Storage, configure uma metastore para seu data lake.

  • Para que os dados sejam lidos das entidades do Cloud Storage, o metastore do Dataproc precisa ser anexado ao data lake.

  • Não é possível usar dados CSV em entidades do Cloud Storage.

  • No projeto do Dataplex, ative o Acesso privado do Google na sub-rede, que geralmente é definida como default, ou defina internal_ip_only como false.

Limitações

  • Para recursos do Cloud Storage: esse plug-in não oferece suporte à leitura de arquivos CSV. Ele oferece suporte à leitura de formatos JSON, Avro, Parquet e ORC.

  • Para recursos do Cloud Storage: Data de início da partição e Data de término da partição não são aplicáveis.

Funções exigidas

Para receber as permissões necessárias para gerenciar papéis, peça ao administrador para conceder a você os seguintes papéis do IAM no agente de serviço do Dataproc e no agente de serviço do Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):

Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.

Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.

Adicionar o plug-in ao pipeline

  1. No console do Google Cloud, acesse a página Instâncias do Cloud Data Fusion.

    Acesse "Instâncias"

    Nesta página, você pode gerenciar suas instâncias.

  2. Clique em Ver instância para abrir a instância na interface do Cloud Data Fusion.

  3. Acesse a página Studio, expanda o menu Origem e clique em Dataplex.

Configurar o plug-in

Depois de adicionar esse plug-in ao pipeline na página Studio, clique na fonte do Dataplex para configurar as propriedades.

Para mais informações sobre as configurações, consulte a referência da Origem do Dataplex.

Opcional: começar com um pipeline de exemplo

Há pipelines de amostra disponíveis, incluindo uma origem SAP para o pipeline de coletor do Dataplex e uma origem do Dataplex para o pipeline de coletor do BigQuery.

Para usar um pipeline de exemplo, abra sua instância na interface do Cloud Data Fusion, clique em Hub > Pipelines e selecione um dos pipelines do Dataplex. Uma caixa de diálogo é aberta para ajudar a criar o pipeline.

A seguir