O Cloud Data Fusion oferece um plug-in de origem do Dataplex para ler dados de entidades (tabelas) do Dataplex que residem do Cloud Storage ou do BigQuery. O plug-in de origem do Dataplex permite tratar dados em recursos do Cloud Storage como tabelas e filtrar os dados com consultas SQL simples.
Antes de começar
Crie uma instância do Cloud Data Fusion, caso ainda não tenha uma. Esse plug-in está disponível em instâncias executadas no Cloud Data Fusion versão 6.6 ou mais recente.
Os dados de origem já precisam fazer parte de um Dataplex zone e um asset como um bucket do Cloud Storage ou um conjunto de dados do BigQuery.
Para usar tabelas do Cloud Storage, configure um metastore para seu lake.
Para que os dados sejam lidos das entidades do Cloud Storage, o metastore do Dataproc precisa ser anexado ao data lake.
Os dados CSV em entidades do Cloud Storage não são compatíveis.
No projeto do Dataplex, ative o Acesso privado do Google na sub-rede, que geralmente é definida como
default
, ou definainternal_ip_only
comofalse
.
Funções exigidas
Para receber as permissões necessárias para gerenciar papéis, peça ao administrador para conceder a você os seguintes papéis do IAM no agente de serviço do Dataproc e no agente de serviço do Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):
-
Desenvolvedor do Dataplex (
roles/dataplex.developer
) -
Leitor de dados do Dataplex (
roles/dataplex.dataReader
) -
Usuário de metadados do metastore do Dataproc (
roles/metastore.metadataUser
) -
Agente de serviço do Cloud Dataplex (
roles/dataplex.serviceAgent
) -
Leitor de metadados do Dataplex (
roles/dataplex.metadataReader
)
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.
Limitações
Para recursos do Cloud Storage: esse plug-in não oferece suporte à leitura de arquivos CSV. Ele é compatível com leitura nos formatos JSON, Avro, Parquet e ORC.
Para recursos do Cloud Storage: Data de início da partição e Partição Data de término não aplicáveis.
Adicionar o plug-in ao pipeline
No console do Google Cloud, acesse a página Instâncias do Cloud Data Fusion.
Nesta página, você pode gerenciar suas instâncias.
Clique em Ver instância para abrir a instância na interface do Cloud Data Fusion.
Acesse a página Studio, expanda o menu Origem e clique em Dataplex.
Configurar o plug-in
Depois de adicionar esse plug-in ao pipeline na página do Studio, clique em a fonte do Dataplex para configurar as propriedades dela.
Para mais informações sobre configurações, consulte a Referência de Origem do Dataplex.
Opcional: começar com um pipeline de amostra
Há pipelines de amostra disponíveis, incluindo uma origem SAP para o pipeline de coletor do Dataplex e uma origem do Dataplex para o pipeline de coletor do BigQuery.
Para usar um pipeline de exemplo, abra sua instância na interface do Cloud Data Fusion, clique em Hub > Pipelines e selecione um dos pipelines do Dataplex. Uma caixa de diálogo é aberta para ajudar a criar o pipeline.
A seguir
- Ingerir dados com o Cloud Data Fusion usando o plug-in do coletor do Dataplex.