O Cloud Data Fusion fornece um plug-in de origem do Dataplex para ler dados de entidades (tabelas) do Dataplex que residem em recursos do Cloud Storage ou do BigQuery. O plug-in de origem do Dataplex permite tratar dados em recursos do Cloud Storage como tabelas e filtrar os dados com consultas SQL.
Antes de começar
Crie uma instância do Cloud Data Fusion, se você ainda não tiver uma. Esse plug-in está disponível em instâncias executadas na versão 6.6 ou mais recente do Cloud Data Fusion.
Os dados de origem precisam fazer parte de uma zona do Dataplex e de um recurso (um bucket do Cloud Storage ou um conjunto de dados do BigQuery).
Para usar tabelas do Cloud Storage, configure uma metastore para seu data lake.
Para que os dados sejam lidos das entidades do Cloud Storage, o metastore do Dataproc precisa ser anexado ao data lake.
Não é possível usar dados CSV em entidades do Cloud Storage.
No projeto do Dataplex, ative o Acesso privado do Google na sub-rede, que geralmente é definida como
default
, ou definainternal_ip_only
comofalse
.
Limitações
Para recursos do Cloud Storage: esse plug-in não oferece suporte à leitura de arquivos CSV. Ele oferece suporte à leitura de formatos JSON, Avro, Parquet e ORC.
Para recursos do Cloud Storage: Data de início da partição e Data de término da partição não são aplicáveis.
Funções exigidas
Para receber as permissões necessárias para gerenciar papéis, peça ao administrador para conceder a você os seguintes papéis do IAM no agente de serviço do Dataproc e no agente de serviço do Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):
-
Desenvolvedor do Dataplex (
roles/dataplex.developer
) -
Leitor de dados do Dataplex (
roles/dataplex.dataReader
) -
Usuário de metadados do metastore do Dataproc (
roles/metastore.metadataUser
) -
Agente de serviço do Cloud Dataplex (
roles/dataplex.serviceAgent
) -
Leitor de metadados do Dataplex (
roles/dataplex.metadataReader
)
Para mais informações sobre a concessão de papéis, consulte Gerenciar o acesso a projetos, pastas e organizações.
Também é possível conseguir as permissões necessárias por meio de papéis personalizados ou de outros papéis predefinidos.
Adicionar o plug-in ao pipeline
No console do Google Cloud, acesse a página Instâncias do Cloud Data Fusion.
Nesta página, você pode gerenciar suas instâncias.
Clique em Ver instância para abrir a instância na interface do Cloud Data Fusion.
Acesse a página Studio, expanda o menu Origem e clique em Dataplex.
Configurar o plug-in
Depois de adicionar esse plug-in ao pipeline na página Studio, clique na fonte do Dataplex para configurar as propriedades.
Para mais informações sobre as configurações, consulte a referência da Origem do Dataplex.
Opcional: começar com um pipeline de exemplo
Há pipelines de amostra disponíveis, incluindo uma origem SAP para o pipeline de coletor do Dataplex e uma origem do Dataplex para o pipeline de coletor do BigQuery.
Para usar um pipeline de exemplo, abra sua instância na interface do Cloud Data Fusion, clique em Hub > Pipelines e selecione um dos pipelines do Dataplex. Uma caixa de diálogo é aberta para ajudar a criar o pipeline.
A seguir
- Ingerir dados com o Cloud Data Fusion usando o plug-in de coletor do Dataplex.