O Cloud Data Fusion fornece um plug-in do coletor do Dataplex para ingerir dados em qualquer um dos recursos compatíveis com o Dataplex.
Antes de começar
- Crie uma instância do Cloud Data Fusion, caso ainda não tenha uma. Este plug-in está disponível em instâncias executadas no Cloud Data Fusion versão 6.6 ou posterior.
- O conjunto de dados do BigQuery ou o bucket do Cloud Storage em que os dados são ingeridos precisa fazer parte de um lake do Dataplex.
- Para que os dados sejam lidos das entidades do Cloud Storage, o metastore do Dataproc precisa estar anexado ao lake.
- Os dados CSV em entidades do Cloud Storage não são compatíveis.
- No projeto do Dataplex, ative o Acesso privado do Google na
sub-rede, que geralmente é definido como
default
, ou definainternal_ip_only
comofalse
.
Funções exigidas
Para receber as permissões necessárias para gerenciar os papéis,
peça ao administrador para conceder a você
os seguintes papéis de IAM na conta de serviço do Dataproc e na conta serviço gerenciado pelo Google (service-CUSTOMER_PROJECT_NUMBER@gcp-sa- datafusion.iam.gserviceaccount.com
):
-
Desenvolvedor do Dataplex (
roles/dataplex.developer
) -
Leitor de dados do Dataplex (
roles/dataplex.dataReader
) -
Usuário de metadados do Dataproc Metastore (
roles/metastore.metadataUser
) -
Agente de serviço do Cloud Dataplex (
roles/dataplex.serviceAgent
) -
Leitor de metadados do Dataplex (
roles/dataplex.metadataReader
)
Para mais informações sobre como conceder papéis, consulte Gerenciar acesso.
Talvez você também consiga receber as permissões necessárias por meio de papéis personalizados ou outros papéis predefinidos.
Adicionar o plug-in ao pipeline
No console do Google Cloud, acesse a página Instâncias do Cloud Data Fusion.
Nessa página, é possível gerenciar suas instâncias.
Clique em Ver instância para abrir a instância na UI do Cloud Data Fusion.
Acesse a página do Studio, expanda o menu Coletor e clique em Dataplex.
Configurar o plug-in
Depois de adicionar esse plug-in ao pipeline na página Studio, clique no coletor do Dataplex para configurar e salvar as propriedades.
Para mais informações sobre configurações, consulte a referência do Coletor do Dataplex.
Opcional: comece com um pipeline de amostra
Pipelines de amostra estão disponíveis, incluindo uma origem SAP para pipeline de coletor do Dataplex e uma origem do Dataplex para pipeline de coletor do BigQuery.
Para usar um pipeline de amostra, abra a instância na IU do Cloud Data Fusion, clique em Hub > Pipelines e selecione um dos pipelines do Dataplex. Uma caixa de diálogo será aberta para ajudar você a criar o pipeline.
executar o pipeline
Depois de implantar o pipeline, abra-o na página do Studio do Cloud Data Fusion.
Clique em Configurar > Recursos.
Opcional: altere a CPU do Executor e a Memória com base no tamanho geral dos dados e no número de transformações usadas no pipeline.
Clique em Save.
Para iniciar o pipeline de dados, clique em Executar.
A seguir
- Processar dados com o Cloud Data Fusion usando o plug-in Dataplex Source.