O Cloud Data Fusion fornece um plug-in Dataplex Universal Catalog Sink para carregar dados para qualquer um dos recursos suportados pelo Dataplex Universal Catalog.
Antes de começar
- Se não tiver uma instância do Cloud Data Fusion, crie uma. Este plug-in está disponível em instâncias executadas na versão 6.6 ou posterior do Cloud Data Fusion. Para mais informações, consulte o artigo Crie uma instância pública do Cloud Data Fusion.
- O conjunto de dados do BigQuery ou o contentor do Cloud Storage onde os dados são carregados têm de fazer parte de um lago do catálogo universal do Dataplex.
- Para que os dados sejam lidos a partir de entidades do Cloud Storage, o Dataproc Metastore tem de estar anexado ao lake.
- Os dados CSV em entidades do Cloud Storage não são suportados.
- No projeto do Dataplex Universal Catalog, ative o acesso privado da Google na sub-rede, que normalmente está definido como
default
, ou definainternal_ip_only
comofalse
.
Funções necessárias
Para obter as autorizações de que
precisa para gerir funções,
peça ao seu administrador que lhe conceda as
seguintes funções de IAM no agente de serviço do Dataproc e no agente de serviço do Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com
):
-
Dataplex Developer (
roles/dataplex.developer
) -
Dataplex Data Reader (
roles/dataplex.dataReader
) -
Utilizador de metadados do Dataproc Metastore (
roles/metastore.metadataUser
) -
Agente de serviço do Cloud Dataplex (
roles/dataplex.serviceAgent
) -
Dataplex Metadata Reader (
roles/dataplex.metadataReader
)
Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.
Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas.
Adicione o plug-in à sua conduta
Na Google Cloud consola, aceda à página Instâncias do Cloud Data Fusion.
Esta página permite-lhe gerir as suas instâncias.
Para abrir a sua instância, clique em Ver instância.
Aceda à página Studio, expanda o menu Sink e clique em Dataplex.
Configure o plug-in
Depois de adicionar este plug-in ao seu pipeline na página Studio, clique no Dataplex Universal Catalog para configurar e guardar as respetivas propriedades.
Para mais informações sobre as configurações, consulte a referência do Dataplex Sink.
Opcional: comece com um pipeline de amostra
Estão disponíveis pipelines de exemplo, incluindo um pipeline de origem SAP para o pipeline de destino do Dataplex Universal Catalog e um pipeline de origem do Dataplex Universal Catalog para o pipeline de destino do BigQuery.
Para usar um pipeline de exemplo, abra a sua instância na IU do Cloud Data Fusion, clique em Hub > Pipelines e selecione um dos pipelines do catálogo universal do Dataplex. É aberta uma caixa de diálogo para ajudar a criar o pipeline.
Execute o pipeline
Após implementar o pipeline, abra-o na página Studio do Cloud Data Fusion.
Clique em Configurar > Recursos.
Opcional: altere o Executor CPU e a Memória com base no tamanho geral dos dados e no número de transformações usadas no pipeline.
Clique em Guardar.
Para iniciar o pipeline de dados, clique em Executar.
O que se segue?
- Processar dados com o Cloud Data Fusion através do plug-in de origem do catálogo universal do Dataplex.