O Cloud Data Fusion fornece um plug-in de origem do catálogo universal do Dataplex para ler dados de entidades (tabelas) do catálogo universal do Dataplex residentes em recursos do Cloud Storage ou do BigQuery. O plug-in de origem do catálogo universal do Dataplex permite-lhe tratar os dados nos recursos do Cloud Storage como tabelas e filtrar os dados com consultas SQL.
Antes de começar
Crie uma instância do Cloud Data Fusion, se não tiver uma. Este plug-in está disponível em instâncias executadas na versão 6.6 ou posterior do Cloud Data Fusion.
Os dados de origem já têm de fazer parte de uma zona do catálogo universal do Dataplex e de um recurso (um contentor do Cloud Storage ou um conjunto de dados do BigQuery).
Para usar tabelas do Cloud Storage, tem de configurar um metastore para o seu lago.
Para que os dados sejam lidos a partir de entidades do Cloud Storage, o Dataproc Metastore tem de estar anexado ao lake.
Os dados CSV em entidades do Cloud Storage não são suportados.
No projeto do Dataplex Universal Catalog, ative o acesso privado da Google na sub-rede, que normalmente está definido como
default
, ou definainternal_ip_only
comofalse
.
Limitações
Para recursos do Cloud Storage: este plugin não suporta a leitura de ficheiros CSV. Suporta a leitura de formatos JSON, Avro, Parquet e ORC.
Para recursos do Cloud Storage: Data de início da partição e Data de fim da partição não são aplicáveis.
Funções necessárias
Para receber as autorizações de que precisa para gerir funções, peça ao seu administrador que lhe conceda as seguintes funções do IAM no agente de serviço do Dataproc e no agente de serviço do Cloud Data Fusion (service-CUSTOMER_PROJECT_NUMBER@gcp-sa-datafusion.iam.gserviceaccount.com):
-
Dataplex Developer (
roles/dataplex.developer
) -
Dataplex Data Reader (
roles/dataplex.dataReader
) -
Utilizador de metadados do Dataproc Metastore (
roles/metastore.metadataUser
) -
Agente de serviço do Cloud Dataplex (
roles/dataplex.serviceAgent
) -
Dataplex Metadata Reader (
roles/dataplex.metadataReader
)
Para mais informações sobre a atribuição de funções, consulte o artigo Faça a gestão do acesso a projetos, pastas e organizações.
Também pode conseguir as autorizações necessárias através de funções personalizadas ou outras funções predefinidas.
Adicione o plug-in à sua conduta
Na Google Cloud consola, aceda à página Instâncias do Cloud Data Fusion.
Esta página permite-lhe gerir as suas instâncias.
Clique em Ver instância para abrir a instância na IU do Cloud Data Fusion.
Aceda à página do Studio, expanda o menu Origem e clique em Dataplex.
Configure o plug-in
Depois de adicionar este plugin ao seu pipeline na página Studio, clique na origem do catálogo universal do Dataplex para configurar as respetivas propriedades.
Para mais informações sobre as configurações, consulte a referência de origem do Dataplex.
Opcional: comece com um pipeline de amostra
Estão disponíveis pipelines de exemplo, incluindo um pipeline de origem SAP para o pipeline de destino do Dataplex Universal Catalog e um pipeline de origem do Dataplex Universal Catalog para o pipeline de destino do BigQuery.
Para usar um pipeline de exemplo, abra a sua instância na IU do Cloud Data Fusion, clique em Hub > Pipelines e selecione um dos pipelines do catálogo universal do Dataplex. É aberta uma caixa de diálogo para ajudar a criar o pipeline.
O que se segue?
- Carregue dados com o Cloud Data Fusion através do plug-in Dataplex Universal Catalog Sink.