Esta página foi traduzida pela API Cloud Translation.
Switch to English

Arquitetura e componentes

Uma instância do Cloud Data Fusion é executada em uma zona do Compute Engine no Google Cloud. Uma instância é composta por várias tecnologias do Google Cloud, incluindo Google Kubernetes Engine (GKE), Cloud SQL, Cloud Storage, disco permanente e Cloud Key Management Service.

Uma instância do Cloud Data Fusion é provisionada em uma unidade de locação. Ela fornece a capacidade de criar e orquestrar pipelines de dados e de gerenciamento centralizado de metadados. É executada em um cluster do GKE dentro de um projeto de locatário e usa o Cloud Storage, o Cloud SQL, o Persistent Disk, o Elasticsearch e o Cloud KMS para armazenar metadados comerciais, técnicos e operacionais.

Os principais componentes da arquitetura do Cloud Data Fusion serão explicados nas seções a seguir.

Projeto de locatário

O conjunto de serviços necessários para criar e orquestrar pipelines do Cloud Data Fusion e armazenar metadados de pipeline são provisionados em um projeto de locatário, dentro de uma unidade de locação. Um projeto de locatário separado é criado para cada projeto de cliente em que as instâncias do Cloud Data Fusion são provisionadas. O projeto do locatário herda todas as configurações de rede e de firewall do projeto do cliente.

Serviços do sistema

Este é o conjunto de serviços que o Cloud Data Fusion usa para gerenciar o ciclo de vida, a orquestração e os metadados do pipeline. O Cloud Data Fusion orquestra esses serviços usando o GKE.

Interface do usuário

A IU do Cloud Data Fusion é uma interface gráfica para desenvolver, gerenciar e executar pipelines de dados e pesquisar, visualizar e gerenciar metadados de integração. A IU também é executada no cluster do GKE.

Armazenamento de metadados

O Cloud Data Fusion usa o Cloud Storage, o Cloud SQL, o Persistent Disk e o Elasticsearch para armazenar metadados técnicos, comerciais e operacionais.

Domínio

Ao usar um IP público, a IU do Cloud Data Fusion e os serviços de back-end são executados no domínio datafusion.cdap.app. Eles são expostos usando HTTPS e usam um certificado SSL para criptografar a conexão.

Execução de canal

O Cloud Data Fusion executa pipelines usando clusters do Dataproc. O Cloud Data Fusion provisiona automaticamente clusters efêmeros do Dataproc, executa pipelines neles e, em seguida, remove os clusters depois de concluir a execução do pipeline. Também é possível executar pipelines em clusters atuais do Dataproc.

Pacote de operações do Google Cloud

Como opção, envie enviar registros para o pacote de operações do Google Cloud. Para instâncias configuradas para integração com o pacote de operações do Google Cloud, dois tipos de registros são enviados para o pacote de operações do Google Cloud:

  1. Registros de auditoria: para todas as operações de gerenciamento de instâncias, o Cloud Data Fusion emite registros de auditoria para o pacote de operações do Google Cloud.
  2. Registros de pipeline: é possível encontrar registros dos pipelines do Cloud Data Fusion nos registros de cluster do Dataproc no pacote de operações do Google Cloud.

A seguir