Arquitetura e componentes

Uma instância do Cloud Data Fusion é executada em uma zona do Compute Engine no Google Cloud. Uma instância é composta por várias tecnologias do Google Cloud, incluindo Google Kubernetes Engine (GKE), Cloud SQL, Cloud Storage, disco permanente e Cloud Key Management Service.

Uma instância do Cloud Data Fusion é provisionada em uma unidade de locação. Ela fornece a capacidade de criar e orquestrar pipelines de dados e de gerenciamento centralizado de metadados. É executada em um cluster do GKE dentro de um projeto de locatário e usa o Cloud Storage, o Cloud SQL, o Persistent Disk, o Elasticsearch e o Cloud KMS para armazenar metadados comerciais, técnicos e operacionais.

Os principais componentes da arquitetura do Cloud Data Fusion serão explicados nas seções a seguir.

Projeto de locatário

O conjunto de serviços necessários para criar e orquestrar pipelines do Cloud Data Fusion e armazenar metadados de pipeline são provisionados em um projeto de locatário, dentro de uma unidade de locação. Um projeto de locatário separado é criado para cada projeto de cliente em que as instâncias do Cloud Data Fusion são provisionadas. O projeto do locatário herda todas as configurações de rede e de firewall do projeto do cliente.

Serviços do sistema

Este é o conjunto de serviços que o Cloud Data Fusion usa para gerenciar o ciclo de vida, a orquestração e os metadados do pipeline. O Cloud Data Fusion orquestra esses serviços usando o GKE.

Interface do usuário

A IU do Cloud Data Fusion é uma interface gráfica para desenvolver, gerenciar e executar pipelines de dados e pesquisar, visualizar e gerenciar metadados de integração. A IU também é executada no cluster do GKE.

Armazenamento de metadados

O Cloud Data Fusion usa o Cloud Storage, o Cloud SQL, o Persistent Disk e o Elasticsearch para armazenar metadados técnicos, comerciais e operacionais.

Namespaces

É possível usar namespaces para particionar uma instância do Cloud Data Fusion para atingir o isolamento de aplicativos e dados nos seus ambientes de design e execução. Para mais informações, consulte Namespaces.

Domain

Ao usar um IP público, a IU do Cloud Data Fusion e os serviços de back-end são executados no domínio datafusion.cdap.app. Eles são expostos usando HTTPS e usam um certificado SSL para criptografar a conexão.

Execução de canal

O Cloud Data Fusion executa pipelines usando clusters do Dataproc. O Cloud Data Fusion provisiona automaticamente clusters efêmeros do Dataproc, executa pipelines neles e, em seguida, remove os clusters depois de concluir a execução do pipeline. Também é possível executar pipelines em clusters atuais do Dataproc.

Clusters do Dataproc e buckets do Cloud Storage existem na mesma região da instância do Cloud Data Fusion. Para mais informações, consulte Local dos dados nos Termos de Serviço gerais e nas Perguntas frequentes sobre o Cloud Data Fusion.

Pacote de operações do Google Cloud

Como opção, envie enviar registros para o pacote de operações do Google Cloud. Para instâncias configuradas para integração com o pacote de operações do Google Cloud, dois tipos de registros são enviados para o pacote de operações do Google Cloud:

  1. Registros de auditoria: para todas as operações de gerenciamento de instâncias, o Cloud Data Fusion emite registros de auditoria para o pacote de operações do Google Cloud.

  2. Registros de pipeline: é possível encontrar registros dos pipelines do Cloud Data Fusion nos registros de cluster do Dataproc no pacote de operações do Google Cloud ou na página do Cloud Data Fusion Pipeline onde você pode execute o pipeline.

Saiba mais sobre como trabalhar com registros no Cloud Data Fusion.

A seguir