Arquitetura e componentes

Uma instância do Cloud Data Fusion é executada em uma zona do Compute Engine no Google Cloud. Uma instância é composta por várias tecnologias do Google Cloud, incluindo o Google Kubernetes Engine (GKE), Cloud SQL, Cloud Storage, Persistent Disk e Cloud Key Management Service.

Uma instância do Cloud Data Fusion é provisionada em uma unidade de locação. Ele fornece a capacidade de criar e orquestrar pipelines de dados e de gerenciamento centralizado de metadados. Uma instância do Cloud Data Fusion é executada em um cluster do GKE dentro de um projeto de locatário e usa o Cloud Storage, o Cloud SQL, o Persistent Disk, o Elasticsearch e o Cloud KMS para armazenar metadados de negócios, técnicos e operacionais.

Os principais componentes da arquitetura do Cloud Data Fusion serão explicados nas seções a seguir.

Projeto de locatário

O conjunto de serviços necessários para criar e orquestrar pipelines do Cloud Data Fusion e armazenar metadados de pipeline são provisionados em um projeto de locatário, dentro de uma unidade de locação. Um projeto de locatário separado é criado para cada projeto de cliente em que as instâncias do Cloud Data Fusion são provisionadas. O projeto do locatário herda todas as configurações de rede e de firewall do projeto do cliente.

Plano de controle

O plano de controle é um conjunto de operações da API que lidam com a própria instância do Cloud Data Fusion, como criação, exclusão, reinicialização e atualização.

Plano de dados

O plano de dados se refere a um conjunto de operações da API REST que lidam com a principal funcionalidade do Cloud Data Fusion, como criação, execução e monitoramento de pipelines e artefatos relacionados. Por exemplo, você cria ou interrompe um pipeline com operações de plano de dados. Para mais informações, consulte a referência do CDAP.

Serviços do sistema

Conjunto de serviços que o Cloud Data Fusion usa para gerenciar o ciclo de vida, a orquestração e os metadados do pipeline. O Cloud Data Fusion orquestra esses serviços usando o GKE.

Interface da Web

A interface da Web do Cloud Data Fusion é uma interface gráfica para desenvolver, gerenciar e executar pipelines de dados e pesquisar, visualizar e gerenciar metadados de integração. A interface da Web também é executada no cluster do GKE.

O hub

Na interface da Web do Cloud Data Fusion, clique em Hub para procurar plug-ins, pipelines de amostra e outras integrações. Quando uma nova versão de um plug-in é lançada, ela fica visível no Hub em qualquer instância compatível. Isso é válido mesmo que a instância tenha sido criada antes do lançamento do plug-in.

Armazenamento de metadados

O Cloud Data Fusion usa o Cloud Storage, o Cloud SQL, o Persistent Disk e o Elasticsearch para armazenar metadados técnicos, comerciais e operacionais.

Namespacess

É possível usar namespaces para particionar uma instância do Cloud Data Fusion com o objetivo de alcançar o isolamento de aplicativos e dados nos ambientes de design e execução. Para mais informações, consulte Namespaces.

Domínio

Ao usar o IP público, a interface da Web e os serviços de back-end do Cloud Data Fusion são executados no domínio datafusion.cdap.app. Eles são expostos usando HTTPS e usam um certificado SSL para criptografar a conexão.

Execução de canal

O Cloud Data Fusion executa pipelines usando clusters do Dataproc. O Cloud Data Fusion provisiona automaticamente clusters efêmeros do Dataproc, executa pipelines neles e, em seguida, remove os clusters depois de concluir a execução do pipeline. Também é possível executar pipelines em clusters atuais do Dataproc.

Clusters do Dataproc e buckets do Cloud Storage existem na mesma região da instância do Cloud Data Fusion. Para mais informações, consulte Localização dos dados nos termos gerais de serviço e nas Perguntas frequentes sobre o Cloud Data Fusion.

Pacote de operações do Google Cloud

Como opção, envie enviar registros para o pacote de operações do Google Cloud. Para instâncias configuradas para integração com o pacote de operações do Google Cloud, dois tipos de registros são enviados para o pacote de operações do Google Cloud:

  1. Registros de auditoria: para todas as operações de gerenciamento de instâncias, o Cloud Data Fusion emite registros de auditoria para o pacote de operações do Google Cloud.

  2. Registros de pipeline:você pode encontrar registros dos seguintes itens:

    • Pipelines do Cloud Data Fusion nos registros do cluster do Dataproc no pacote de operações do Google Cloud
    • Página Pipeline Studio do Cloud Data Fusion em que você executa o pipeline

Saiba mais sobre como trabalhar com registros no Cloud Data Fusion.

Visualizar

Ao criar um pipeline de dados na página Studio do Cloud Data Fusion, clique em Visualizar para conferir uma parte dos dados das origens do pipeline.

Um pipeline em visualização é executado no projeto de locatário e, quando implantado, ele é executado no projeto do cliente no perfil de computação relevante. Depois de implantar o pipeline, você precisa duplicá-lo para usar o recurso de visualização.

A seguir