Vista geral do Cloud Data Fusion

O Cloud Data Fusion é um serviço de integração de dados empresarial totalmente gerido e nativo da nuvem para criar e gerir rapidamente pipelines de dados. A interface Web do Cloud Data Fusion permite-lhe criar soluções de integração de dados escaláveis. Permite-lhe estabelecer ligação a várias origens de dados, transformar os dados e, em seguida, transferi-los para vários sistemas de destino, sem ter de gerir a infraestrutura.

O Cloud Data Fusion é desenvolvido pelo projeto de código aberto CDAP.

Comece a usar o Cloud Data Fusion

Pode começar a explorar o Cloud Data Fusion em minutos.

Explore o Cloud Data Fusion

Os principais componentes do Cloud Data Fusion são explicados nas secções seguintes.

Projeto de inquilino

O conjunto de serviços necessários para criar e orquestrar pipelines do Cloud Data Fusion e armazenar metadados de pipelines é aprovisionado num projeto de inquilino, numa unidade de inquilino. É criado um projeto de inquilino separado para cada projeto de cliente, no qual são aprovisionadas instâncias do Cloud Data Fusion. O projeto de inquilino herda todas as configurações de rede e firewall do projeto de cliente.

Cloud Data Fusion: consola

A consola do Cloud Data Fusion, também denominada plano de controlo, é um conjunto de operações da API e uma interface Web que lidam com a própria instância do Cloud Data Fusion, como a criação, a eliminação, o reinício e a atualização.

Cloud Data Fusion: Studio

O Cloud Data Fusion Studio, também denominado plano de dados, é um conjunto de operações da API REST e da interface Web que lidam com a criação, a execução e a gestão de pipelines e artefactos relacionados.

Conceitos

Esta secção apresenta alguns dos conceitos essenciais do Cloud Data Fusion.

Conceito Descrição
Instância do Cloud Data Fusion
  • Uma instância do Cloud Data Fusion é uma implementação única do Cloud Data Fusion. Para começar a usar o Cloud Data Fusion, tem de criar uma instância do Cloud Data Fusion através da Google Cloud consola.
  • Pode criar várias instâncias num único projeto da Google Cloud consola e especificar a Google Cloud região onde criar as instâncias do Cloud Data Fusion.
  • Com base nos seus requisitos e restrições de custos, pode criar uma instância de programador, básica ou empresarial.
  • Cada instância do Cloud Data Fusion contém uma implementação do Cloud Data Fusion única e independente que contém um conjunto de serviços que processam a gestão do ciclo de vida, a orquestração, a coordenação e a gestão de metadados de pipelines. Estes serviços são executados através de recursos de execução prolongada num projeto de inquilino.
Espaço de nomes Um espaço de nomes é um agrupamento lógico de aplicações, dados e os metadados associados numa instância do Cloud Data Fusion. Pode considerar os espaços de nomes como uma partição da instância. Numa única instância, um espaço de nomes armazena os dados e os metadados de uma entidade independentemente de outro espaço de nomes.
Pipeline
  • Um pipeline é uma forma de conceber visualmente dados e controlar fluxos para extrair, transformar, misturar, agregar e carregar dados de várias origens de dados no local e na nuvem.
  • A criação de pipelines permite-lhe criar fluxos de trabalho de processamento de dados complexos que podem ajudar a resolver problemas de carregamento, integração e migração de dados. Pode usar o Cloud Data Fusion para criar pipelines em lote e em tempo real, consoante as suas necessidades.
  • Os pipelines permitem-lhe expressar os seus fluxos de trabalho de processamento de dados através do fluxo lógico de dados, enquanto o Cloud Data Fusion processa toda a funcionalidade necessária para a execução física num ambiente de execução.
Nó do pipeline
  • Na página Studio da interface Web do Cloud Data Fusion, os pipelines são representados como uma série de nós organizados num gráfico acíclico dirigido (DAG), formando um fluxo unidirecional.
  • Os nós representam as várias ações que pode realizar com os seus pipelines, como ler a partir de origens, realizar transformações de dados e escrever resultados em destinos. Pode desenvolver pipelines de dados na interface Web do Cloud Data Fusion associando origens, transformações, destinos e outros nós.
Plugin
  • Um plug-in é um módulo personalizável que pode ser usado para expandir as capacidades do Cloud Data Fusion.
  • O Cloud Data Fusion fornece plug-ins para origens, transformações, agregações, destinos, coletores de erros, publicadores de alertas, ações e ações pós-execução.
  • Por vezes, um plug-in é designado por nó, normalmente no contexto da interface Web do Cloud Data Fusion.
  • Para descobrir e aceder aos plug-ins populares do Cloud Data Fusion, consulte os plug-ins do Cloud Data Fusion.
Centro Na interface Web do Cloud Data Fusion, para procurar plug-ins, pipelines de exemplo e outras integrações, clique em Hub. Quando é lançada uma nova versão de um plug-in, esta fica visível no Hub em qualquer instância compatível. Isto aplica-se mesmo que a instância tenha sido criada antes do lançamento do plug-in.
Pré-visualização da pipeline
  • O Cloud Data Fusion Studio permite-lhe testar a precisão do design do pipeline usando a Pré-visualização no subconjunto de dados.
  • Um pipeline em pré-visualização é executado no projeto de inquilino.
Execução do pipeline
  • O Cloud Data Fusion cria ambientes de execução efémeros para executar pipelines.
  • O Cloud Data Fusion suporta o Dataproc como um ambiente de execução
  • O Cloud Data Fusion aprovisiona um cluster do Dataproc efémero no seu projeto de cliente no início de uma execução do pipeline, executa o pipeline através do Spark no cluster e, em seguida, elimina o cluster após a conclusão da execução do pipeline.
  • Em alternativa, se gerir os seus clusters do Dataproc em ambientes controlados, através de tecnologias como o Terraform, também pode configurar o Cloud Data Fusion para não aprovisionar clusters. Nesses ambientes, pode executar pipelines em clusters do Dataproc existentes.
Calcular perfil
  • Um perfil de computação especifica como e onde um pipeline é executado. Um perfil incorpora todas as informações necessárias para configurar e eliminar o ambiente de execução físico de um pipeline.
  • Por exemplo, um perfil de computação inclui o seguinte:
    • Administrador de execução
    • Recursos (memória e CPU)
    • Contagem mínima e máxima de nós
    • Outros valores
  • Um perfil é identificado pelo nome e tem de lhe ser atribuído um aprovisionador e a respetiva configuração relacionada. Um perfil pode existir ao nível da instância do Cloud Data Fusion ou ao nível do espaço de nomes.
  • O perfil de computação predefinido do Cloud Data Fusion é o dimensionamento automático.
Pipeline reutilizável
  • Os pipelines de dados reutilizáveis no Cloud Data Fusion permitem a criação de um único pipeline que pode aplicar um padrão de integração de dados a uma variedade de exemplos de utilização e conjuntos de dados.
  • Os pipelines reutilizáveis oferecem uma melhor capacidade de gestão, definindo a maior parte da configuração de um pipeline no momento da execução, em vez de a codificar no momento do design.
Acionador
  • O Cloud Data Fusion suporta a criação de um acionador num pipeline de dados (denominado pipeline a jusante) para que seja executado quando um ou mais pipelines diferentes (denominados pipelines a montante) forem concluídos. Escolhe quando a pipeline a jusante é executada, por exemplo, quando a execução da pipeline a montante é bem-sucedida, falha, é interrompida ou qualquer combinação destas opções.
  • Os acionadores são úteis nos seguintes casos:
    • Limpar os dados uma vez e, em seguida, disponibilizá-los para consumo a vários pipelines a jusante.
    • Partilhar informações, como argumentos de tempo de execução e configurações de plug-ins, entre pipelines. Isto chama-se configuração de dados de carga.
    • Ter um conjunto de pipelines dinâmicos que podem ser executados com os dados da hora, do dia, da semana ou do mês, em vez de usar um pipeline estático que tem de ser atualizado em cada execução.

Recursos do Cloud Data Fusion

Explore recursos do Cloud Data Fusion:

O que se segue?