O que é o Cloud Data Fusion?

O Cloud Data Fusion é um serviço totalmente gerenciado de integração de dados corporativos com nuvem nativa. Ele pode ser usado para gerar e gerenciar pipelines de dados.

A IU da Web do Cloud Data Fusion permite criar soluções de integração de dados escalonáveis para limpar, preparar, combinar, transferir e transformar dados, sem precisar gerenciar a infraestrutura.

O Cloud Data Fusion usa o projeto de código aberto CDAP. Nesta página, há links para o site de documentação do CDAP, onde há informações mais detalhadas.

Interfaces

Para usar o Cloud Data Fusion, use a IU da Web visual ou as ferramentas de linha de comando.

Como usar a IU da Web sem código

Ao usar o Cloud Data Fusion, você usa o Console do Cloud e a IU da Web separada do Cloud Data Fusion.

  • No Console do Google Cloud, você cria um projeto do Google Cloud, cria e exclui instâncias do Cloud Data Fusion (implantações exclusivas do Cloud Data Fusion) e visualiza os detalhes da instância do Cloud Data Fusion.

  • Na IU do Cloud Data Fusion, você usa as várias páginas, como Pipeline Studio ou Wrangler, para projetar visualmente pipelines de dados e usar a funcionalidade do Cloud Data Fusion.

Em geral, você faz o seguinte:

  1. Crie uma instância do Cloud Data Fusion no Console do Google Cloud.

  2. Encontre sua instância do Cloud Data Fusion na página Instâncias do Console do Cloud e clique no link Visualizar instância na coluna Ação. Isso abre a IU do Cloud Data Fusion em uma nova guia do navegador.

  3. Use as várias páginas na IU da Web do Cloud Data Fusion para projetar visualmente seus pipelines e gerenciar metadados.

Como usar ferramentas de linha de comando

Como alternativa à IU da Web, é possível usar ferramentas de linha de comando para criar e gerenciar suas instâncias e pipelines do Cloud Data Fusion.

  • A referência REST descreve a API para criar e gerenciar suas instâncias do Cloud Data Fusion no Google Cloud.

  • A referência do CDAP descreve a API REST para criar e gerenciar pipelines e conjuntos de dados.

Principais conceitos

Nesta seção, apresentamos alguns dos principais conceitos do Cloud Data Fusion. Algumas seções fornecem links para a documentação do CDAP, onde há informações mais detalhadas sobre cada conceito.

Instância do Cloud Data Fusion

Uma instância do Cloud Data Fusion é uma implantação exclusiva do Cloud Data Fusion. Para começar a usar o Cloud Data Fusion, crie uma instância do Cloud Data Fusion por meio do Console do Cloud.

É possível criar várias instâncias em um único projeto do Console do Cloud e especificar a região do Google Cloud em que as instâncias do Cloud Data Fusion serão criadas.

Com base nos seus requisitos e restrições de custo, é possível criar uma instância Basic ou Enterprise.

Cada instância do Cloud Data Fusion tem uma implantação exclusiva e independente do Cloud Data Fusion com um conjunto de serviços que processa o gerenciamento do ciclo de vida do pipeline, a orquestração, a coordenada e o gerenciamento de metadados. Esses serviços são executados usando recursos de execução longa em um projeto de locatário.

Ambiente de execução

O Cloud Data Fusion cria ambientes de execução efêmeros para executar pipelines quando você os executa manualmente ou quando eles são executados por meio de um horário programado ou um acionador de estado de pipeline. O Cloud Data Fusion é compatível com o Dataproc como um ambiente de execução, em que é possível executar pipelines como programas MapReduce, Spark ou Spark Streaming. O Cloud Data Fusion provisiona um cluster temporário do Dataproc no projeto do cliente no início de uma execução do pipeline, executa o pipeline usando o MapReduce ou o Spark no cluster e exclui o cluster após a conclusão do pipeline.

Como alternativa, se você gerencia clusters do Dataproc em ambientes controlados, por meio de tecnologias como o Terraform, também é possível configurar o Cloud Data Fusion para não provisionar clusters. Nesses ambientes, é possível executar pipelines em clusters atuais do Dataproc.

Canal

Um pipeline é uma maneira de projetar visualmente dados e controlar fluxos para extrair, transformar, combinar, agregar e carregar dados de várias fontes de dados locais e na nuvem. A criação de pipelines permite criar fluxos de trabalho complexos de processamento de dados que podem ajudar você a resolver problemas de ingestão, integração e migração de dados. É possível usar o Cloud Data Fusion para criar pipelines em lote e em tempo real, dependendo das suas necessidades.

Os pipelines permitem que você expresse os fluxos de trabalho de processamento de dados usando o fluxo lógico de dados, enquanto o Cloud Data Fusion cuida de todas as funcionalidades necessárias para executar fisicamente em um ambiente de execução. O planejador do Cloud Data Fusion transforma o fluxo lógico em cálculos paralelos usando o Apache Spark e o MapReduce do Apache Hadoop no Dataproc.

Os pipelines são representados por uma série de nós organizados em um gráfico acíclico direcionado (DAG), formando um fluxo unidirecional. Os nós representam as várias ações que podem ser realizadas com os pipelines, como leitura de origens, transformações de dados e gravação de saída em coletores. É possível desenvolver pipelines de dados na IU da Web do Cloud Data Fusion conectando fontes, transformações, coletores e outros nós.

Além disso, ao fornecer acesso a registros e métricas, os pipelines oferecem uma maneira simples para os administradores operacionalizarem os fluxos de trabalho de processamento de dados sem precisar de ferramentas personalizadas.

Saiba mais sobre pipelines no site da documentação do CDAP.

Plug-in

Um plug-in é um módulo personalizável que pode ser usado para ampliar os recursos do Cloud Data Fusion. O Cloud Data Fusion oferece plug-ins para origens, transformações, agregações, coletores, coletores de erros, editores de alertas, ações e ações pós-execução. Se você precisa de um plug-in que não esteja disponível, desenvolva um plug-in personalizado.

Às vezes, um plug-in é chamado de , geralmente no contexto da IU da Web do Cloud Data Fusion.

A tabela a seguir descreve as várias categorias de plug-ins disponíveis no Cloud Data Fusion.

Categoria Descrição
Fontes As fontes são conectores de bancos de dados, arquivos ou streams em tempo real de onde você consegue os dados. Eles permitem a ingestão de dados com uma IU simples. Assim, você não precisa se preocupar com a codificação de conexões de baixo nível.
Transformações As transformações permitem gerenciar dados após a ingestão deles. Por exemplo, é possível clonar um registro, formatar JSON e até mesmo criar transformações personalizadas usando o plug-in JavaScript.
Análise Os plug-ins deanálise são usados para executar agregações, como agrupar e integrar dados de diferentes fontes, bem como executar operações de análise e machine learning. O Cloud Data Fusion fornece plug-ins integrados para uma variedade de casos de uso.
Ações Os plug-ins de ação definem ações personalizadas programadas para ocorrer durante um fluxo de trabalho, mas não manipulam dados diretamente no fluxo de trabalho. Por exemplo, com a ação personalizada do banco de dados, é possível executar um comando arbitrário no final do pipeline. Como alternativa, mova arquivos no Cloud Storage com uma ação.
Coletores Os dados precisam ser gravados em um coletor. O Cloud Data Fusion contém vários coletores, como o Cloud Storage, o BigQuery, o Spanner, bancos de dados relacionais, sistemas de arquivos e mainframes.
Coletores de erros Quando os nós encontram valores nulos, erros lógicos ou outras fontes de erros, é possível usar um plug-in de coletor de erros para capturar erros. Conecte esse plug-in à saída de qualquer plug-in de transformação ou análise. Assim, ele detectará erros que correspondam à condição que você definiu. Em seguida, processe esses erros em um fluxo de processamento de erros separado em seu pipeline.
Editores de alerta Os plug-ins de editor do alerta permitem que você publique notificações quando houver eventos incomuns. Os processos de downstream podem se inscrever nessas notificações para acionar o processamento personalizado desses alertas.
Condicionais Os pipelines oferecem plug-ins de fluxo de controle na forma de condicionais. Os plug-ins de condicionais permitem ramificar o pipeline em dois caminhos separados, dependendo se o predicado de condição especificado é avaliado como verdadeiro ou falso.

Se não houver um plug-in necessário, crie seu próprio plug-in usando as APIs do plug-in Cloud Data Fusion.

Perfil de computação

Um perfil de computação especifica como e onde um pipeline é executado. Um perfil encapsula todas as informações necessárias para configurar e excluir o ambiente de execução física do pipeline. Por exemplo, um perfil inclui o tipo de provedor de nuvem (como o Google Cloud), o serviço a ser usado no provedor de nuvem (como o Dataproc), credenciais, recursos (memória e CPU), imagem, contagem mínima e máxima de nós e outros valores.

Um perfil é identificado pelo nome e precisa ser atribuído a um provisionador e sua configuração relacionada. Um perfil pode existir no nível da instância do Cloud Data Fusion ou no nível do namespace.

Saiba mais sobre perfis de computação no site da documentação do CDAP.

Recursos

Categoria Recursos
Desenvolvimento
  • Designer de pipeline gráfico
  • Mais de 100 plug-ins: conectores, transformações e ações
  • Transformações visuais sem código
  • Mais de 1000 transformações integradas
  • Bibliotecas de qualidade de dados
  • SDK do desenvolvedor
Teste
  • Depuração de pipeline visual
  • Framework de teste
Execução
  • Dataproc: lote (Apache Spark, Apache Hadoop MapReduce) e tempo real (Spark Streaming)
  • Fluxo de controle e de dados em pipelines
Operações
  • API REST
  • Programações e acionadores
  • Monitoramento de painéis
Metadados de integração
  • Captura automática de metadados técnicos e operacionais
  • Anotações de metadados de negócios
  • Pesquisa de conjuntos de dados por palavras-chave e esquema
  • Conjunto de dados e linhagem em nível de campo para rastreabilidade
Extensibilidade
  • Plug-ins personalizados
  • Widgets configuráveis do plug-in da IU
  • Provisionadores personalizados
  • Perfis de computação personalizados
Reusabilidade
  • Modelos de pipeline e de plug-in
  • Preferências e argumentos do ambiente de execução
  • Hub para distribuir plug-ins, pipelines e soluções reutilizáveis
Integrações do Google Cloud
  • GKE: implantação de instâncias
  • Dataproc: execução de pipeline (lote e tempo real)
  • Cloud KMS: armazenamento seguro de dados
  • Cloud SQL e Cloud Storage: armazenamento de metadados de entidade e de artefato
  • Persistent Disk: armazenamento de métricas e registros
  • Console do Cloud: gerenciamento do ciclo de vida da instância
  • Pacote de operações do Google Cloud (somente registros de auditoria)
Conectores (Google Cloud)
  • Cloud Storage
  • Google BigQuery
  • Cloud SQL
  • Pub/Sub
  • Spanner
  • Bigtable
  • Datastore
Conectores (que não são do Google Cloud)
  • Serviços de nuvem pública
  • Sistemas de arquivos
  • Bancos de dados relacionais
  • Armazenamentos NoSQL
  • Mainframes e outros sistemas legados
Transformações
  • Transformações sem código para limpeza, mesclagem, harmonização e mapeamento
  • Transformações interativas com feedback
  • Transformações baseadas em código (no navegador): Scala (Apache Spark), Python e JavaScript
  • Jobs atuais do Spark e do MapReduce
Análises
  • Agregações
  • Mesclagens
  • Agrupar por

A seguir