Visão geral do Cloud Data Fusion

O Cloud Data Fusion é um serviço de análise de dados totalmente gerenciado, de integração de dados para criar e gerenciar pipelines de dados com rapidez. O A interface da Web do Cloud Data Fusion permite criar uma integração de dados escalonável soluções. Ele permite que você se conecte a várias fontes de dados, transforme os dados e e transferi-los para vários sistemas de destino, sem precisar gerenciar do Google Cloud.

O Cloud Data Fusion usa o projeto de código aberto CDAP.

Comece a usar o Cloud Data Fusion

Comece a usar o Cloud Data Fusion em minutos.

Conheça o Cloud Data Fusion

Confira a seguir a explicação dos principais componentes do Cloud Data Fusion em outras seções.

Projeto de locatário

Conjunto de serviços necessários para criar e orquestrar o Cloud Data Fusion pipelines e metadados de pipeline de armazenamento são provisionados em um locatário projeto, dentro de uma locação unidade. Um projeto de locatário separado é criado para cada projeto de cliente, em que As instâncias do Cloud Data Fusion são provisionadas. O projeto de locatário herda todas as configurações de rede e firewall do projeto do cliente.

Cloud Data Fusion: console

O console do Cloud Data Fusion, também conhecido como plano de controle, é uma conjunto de operações de API e uma interface da Web que lida com a própria instância do Cloud Data Fusion, como criar, excluir, reiniciar e atualizar.

Cloud Data Fusion: Studio

O Cloud Data Fusion Studio, também conhecido como plano de dados, é um conjunto de API REST e interface da Web operações que lidam com a criação, execução e gerenciamento de pipelines e os artefatos relacionados.

Conceitos

Nesta seção, apresentamos alguns dos principais conceitos do Cloud Data Fusion.

Conceito Descrição
Instância do Cloud Data Fusion
  • Uma instância do Cloud Data Fusion é uma implantação exclusiva do o Cloud Data Fusion. Para começar a usar o Cloud Data Fusion, criar uma instância do Cloud Data Fusion com a console do Google Cloud.
  • É possível criar várias instâncias em um único console do Google Cloud. projeto e pode especificar a região do Google Cloud para criar seu instâncias do Cloud Data Fusion.
  • Com base nos seus requisitos e restrições de custo, você pode criar Desenvolvedor, Basic ou Enterprise instância.
  • Cada instância do Cloud Data Fusion contém uma instância exclusiva e independente Implantação do Cloud Data Fusion que contém um conjunto de serviços, que lidam com o gerenciamento do ciclo de vida, a orquestração coordenação e gerenciamento de metadados. Esses serviços são executados usando recursos de longa duração projeto de locatário.
Namespace Um namespace é um agrupamento lógico de aplicativos, dados e metadados associados em uma instância do Cloud Data Fusion. Você pode pensar de namespaces como particionamento da instância. Em uma única instância, Um namespace armazena os dados e metadados de uma entidade de maneira independente de outro namespace.
Pipeline
  • Um pipeline é uma forma de projetar visualmente os dados e controlar para extrair, transformar, combinar, agregar e carregar dados várias fontes de dados no local e na nuvem.
  • Com a criação de pipelines, é possível criar processamentos de dados complexos que podem ajudar a resolver ingestão de dados, integração e problemas de migração. O Cloud Data Fusion pode ser usado para criar pipelines em lote e em tempo real, dependendo das suas necessidades.
  • Os pipelines permitem expressar os fluxos de trabalho de processamento de dados usando o fluxo lógico de dados, enquanto o Cloud Data Fusion lida com funcionalidade necessária para execução física de nuvem.
Nó do pipeline
  • Na página do Studio da interface da Web do Cloud Data Fusion, siga estas etapas: os pipelines são representados como uma série de nós dispostos em um gráfico acíclico (DAG), formando um fluxo unidirecional.
  • Os nós representam as várias ações que você pode realizar pipelines, como a leitura de fontes, a execução de dados transformações de dados, e gravar a saída em coletores. É possível desenvolver dados na interface da Web do Cloud Data Fusion conectando fontes, transformações, coletores e outros nós.
Plug-in
  • Um plug-in é um módulo personalizável que pode ser usado para ampliar a do Cloud Data Fusion.
  • O Cloud Data Fusion fornece plug-ins para origens, transformações, agregados, coletores, coletores de erros, editores de alertas, ações e ações pós-execução.
  • Um plug-in às vezes é chamado de nó, normalmente no contexto da interface da Web do Cloud Data Fusion.
  • Para descobrir e acessar os plug-ins mais usados do Cloud Data Fusion, consulte Plug-ins do Cloud Data Fusion.
Hub Na interface da Web do Cloud Data Fusion, para procurar plug-ins, pipelines e outras integrações, clique em Hub. Quando um novo versão de um plug-in é lançada, ela fica visível no Hub em qualquer instância que seja compatível. Isso se aplica mesmo que a instância tenha sido criada antes o plug-in foi lançado.
Visualização do pipeline
  • Com o Cloud Data Fusion Studio, é possível testar a acurácia o design do pipeline usando a Visualização no subconjunto de dados.
  • Um pipeline na visualização é executado no projeto de locatário.
Execução de pipeline
  • O Cloud Data Fusion cria ambientes de execução efêmeros para executar pipelines.
  • O Cloud Data Fusion oferece suporte ao Dataproc como um ambiente de execução
  • O Cloud Data Fusion provisiona uma cluster do Dataproc no projeto do cliente na início de uma execução de pipeline, executa o pipeline usando o Spark na cluster e depois o exclui após a execução do pipeline concluído.
  • Como alternativa, se você gerencia os clusters do Dataproc em ambientes controlados, usando tecnologias como o Terraform, também pode configurar o Cloud Data Fusion para não provisionar clusters. Em nesses ambientes, é possível executar pipelines em clusters do Dataproc.
Perfil de computação
  • Um perfil de computação especifica como e onde um pipeline executada. Um perfil encapsula todas as informações necessárias para configurar e excluir o ambiente de execução físico de um pipeline.
  • Por exemplo, um perfil de computação inclui o seguinte:
    • Provisionador de execução
    • Recursos (memória e CPU)
    • Contagem mínima e máxima de nós
    • Outros valores
  • Um perfil é identificado por nome e deve receber um provisionador e as configurações relacionadas. Um perfil pode existir tanto no nível nível da instância do Cloud Data Fusion ou do namespace.
  • O perfil de computação padrão do Cloud Data Fusion é Escalonamento automático.
Pipeline reutilizável
  • Com os pipelines de dados reutilizáveis no Cloud Data Fusion, é possível criar de um único pipeline capaz de aplicar um padrão de integração de dados a uma uma variedade de casos de uso e conjuntos de dados.
  • Pipelines reutilizáveis oferecem melhor capacidade de gerenciamento, definindo a maioria a configuração de um pipeline no ambiente de execução, em vez de codificá-lo no momento do design.
Gatilho
  • O Cloud Data Fusion permite criar gatilhos em um bucket (chamado pipeline downstream), para que ele seja executado a conclusão de um ou mais pipelines diferentes (chamados upstream pipelines). Você escolhe quando o pipeline downstream é executado, por exemplo, com sucesso, falha, parada ou qualquer combinação delas, da execução do pipeline upstream.
  • Os gatilhos são úteis nos seguintes casos:
    • Limpar seus dados uma vez e, em seguida, disponibilizá-los para vários pipelines downstream para consumo.
    • Como compartilhar informações, como argumentos de ambiente de execução e plug-in entre os pipelines. Isso é chamado de Payload do Terraform.
    • Ter um conjunto de pipelines dinâmicos que podem ser executados usando os dados de a hora, o dia, a semana ou o mês, em vez de usar um pipeline estático que precisa ser atualizado a cada execução.

Recursos do Cloud Data Fusion

Conheça os recursos do Cloud Data Fusion:

A seguir