Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
O Cloud Data Fusion é um serviço de análise de dados totalmente gerenciado
de integração de dados para criar e gerenciar
pipelines de dados com rapidez. O
A interface da Web do Cloud Data Fusion permite criar uma integração de dados escalonável
soluções. Ele permite que você se conecte a várias fontes de dados, transforme os dados e
e transferi-los para vários sistemas de destino, sem precisar gerenciar
do Google Cloud.
O Cloud Data Fusion usa o projeto de código aberto CDAP.
Confira a seguir a explicação dos principais componentes do Cloud Data Fusion
em outras seções.
Projeto de locatário
O conjunto de serviços necessários para criar e orquestrar pipelines do Cloud Data Fusion e armazenar metadados de pipeline são provisionados em um projeto de locatário, dentro de uma unidade de locação. Um projeto de locatário separado é criado para cada projeto de cliente, em que
As instâncias do Cloud Data Fusion são provisionadas. O projeto de locatário herda
todas as configurações de rede e firewall do projeto do cliente.
Cloud Data Fusion: console
O console do Cloud Data Fusion, também conhecido como plano de controle, é uma
conjunto de operações de API
e uma interface da Web que lida com a própria instância do Cloud Data Fusion,
como criar, excluir, reiniciar e atualizar.
Cloud Data Fusion: Studio
O Cloud Data Fusion Studio, também conhecido como plano de dados, é um conjunto de
API REST e interface da Web
operações que lidam com a criação, execução e gerenciamento de pipelines e
os artefatos relacionados.
Conceitos
Nesta seção, apresentamos alguns dos principais conceitos do Cloud Data Fusion.
Uma instância do Cloud Data Fusion é uma implantação exclusiva do
o Cloud Data Fusion. Para começar a usar o Cloud Data Fusion, crie uma instância do Cloud Data Fusion no console do Google Cloud.
É possível criar várias instâncias em um único console do Google Cloud.
projeto e pode especificar a região do Google Cloud para criar seu
instâncias do Cloud Data Fusion.
Cada instância do Cloud Data Fusion contém uma instância exclusiva e independente
Implantação do Cloud Data Fusion que contém um conjunto de serviços,
que lidam com o gerenciamento do ciclo de vida, a orquestração
coordenação e gerenciamento de metadados. Esses serviços são executados usando recursos de execução longa em um projeto de locatário.
Um namespace é um agrupamento lógico de aplicativos, dados e
metadados associados em uma instância do Cloud Data Fusion. Você pode pensar
de namespaces como particionamento da instância. Em uma única instância,
Um namespace armazena os dados e metadados de uma entidade de maneira independente
de outro namespace.
Um pipeline é uma forma de projetar visualmente os dados e controlar
para extrair, transformar, combinar, agregar e carregar dados
várias fontes de dados no local e na nuvem.
Com a criação de pipelines, é possível criar processamentos de dados complexos
que podem ajudar a resolver ingestão de dados, integração e
problemas de migração. É possível usar o Cloud Data Fusion para criar pipelines em lote e em tempo real, dependendo das suas necessidades.
Os pipelines permitem expressar os fluxos de trabalho de processamento de dados usando
o fluxo lógico de dados, enquanto o Cloud Data Fusion lida com
funcionalidade necessária para execução física
de nuvem.
Na página do Studio da interface da Web do Cloud Data Fusion, siga estas etapas:
os pipelines são representados como uma série de nós dispostos em um
gráfico acíclico (DAG), formando um fluxo unidirecional.
Os nós representam as várias ações que você pode realizar
pipelines, como a leitura de fontes, a execução de dados
transformações de dados, e gravar a saída
em coletores. É possível desenvolver dados
na interface da Web do Cloud Data Fusion conectando
fontes, transformações, coletores e outros nós.
Um plug-in é um módulo personalizável que pode ser usado para ampliar a
do Cloud Data Fusion.
O Cloud Data Fusion oferece plug-ins para origens, transformações,
agregados, coletores, coletores de erros, editores de alertas, ações e
ações pós-execução.
Às vezes, um plug-in é chamado de nó, geralmente no contexto da interface da Web do Cloud Data Fusion.
Na interface da Web do Cloud Data Fusion, para navegar por plug-ins, pipelines de amostra e outras integrações, clique em Hub. Quando um novo
versão de um plug-in é lançada, ela fica visível no Hub em qualquer instância
que seja compatível. Isso se aplica mesmo que a instância tenha sido criada antes
do lançamento do plug-in.
O Cloud Data Fusion cria ambientes de execução efêmeros para
executar pipelines.
O Cloud Data Fusion é compatível com o Dataproc como um ambiente de execução
O Cloud Data Fusion provisiona um cluster temporário do Dataproc no projeto do cliente no início de uma execução do pipeline, executa o pipeline usando o Spark no cluster e exclui o cluster após a conclusão da execução do pipeline.
Como alternativa, se você gerencia clusters do Dataproc em ambientes controlados, por meio de tecnologias como o Terraform, também é possível configurar o Cloud Data Fusion para não provisionar clusters. Em
nesses ambientes, é possível executar pipelines em
clusters do Dataproc.
Um perfil de computação especifica como e onde um pipeline
executada. Um perfil encapsula todas as informações necessárias para configurar e
excluir o ambiente de execução físico de um pipeline.
Por exemplo, um perfil de computação inclui o seguinte:
Provisionador de execução
Recursos (memória e CPU)
Contagem mínima e máxima de nós
Outros valores
Um perfil é identificado por nome e deve receber um provisionador
e as configurações relacionadas. Um perfil pode existir no nível da instância do Cloud Data Fusion ou do namespace.
O perfil de computação padrão do Cloud Data Fusion é
Escalonamento automático.
Com os pipelines de dados reutilizáveis no Cloud Data Fusion, é possível criar
de um único pipeline capaz de aplicar um padrão de integração de dados a uma
uma variedade de casos de uso e conjuntos de dados.
Pipelines reutilizáveis oferecem melhor capacidade de gerenciamento, definindo a maioria
a configuração de um pipeline no ambiente de execução, em vez de
codificá-lo no momento do design.
O Cloud Data Fusion permite criar gatilhos em um bucket
(chamado pipeline downstream), para que ele seja executado
a conclusão de um ou mais pipelines diferentes (chamados upstream
pipelines). Você escolhe quando o pipeline downstream é executado,
por exemplo, com sucesso, falha, parada ou qualquer combinação delas,
da execução do pipeline upstream.
Os gatilhos são úteis nos seguintes casos:
Limpar seus dados uma vez e, em seguida, disponibilizá-los para
vários pipelines downstream para consumo.
Como compartilhar informações, como argumentos de ambiente de execução e plug-in
entre os pipelines. Isso é chamado de configuração de payload.
Ter um conjunto de pipelines dinâmicos que podem ser executados usando os dados de
a hora, o dia, a semana ou o mês, em vez de usar um pipeline estático
que precisa ser atualizado a cada execução.
Recursos do Cloud Data Fusion
Conheça os recursos do Cloud Data Fusion:
As notas da versão fornecem mudanças
registros de recursos, alterações e descontinuações