Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
O Cloud Data Fusion é um serviço de análise de dados totalmente gerenciado
de integração de dados para criar e gerenciar
pipelines de dados com rapidez. O
A interface da Web do Cloud Data Fusion permite criar uma integração de dados escalonável
soluções. Ele permite que você se conecte a várias fontes de dados, transforme os dados e
e transferi-los para vários sistemas de destino, sem precisar gerenciar
do Google Cloud.
O Cloud Data Fusion usa o projeto de código aberto CDAP.
Comece a usar o Cloud Data Fusion
Você pode começar a usar o Cloud Data Fusion em minutos.
Confira a seguir a explicação dos principais componentes do Cloud Data Fusion
em outras seções.
Projeto de locatário
Conjunto de serviços necessários para criar e orquestrar o Cloud Data Fusion
pipelines e metadados de pipeline de armazenamento são provisionados em um locatário
projeto, dentro de uma locação
unidade. Um projeto de locatário separado é criado para cada projeto de cliente, em que
As instâncias do Cloud Data Fusion são provisionadas. O projeto de locatário herda
todas as configurações de rede e firewall do projeto do cliente.
Cloud Data Fusion: console
O console do Cloud Data Fusion, também conhecido como plano de controle, é uma
conjunto de operações de API
e uma interface da Web que lida com a própria instância do Cloud Data Fusion,
como criar, excluir, reiniciar e atualizar.
Cloud Data Fusion: Studio
O Cloud Data Fusion Studio, também conhecido como plano de dados, é um conjunto de
API REST e interface da Web
operações que lidam com a criação, execução e gerenciamento de pipelines e
os artefatos relacionados.
Conceitos
Nesta seção, apresentamos alguns dos principais conceitos do Cloud Data Fusion.
Uma instância do Cloud Data Fusion é uma implantação exclusiva do
o Cloud Data Fusion. Para começar a usar o Cloud Data Fusion,
criar uma instância do Cloud Data Fusion com a
console do Google Cloud.
É possível criar várias instâncias em um único console do Google Cloud.
projeto e pode especificar a região do Google Cloud para criar seu
instâncias do Cloud Data Fusion.
Cada instância do Cloud Data Fusion contém uma instância exclusiva e independente
Implantação do Cloud Data Fusion que contém um conjunto de serviços,
que lidam com o gerenciamento do ciclo de vida, a orquestração
coordenação e gerenciamento de metadados. Esses serviços são executados usando
recursos de longa duração
projeto de locatário.
Um namespace é um agrupamento lógico de aplicativos, dados e
metadados associados em uma instância do Cloud Data Fusion. Você pode pensar
de namespaces como particionamento da instância. Em uma única instância,
Um namespace armazena os dados e metadados de uma entidade de maneira independente
de outro namespace.
Um pipeline é uma forma de projetar visualmente os dados e controlar
para extrair, transformar, combinar, agregar e carregar dados
várias fontes de dados no local e na nuvem.
Com a criação de pipelines, é possível criar processamentos de dados complexos
que podem ajudar a resolver ingestão de dados, integração e
problemas de migração. O Cloud Data Fusion pode ser usado para criar
pipelines em lote e em tempo real, dependendo das suas necessidades.
Os pipelines permitem expressar os fluxos de trabalho de processamento de dados usando
o fluxo lógico de dados, enquanto o Cloud Data Fusion lida com
funcionalidade necessária para execução física
de nuvem.
Na página do Studio da interface da Web do Cloud Data Fusion, siga estas etapas:
os pipelines são representados como uma série de nós dispostos em um
gráfico acíclico (DAG), formando um fluxo unidirecional.
Os nós representam as várias ações que você pode realizar
pipelines, como a leitura de fontes, a execução de dados
transformações de dados, e gravar a saída
em coletores. É possível desenvolver dados
na interface da Web do Cloud Data Fusion conectando
fontes, transformações, coletores e outros nós.
Um plug-in é um módulo personalizável que pode ser usado para ampliar a
do Cloud Data Fusion.
O Cloud Data Fusion oferece plug-ins para origens, transformações,
agregados, coletores, coletores de erros, editores de alertas, ações e
ações pós-execução.
Um plug-in às vezes é chamado de nó, normalmente no
contexto da interface da Web do Cloud Data Fusion.
Na interface da Web do Cloud Data Fusion, para procurar plug-ins,
pipelines e outras integrações, clique em Hub. Quando um novo
versão de um plug-in é lançada, ela fica visível no Hub em qualquer instância
que seja compatível. Isso se aplica mesmo que a instância tenha sido criada antes
o plug-in foi lançado.
O Cloud Data Fusion cria ambientes de execução efêmeros para
executar pipelines.
O Cloud Data Fusion oferece suporte ao Dataproc como um
ambiente de execução
O Cloud Data Fusion provisiona uma
cluster do Dataproc no projeto do cliente na
início de uma execução de pipeline, executa o pipeline usando o Spark na
cluster e depois o exclui após a execução do pipeline
concluído.
Como alternativa, se você gerencia os clusters do Dataproc
em ambientes controlados, usando tecnologias como o Terraform,
também pode configurar o Cloud Data Fusion para não provisionar clusters. Em
nesses ambientes, é possível executar pipelines em
clusters do Dataproc.
Um perfil de computação especifica como e onde um pipeline
executada. Um perfil encapsula todas as informações necessárias para configurar e
excluir o ambiente de execução físico de um pipeline.
Por exemplo, um perfil de computação inclui o seguinte:
Provisionador de execução
Recursos (memória e CPU)
Contagem mínima e máxima de nós
Outros valores
Um perfil é identificado por nome e deve receber um provisionador
e as configurações relacionadas. Um perfil pode existir tanto no nível
nível da instância do Cloud Data Fusion ou do namespace.
O perfil de computação padrão do Cloud Data Fusion é
Escalonamento automático.
Com os pipelines de dados reutilizáveis no Cloud Data Fusion, é possível criar
de um único pipeline capaz de aplicar um padrão de integração de dados a uma
uma variedade de casos de uso e conjuntos de dados.
Pipelines reutilizáveis oferecem melhor capacidade de gerenciamento, definindo a maioria
a configuração de um pipeline no ambiente de execução, em vez de
codificá-lo no momento do design.
O Cloud Data Fusion permite criar gatilhos em um bucket
(chamado pipeline downstream), para que ele seja executado
a conclusão de um ou mais pipelines diferentes (chamados upstream
pipelines). Você escolhe quando o pipeline downstream é executado,
por exemplo, com sucesso, falha, parada ou qualquer combinação delas,
da execução do pipeline upstream.
Os gatilhos são úteis nos seguintes casos:
Limpar seus dados uma vez e, em seguida, disponibilizá-los para
vários pipelines downstream para consumo.
Como compartilhar informações, como argumentos de ambiente de execução e plug-in
entre os pipelines. Isso é chamado de Payload
do Terraform.
Ter um conjunto de pipelines dinâmicos que podem ser executados usando os dados de
a hora, o dia, a semana ou o mês, em vez de usar um pipeline estático
que precisa ser atualizado a cada execução.
Recursos do Cloud Data Fusion
Conheça os recursos do Cloud Data Fusion:
As notas da versão fornecem mudanças
registros de recursos, alterações e descontinuações