Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
O Cloud Data Fusion é um serviço de integração de dados empresarial totalmente gerido e nativo da nuvem para criar e gerir rapidamente pipelines de dados. A interface Web do Cloud Data Fusion permite-lhe criar soluções de integração de dados escaláveis. Permite-lhe estabelecer ligação a várias origens de dados, transformar os dados e, em seguida, transferi-los para vários sistemas de destino, sem ter de gerir a infraestrutura.
O Cloud Data Fusion é desenvolvido pelo projeto de código aberto CDAP.
Comece a usar o Cloud Data Fusion
Pode começar a explorar o Cloud Data Fusion em minutos.
Os principais componentes do Cloud Data Fusion são explicados nas secções seguintes.
Projeto de inquilino
O conjunto de serviços necessários para criar e orquestrar pipelines do Cloud Data Fusion e armazenar metadados de pipelines é aprovisionado num projeto de inquilino, numa unidade de inquilino. É criado um projeto de inquilino separado para cada projeto de cliente, no qual são aprovisionadas instâncias do Cloud Data Fusion. O projeto de inquilino herda todas as configurações de rede e firewall do projeto de cliente.
Cloud Data Fusion: consola
A consola do Cloud Data Fusion, também denominada plano de controlo, é um conjunto de operações da API e uma interface Web que lidam com a própria instância do Cloud Data Fusion, como a criação, a eliminação, o reinício e a atualização.
Cloud Data Fusion: Studio
O Cloud Data Fusion Studio, também denominado plano de dados, é um conjunto de operações da API REST e da interface Web que lidam com a criação, a execução e a gestão de pipelines e artefactos relacionados.
Conceitos
Esta secção apresenta alguns dos conceitos essenciais do Cloud Data Fusion.
Uma instância do Cloud Data Fusion é uma implementação única do
Cloud Data Fusion. Para começar a usar o Cloud Data Fusion, tem de
criar uma instância do Cloud Data Fusion através da
Google Cloud consola.
Pode criar várias instâncias num único projeto da Google Cloud consola
e especificar a Google Cloud região onde criar as
instâncias do Cloud Data Fusion.
Cada instância do Cloud Data Fusion contém uma implementação do Cloud Data Fusion única e independente que contém um conjunto de serviços que processam a gestão do ciclo de vida, a orquestração, a coordenação e a gestão de metadados de pipelines. Estes serviços são executados através de recursos de execução prolongada num projeto de inquilino.
Um espaço de nomes é um agrupamento lógico de aplicações, dados e os metadados associados numa instância do Cloud Data Fusion. Pode considerar
os espaços de nomes como uma partição da instância. Numa única instância,
um espaço de nomes armazena os dados e os metadados de uma entidade independentemente
de outro espaço de nomes.
Um pipeline é uma forma de conceber visualmente dados e controlar
fluxos para extrair, transformar, misturar, agregar e carregar dados de
várias origens de dados no local e na nuvem.
A criação de pipelines permite-lhe criar fluxos de trabalho de processamento de dados complexos que podem ajudar a resolver problemas de carregamento, integração e migração de dados. Pode usar o Cloud Data Fusion para criar pipelines em lote e em tempo real, consoante as suas necessidades.
Os pipelines permitem-lhe expressar os seus fluxos de trabalho de processamento de dados através do
fluxo lógico de dados, enquanto o Cloud Data Fusion processa toda a
funcionalidade necessária para a execução física num ambiente
de execução.
Na página Studio da interface Web do Cloud Data Fusion,
os pipelines são representados como uma série de nós organizados num
gráfico acíclico dirigido (DAG), formando um fluxo unidirecional.
Os nós representam as várias ações que pode realizar com os seus pipelines, como ler a partir de origens, realizar transformações de dados e escrever resultados em destinos. Pode desenvolver pipelines de dados na interface Web do Cloud Data Fusion associando origens, transformações, destinos e outros nós.
Um plug-in é um módulo personalizável que pode ser usado para expandir as capacidades do Cloud Data Fusion.
O Cloud Data Fusion fornece plug-ins para origens, transformações,
agregações, destinos, coletores de erros, publicadores de alertas, ações e
ações pós-execução.
Por vezes, um plug-in é designado por nó, normalmente no contexto da interface Web do Cloud Data Fusion.
Na interface Web do Cloud Data Fusion, para procurar plug-ins, pipelines de exemplo e outras integrações, clique em Hub. Quando é lançada uma nova versão de um plug-in, esta fica visível no Hub em qualquer instância compatível. Isto aplica-se mesmo que a instância tenha sido criada antes do lançamento do plug-in.
O Cloud Data Fusion cria ambientes de execução efémeros para executar pipelines.
O Cloud Data Fusion suporta o Dataproc como um ambiente de execução
O Cloud Data Fusion aprovisiona um cluster do Dataproc efémero no seu projeto de cliente no início de uma execução do pipeline, executa o pipeline através do Spark no cluster e, em seguida, elimina o cluster após a conclusão da execução do pipeline.
Em alternativa, se gerir os seus clusters do Dataproc
em ambientes controlados, através de tecnologias como o Terraform, também pode configurar o Cloud Data Fusion para não aprovisionar clusters. Nesses ambientes, pode executar pipelines em clusters do Dataproc existentes.
Um perfil de computação especifica como e onde um pipeline é executado. Um perfil incorpora todas as informações necessárias para configurar e
eliminar o ambiente de execução físico de um pipeline.
Por exemplo, um perfil de computação inclui o seguinte:
Administrador de execução
Recursos (memória e CPU)
Contagem mínima e máxima de nós
Outros valores
Um perfil é identificado pelo nome e tem de lhe ser atribuído um aprovisionador
e a respetiva configuração relacionada. Um perfil pode existir ao nível da instância do Cloud Data Fusion ou ao nível do espaço de nomes.
O perfil de computação predefinido do Cloud Data Fusion é o
dimensionamento automático.
Os pipelines de dados reutilizáveis no Cloud Data Fusion permitem a criação
de um único pipeline que pode aplicar um padrão de integração de dados a uma
variedade de exemplos de utilização e conjuntos de dados.
Os pipelines reutilizáveis oferecem uma melhor capacidade de gestão, definindo a maior parte da configuração de um pipeline no momento da execução, em vez de a codificar no momento do design.
O Cloud Data Fusion suporta a criação de um acionador num pipeline de dados (denominado pipeline a jusante) para que seja executado quando um ou mais pipelines diferentes (denominados pipelines a montante) forem concluídos. Escolhe quando a pipeline a jusante é executada, por exemplo, quando a execução da pipeline a montante é bem-sucedida, falha, é interrompida ou qualquer combinação destas opções.
Os acionadores são úteis nos seguintes casos:
Limpar os dados uma vez e, em seguida, disponibilizá-los para consumo a vários pipelines a jusante.
Partilhar informações, como argumentos de tempo de execução e configurações de plug-ins, entre pipelines. Isto chama-se configuração de
dados de carga.
Ter um conjunto de pipelines dinâmicos que podem ser executados com os dados da hora, do dia, da semana ou do mês, em vez de usar um pipeline estático que tem de ser atualizado em cada execução.
Recursos do Cloud Data Fusion
Explore recursos do Cloud Data Fusion:
As notas de lançamento fornecem registos de alterações das funcionalidades, das alterações e das descontinuações
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Informações incorretas ou exemplo de código","incorrectInformationOrSampleCode","thumb-down"],["Não contém as informações/amostras de que eu preciso","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2025-09-19 UTC."],[],[],null,[]]