Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
O Cloud Data Fusion é um serviço de análise de dados totalmente gerenciado
de integração de dados para criar e gerenciar
pipelines de dados com rapidez. A interface da Web do Cloud Data Fusion permite criar soluções de integração de dados escalonáveis. Ele permite que você se conecte a várias fontes de dados, transforme os dados e
e transferi-los para vários sistemas de destino, sem precisar gerenciar
do Google Cloud.
O Cloud Data Fusion usa o projeto de código aberto CDAP.
Comece a usar o Cloud Data Fusion
Você pode começar a usar o Cloud Data Fusion em minutos.
Confira a seguir a explicação dos principais componentes do Cloud Data Fusion
em outras seções.
Projeto de locatário
O conjunto de serviços necessários para criar e orquestrar pipelines do Cloud Data Fusion e armazenar metadados de pipeline são provisionados em um projeto de locatário, dentro de uma unidade de locação. Um projeto de locatário separado é criado para cada projeto de cliente, em que
As instâncias do Cloud Data Fusion são provisionadas. O projeto do locatário herda
todas as configurações de rede e de firewall do projeto do cliente.
Cloud Data Fusion: console
O console do Cloud Data Fusion, também conhecido como plano de controle, é uma
conjunto de operações de API
e uma interface da Web que lida com a própria instância do Cloud Data Fusion,
como criar, excluir, reiniciar e atualizar.
Cloud Data Fusion: Studio
O Cloud Data Fusion Studio, também chamado de plano de dados, é um conjunto de operações de API REST e interface da Web que lidam com a criação, execução e gerenciamento de pipelines e artefatos relacionados.
Conceitos
Nesta seção, apresentamos alguns dos principais conceitos do Cloud Data Fusion.
Uma instância do Cloud Data Fusion é uma implantação exclusiva do Cloud Data Fusion. Para começar a usar o Cloud Data Fusion, crie uma instância do Cloud Data Fusion no console do Google Cloud.
É possível criar várias instâncias em um único console do Google Cloud.
projeto e pode especificar a região do Google Cloud para criar seu
do Cloud Data Fusion.
Cada instância do Cloud Data Fusion tem uma implantação exclusiva e independente do Cloud Data Fusion com um conjunto de serviços que processa o gerenciamento do ciclo de vida do pipeline, a orquestração, a coordenada e o gerenciamento de metadados. Esses serviços são executados usando
recursos de longa duração
projeto de locatário.
Um namespace é um agrupamento lógico de aplicativos, dados e metadados associados em uma instância do Cloud Data Fusion. Você pode pensar
de namespaces como particionamento da instância. Em uma única instância,
Um namespace armazena os dados e metadados de uma entidade de maneira independente
de outro namespace.
Um pipeline é uma maneira de projetar visualmente dados e controlar fluxos para extrair, transformar, mesclar, agregar e carregar dados de várias fontes de dados locais e na nuvem.
A criação de pipelines permite criar fluxos de trabalho complexos de processamento de dados
que podem ajudar a resolver problemas de ingestão, integração e
migração de dados. O Cloud Data Fusion pode ser usado para criar
pipelines em lote e em tempo real, dependendo das suas necessidades.
Os pipelines permitem que você expresse os fluxos de trabalho de processamento de dados usando o fluxo lógico de dados, enquanto o Cloud Data Fusion cuida de todas as funcionalidades necessárias para executar fisicamente em um ambiente de execução.
Na página do Studio da interface da Web do Cloud Data Fusion, siga estas etapas:
os pipelines são representados como uma série de nós dispostos em um
gráfico acíclico (DAG), formando um fluxo unidirecional.
Os nós representam as várias ações que podem ser realizadas com os pipelines, como leitura de origens, transformações de dados e gravação de saída em coletores. É possível desenvolver dados
na interface da Web do Cloud Data Fusion conectando
fontes, transformações, coletores e outros nós.
Um plug-in é um módulo personalizável que pode ser usado para ampliar a
do Cloud Data Fusion.
O Cloud Data Fusion oferece plug-ins para origens, transformações, agregações, coletores, coletores de erros, editores de alertas, ações e ações pós-execução.
Às vezes, um plug-in é chamado de nó, geralmente no contexto da interface da Web do Cloud Data Fusion.
Na interface da Web do Cloud Data Fusion, para navegar por plug-ins, pipelines de amostra e outras integrações, clique em Hub. Quando um novo
versão de um plug-in é lançada, ela fica visível no Hub em qualquer instância
que seja compatível. Isso se aplica mesmo que a instância tenha sido criada antes
do lançamento do plug-in.
O Cloud Data Fusion cria ambientes de execução efêmeros para
executar pipelines.
O Cloud Data Fusion oferece suporte ao Dataproc como um
ambiente de execução
O Cloud Data Fusion provisiona um cluster temporário do Dataproc no projeto do cliente no início de uma execução do pipeline, executa o pipeline usando o Spark no cluster e exclui o cluster após a conclusão da execução do pipeline.
Como alternativa, se você gerencia os clusters do Dataproc
em ambientes controlados, usando tecnologias como o Terraform,
também pode configurar o Cloud Data Fusion para não provisionar clusters. Em
nesses ambientes, é possível executar pipelines em
clusters do Dataproc.
Um perfil de computação especifica como e onde um pipeline
executada. Um perfil encapsula todas as informações necessárias para configurar e
excluir o ambiente de execução físico de um pipeline.
Por exemplo, um perfil de computação inclui o seguinte:
Provisionador de execução
Recursos (memória e CPU)
Contagem mínima e máxima de nós
Outros valores
Um perfil é identificado por nome e deve receber um provisionador
e as configurações relacionadas. Um perfil pode existir tanto no nível
nível da instância do Cloud Data Fusion ou do namespace.
O perfil de computação padrão do Cloud Data Fusion é
Escalonamento automático.
Com os pipelines de dados reutilizáveis no Cloud Data Fusion, é possível criar
de um único pipeline capaz de aplicar um padrão de integração de dados a uma
uma variedade de casos de uso e conjuntos de dados.
Os pipelines reutilizáveis oferecem melhor capacidade de gerenciamento ao definir a maior parte da configuração de um pipeline no momento da execução, em vez de codificá-lo no momento do design.
O Cloud Data Fusion oferece suporte à criação de um acionador em um pipeline de dados (chamado de pipeline downstream) para que ele seja executado na conclusão de um ou mais pipelines diferentes (chamados de pipelines upstream). Você escolhe quando o pipeline downstream é executado,
por exemplo, com sucesso, falha, parada ou qualquer combinação delas,
da execução do pipeline upstream.
Os gatilhos são úteis nos seguintes casos:
Limpar seus dados uma vez e, em seguida, disponibilizá-los para
vários pipelines downstream para consumo.
Compartilhar informações, como argumentos de ambiente de execução e configurações de plug-in, entre pipelines. Isso é chamado de configuração de payload.
Ter um conjunto de pipelines dinâmicos que podem ser executados usando os dados de
a hora, o dia, a semana ou o mês, em vez de usar um pipeline estático
que precisa ser atualizado a cada execução.
Recursos do Cloud Data Fusion
Conheça os recursos do Cloud Data Fusion:
As Notas da versão fornecem registros de
alterações de recursos, mudanças e suspensões de uso.
[[["Fácil de entender","easyToUnderstand","thumb-up"],["Meu problema foi resolvido","solvedMyProblem","thumb-up"],["Outro","otherUp","thumb-up"]],[["Hard to understand","hardToUnderstand","thumb-down"],["Incorrect information or sample code","incorrectInformationOrSampleCode","thumb-down"],["Missing the information/samples I need","missingTheInformationSamplesINeed","thumb-down"],["Problema na tradução","translationIssue","thumb-down"],["Outro","otherDown","thumb-down"]],["Última atualização 2024-10-14 UTC."],[],[]]