Introdução ao Cloud Data Fusion: Studio

Nesta página, você vai conhecer o Cloud Data Fusion: Studio, que é uma interface uma interface do tipo clicar e arrastar para criar pipelines de dados com base em uma biblioteca de plug-ins e uma interface em que você configura, executa e gerencia seus pipelines. A criação de um pipeline no Studio geralmente segue este processo:

  1. Conectar-se a uma fonte de dados local ou na nuvem.
  2. Prepare e transforme seus dados.
  3. Conecte-se ao destino.
  4. Testar o pipeline.
  5. Execute o pipeline.
  6. Programe e acione seus pipelines.

Depois de projetar e executar o pipeline, é possível gerenciá-lo na página Pipeline Studio do Cloud Data Fusion:

  • Reutilize pipelines parametrizando-os com preferências e argumentos de execução.
  • Gerencie a execução do pipeline personalizando perfis de computação, gerenciando recursos e ajustar o desempenho do pipeline.
  • Gerenciar o ciclo de vida do pipeline editando pipelines.
  • Gerencie o controle de origem do pipeline usando a integração do Git.

Jornada do usuário no Studio do Cloud Data Fusion

Antes de começar

Cloud Data Fusion: visão geral do Studio

O Studio inclui os seguintes componentes:

Administração

O Cloud Data Fusion permite ter várias namespaces em cada instância. No Studio, os administradores podem gerenciar todos os namespaces centralmente ou cada namespace individualmente.

O Studio oferece os seguintes controles de administrador:

Administração do sistema
O módulo Administrador do sistema do Studio permite criar namespaces e definir as configurações centrais do perfil de computação no nível do sistema; que são aplicáveis a cada namespace da instância. Para mais informações, consulte Gerenciar a administração do Studio.
Administração de namespaces
O módulo Administrador de namespace no Studio permite gerenciar o configurações para o namespace específico. Para cada namespace, é possível definir perfis de computação, preferências de execução, drivers, contas de serviço e configurações do git. Para mais informações, consulte Gerenciar a administração do Studio.

Pipeline Design Studio

Você projeta e executa pipelines no Pipeline Design Studio (em inglês) da Interface da Web do Cloud Data Fusion. O design e a execução de pipelines de dados incluem as seguintes etapas:

  • Conectar a uma fonte: o Cloud Data Fusion permite conexões com fontes de dados locais e na nuvem. A interface do Studio tem arquivos plug-ins do sistema, que vêm pré-instalados no Studio. Você pode fazer o download plug-ins adicionais de um repositório de plug-ins conhecido como Hub. Para mais informações, consulte a Visão geral dos plug-ins.
  • Preparação de dados: o Cloud Data Fusion permite preparar seu usando um plug-in avançado de preparação de dados: o Wrangler. O Wrangler ajuda a visualizar, explorar e transformar uma pequena amostra dos seus dados em um só lugar antes de executar a lógica em todo o conjunto de dados no Studio. Isso permite que você aplicar rapidamente as transformações para entender como elas que afetam todo o conjunto de dados. É possível criar várias transformações e adicionar a uma receita. Para mais informações, consulte a Visão geral do Wrangler.
  • Transformação: os plug-ins de transformação alteram os dados depois que eles são carregados de um origem, por exemplo, clonar um registro, mudar o formato do arquivo para JSON ou use o plug-in JavaScript para criar uma transformação personalizada. Para Para mais informações, consulte Visão geral de plug-ins.
  • Conectar a um destino: depois de preparar os dados e aplicar as transformações, você pode se conectar ao destino onde pretende carregar os dados. O Cloud Data Fusion permite conexões com várias destinos. Para mais informações, consulte Visão geral dos plug-ins.
  • Visualização: depois de projetar o pipeline, para depurar problemas antes de implantar e executar um pipeline, você executa um job de visualização. Se você encontrar erros, você pode corrigi-los no modo Rascunho. O Studio usa as primeiras 100 linhas do conjunto de dados de origem para gerar a visualização. O Studio mostra o status e a duração do job de visualização. Você pode interromper o job a qualquer momento. Também é possível monitorar os eventos de registro durante a execução do job de visualização. Para mais informações, consulte Pré-visualizar dados.
  • Gerenciar configurações do pipeline: depois de visualizar os dados, é possível implantar o pipeline e gerenciar as seguintes configurações:

    • Configuração de computação: é possível alterar o perfil de computação executado pipeline. Por exemplo, você quer executá-lo em um cluster personalizado do Dataproc em vez do padrão cluster do Dataproc.
    • Configuração do pipeline: para cada pipeline, é possível ativar ou desativar a instrumentação, como métricas de tempo. Por padrão, a instrumentação é ativada.
    • Configuração do mecanismo: o Spark é o mecanismo de execução padrão. Você pode transmitir parâmetros personalizados para o Spark.
    • Recursos: é possível especificar a memória e o número de CPUs para o Driver e executor do Spark. O driver orquestra o job do Spark. O o executor lida com o processamento de dados no Spark.
    • Alerta de pipeline: é possível configurar o pipeline para enviar alertas e iniciar tarefas de pós-processamento após a execução do pipeline. Você criar alertas de pipeline ao projetar o pipeline. Após a implantação do pipeline, é possível visualizar os alertas. Para mudar as configurações de alerta, você pode editar o pipeline.
    • Pushdown de transformação: é possível ativar o pushdown de transformação se você quiser que um pipeline execute determinadas transformações no BigQuery.

    Para mais informações, consulte Gerenciar configurações de pipeline.

  • Reutilizar pipelines usando macros, preferências e argumentos de execução: o Cloud Data Fusion permite reutilizar pipelines de dados. Com modelos reutilizáveis pipelines de dados, é possível ter um único pipeline capaz de aplicar a uma variedade de casos de uso e conjuntos de dados. Reutilizável e pipelines oferecem mais capacidade de gerenciamento. Eles permitem que você defina a maioria configuração de um pipeline no momento da execução, em vez de codificá-lo no tempo de design. No Pipeline Design Studio, é possível usar macros para adicionar de variáveis a configurações do plug-in para que você possa especificar a variável de código no ambiente de execução. Para mais informações, consulte Gerenciar macros, preferências e argumentos do ambiente de execução.

  • Executar: depois de revisar as configurações do pipeline, você pode iniciar a execução. É possível observar a mudança de status durante as fases da execução do pipeline, por exemplo, provisionamento, início, execução e sucesso.

  • Programar e orquestrar: os pipelines de dados em lote podem ser configurados para serem executados em uma programação e frequência especificadas. Depois de criar e implantar um pipeline, crie uma programação. No Pipeline Design Studio, é possível orquestrar pipelines criando um acionador em um pipeline de dados em lote para que ele seja executado quando uma ou mais execuções de pipeline forem concluídas. Eles são chamados pipelines de downstream e upstream. Você cria um acionador no pipeline downstream para que ele seja executado com base na conclusão de um ou mais pipelines upstream.

    Recomendado: também é possível usar o Composer para orquestrar pipelines no Cloud Data Fusion. Para mais informações, consulte Programar pipelines e Orquestrar pipelines.

  • Editar pipelines: o Cloud Data Fusion permite editar um pipeline implantado. Quando você edita um pipeline implantado, ele cria uma nova versão do pipeline com o mesmo nome e o marca como a versão mais recente. Isso permite que você desenvolva pipelines de maneira iterativa em vez de duplicar pipelines, criando um novo pipeline com um nome diferente. Para mais informações, consulte Editar pipelines.

  • Gerenciamento de controle de origem: o Cloud Data Fusion permite melhores gerenciar pipelines entre o desenvolvimento e a produção com Gerenciamento do controle de origem dos pipelines usando o GitHub.

  • Registro e monitoramento: para monitorar métricas e registros do pipeline, é recomendado ativar o serviço de registro do Stackdriver para usar o Cloud Logging com o pipeline do Cloud Data Fusion.

A seguir