Introdução ao Cloud Data Fusion: Studio

Nesta página, apresentamos o Cloud Data Fusion: Studio, uma interface visual, com clique e arrastar, para criar pipelines de dados a partir de uma biblioteca de plug-ins pré-criados e uma interface em que você configura, executa e gerencia seus pipelines. A criação de um pipeline no Studio geralmente segue este processo:

  1. conectar-se a uma fonte de dados no local ou na nuvem;
  2. Prepare e transforme seus dados.
  3. Conecte-se ao destino.
  4. Testar o pipeline.
  5. Execute o pipeline.
  6. Programe e acione seus pipelines.

Depois de projetar e executar o pipeline, é possível gerenciá-los na página Pipeline Studio do Cloud Data Fusion:

  • Reutilize pipelines parametrizando-os com preferências e argumentos de ambiente de execução.
  • Gerenciar a execução do pipeline personalizando perfis de computação, gerenciando recursos e ajustando o desempenho do pipeline.
  • Edite os pipelines para gerenciar o ciclo de vida deles.
  • Gerencie o controle de origem do pipeline usando a integração do Git.

Jornada do usuário no Studio do Cloud Data Fusion

Antes de começar

Cloud Data Fusion: visão geral do Studio

O Studio inclui os componentes a seguir.

Administração

O Cloud Data Fusion permite ter vários namespaces em cada instância. No Studio, os administradores podem gerenciar todos os namespaces de maneira centralizada ou cada namespace individualmente.

O Studio oferece os seguintes controles de administrador:

Administração de sistemas
O módulo Administrador do sistema no Studio permite criar novos namespaces e definir as configurações centrais do perfil de computação no nível do sistema, que são aplicáveis a cada namespace nessa instância. Para mais informações, consulte Gerenciar a administração do Studio.
Administração de namespaces
O módulo Administrador de namespaces no Studio permite gerenciar as configurações do namespace específico. Para cada namespace, é possível definir perfis de computação, preferências de ambiente de execução, drivers, contas de serviço e configurações do Git. Para mais informações, consulte Gerenciar a administração do Studio.

Estúdio de design de pipeline

Projete e execute pipelines no Pipeline Design Studio na interface da Web do Cloud Data Fusion. Projetar e executar pipelines de dados inclui as seguintes etapas:

  • Conectar-se a uma origem: o Cloud Data Fusion permite conexões com fontes de dados locais e na nuvem. A interface do Studio tem plug-ins de sistema padrão, que vêm pré-instalados na plataforma. É possível fazer o download de outros plug-ins em um repositório de plug-ins conhecido como Hub. Para ver mais informações, consulte Visão geral dos plug-ins.
  • Preparação de dados: o Cloud Data Fusion permite preparar os dados usando o Wrangler, um plug-in avançado de preparação de dados. O Wrangler ajuda você a visualizar, explorar e transformar uma pequena amostra de dados em um só lugar antes de executar a lógica em todo o conjunto de dados no Studio. Isso permite que você aplique rapidamente as transformações para entender como elas afetam todo o conjunto de dados. É possível criar várias transformações e adicioná-las a um roteiro. Para mais informações, consulte a Visão geral do Wrangler.
  • Transformação: os plug-ins de transformação alteram os dados depois que eles são carregados de uma origem. Por exemplo, é possível clonar um registro, mudar o formato do arquivo para JSON ou usar o plug-in JavaScript para criar uma transformação personalizada. Para mais informações, consulte Visão geral dos plug-ins.
  • Conectar a um destino: depois de preparar os dados e aplicar transformações, você pode se conectar ao destino em que planeja carregar os dados. O Cloud Data Fusion oferece suporte a conexões com vários destinos. Para ver mais informações, consulte Visão geral de plug-ins.
  • Visualização: depois de projetar o pipeline, execute um job de visualização para depurar problemas antes de implantar e executar um pipeline. Se você encontrar erros, poderá corrigi-los no modo Rascunho. O Studio usa as primeiras 100 linhas do conjunto de dados de origem para gerar a visualização. O Studio exibe o status e a duração do job de visualização. Você pode interromper o job a qualquer momento. Também é possível monitorar os eventos de registro durante a execução do job de visualização. Para mais informações, consulte Dados de visualização.
  • Gerenciar configurações do pipeline: depois de visualizar os dados, é possível implantar o pipeline e gerenciar as seguintes configurações do pipeline:

    • Configuração de computação: é possível alterar o perfil de computação que executa o pipeline. Por exemplo, se você quiser executá-lo em um cluster personalizado do Dataproc em vez de no cluster padrão do Dataproc.
    • Configuração do pipeline: para cada pipeline, é possível ativar ou desativar a instrumentação, como métricas de tempo. Por padrão, a instrumentação está ativada.
    • Configuração do mecanismo: o Spark é o mecanismo de execução padrão. É possível transmitir parâmetros personalizados para o Spark.
    • Recursos: é possível especificar a memória e o número de CPUs para o driver e o executor do Spark. O driver orquestra o job do Spark. O executor cuida do processamento de dados no Spark.
    • Alerta de pipeline: é possível configurar o pipeline para enviar alertas e iniciar tarefas de pós-processamento após a conclusão da execução do pipeline. Você cria alertas de pipeline ao projetá-lo. Depois de implantar o pipeline, é possível visualizar os alertas. Para alterar as configurações de alerta, edite o pipeline.
    • Pushdown de transformação: você pode ativar o Pushdown de transformação se você quiser que um pipeline execute determinadas transformações no BigQuery.

    Para mais informações, consulte Gerenciar configurações de pipeline.

  • Reutilizar pipelines usando macros, preferências e argumentos de ambiente de execução: o Cloud Data Fusion permite reutilizar pipelines de dados. Com os pipelines de dados reutilizáveis, é possível ter um único pipeline que pode aplicar um padrão de integração de dados a vários casos de uso e conjuntos de dados. Os pipelines reutilizáveis oferecem melhor capacidade de gerenciamento. Eles permitem definir a maior parte da configuração de um pipeline no ambiente de execução, em vez de codificá-lo no momento do design. No Pipeline Design Studio, é possível usar macros para adicionar variáveis às configurações do plug-in para que você possa especificar as substituições de variáveis no ambiente de execução. Para mais informações, consulte Gerenciar macros, preferências e argumentos de ambiente de execução.

  • Execução: depois de revisar as configurações do pipeline, é possível iniciar a execução do pipeline. É possível ver a mudança de status durante as fases da execução do pipeline, por exemplo, provisionamento, inicialização, execução e sucesso.

  • Programar e orquestrar: os pipelines de dados em lote podem ser configurados para serem executados em uma frequência e uma programação especificadas. Depois de criar e implantar um pipeline, é possível criar uma programação. No Pipeline Design Studio, é possível orquestrar pipelines criando um gatilho em um pipeline de dados em lote para que ele seja executado quando uma ou mais execuções forem concluídas. Eles são chamados de pipelines downstream e upstream. Crie um gatilho no pipeline downstream para que ele seja executado com base na conclusão de um ou mais pipelines upstream.

    Recomendado: também é possível usar o Composer para orquestrar pipelines no Cloud Data Fusion. Para mais informações, consulte Programar pipelines e Orquestrar pipelines.

  • Editar pipelines: o Cloud Data Fusion permite editar um pipeline implantado. Quando você edita um pipeline implantado, ele cria uma nova versão dele com o mesmo nome e a marca como a versão mais recente. Isso permite desenvolver pipelines de forma iterativa em vez de duplicá-los, o que cria um novo pipeline com um nome diferente. Para mais informações, consulte Editar pipelines.

  • Gerenciamento de controle de origem: o Cloud Data Fusion permite gerenciar melhor os pipelines entre o desenvolvimento e a produção com o Gerenciamento de controle de origem dos pipelines usando o GitHub.

  • Geração de registros e monitoramento: para monitorar métricas e registros do pipeline, é recomendável ativar o serviço do Stackdriver Logging para usar o Cloud Logging com o pipeline do Cloud Data Fusion.

A seguir