Introdução ao Cloud Data Fusion: Studio

Esta página apresenta o Cloud Data Fusion: Studio, que é uma interface visual de clicar e arrastar para criar pipelines de dados a partir de uma biblioteca de plug-ins pré-criados e uma interface onde configura, executa e gere os seus pipelines. Normalmente, a criação de um pipeline no Studio segue este processo:

  1. Faça a associação a uma origem de dados no local ou na nuvem.
  2. Prepare e transforme os seus dados.
  3. Ligue-se ao destino.
  4. Teste o pipeline.
  5. Execute o seu pipeline.
  6. Agende e acione os seus pipelines.

Depois de conceber e executar o pipeline, pode geri-lo na página Pipeline Studio do Cloud Data Fusion:

  • Reutilize pipelines parametrizando-os com preferências e argumentos de tempo de execução.
  • Faça a gestão da execução do pipeline personalizando perfis de computação, gerindo recursos e otimizando o desempenho do pipeline.
  • Faça a gestão do ciclo de vida do pipeline editando pipelines.
  • Faça a gestão do controlo de origem do pipeline através da integração do Git.

Percurso do utilizador no Cloud Data Fusion Studio

Antes de começar

Cloud Data Fusion: vista geral do Studio

O Studio inclui os seguintes componentes.

Administração

O Cloud Data Fusion permite ter vários espaços de nomes em cada instância. No Studio, os administradores podem gerir todos os espaços de nomes de forma centralizada ou cada espaço de nomes individualmente.

O Studio oferece os seguintes controlos de administrador:

Administração de sistemas
O módulo Administrador do sistema no Studio permite-lhe criar novos espaços de nomes e definir as configurações do perfil de computação central ao nível do sistema, que são aplicáveis a cada espaço de nomes nessa instância. Para mais informações, consulte o artigo Faça a gestão da administração do Studio.
Administração do espaço de nomes
O módulo Administrador do espaço de nomes no Studio permite-lhe gerir as configurações para o espaço de nomes específico. Para cada espaço de nomes, pode definir perfis de computação, preferências de tempo de execução, controladores, contas de serviço e configurações do Git. Para mais informações, consulte o artigo Faça a gestão da administração do Studio.

Pipeline Design Studio

Concebe e executa pipelines no Pipeline Design Studio na interface Web do Cloud Data Fusion. A conceção e a execução de pipelines de dados incluem os seguintes passos:

  • Estabeleça ligação a uma origem: o Cloud Data Fusion permite ligações a origens de dados no local e na nuvem. A interface do Studio tem plug-ins do sistema predefinidos, que vêm pré-instalados no Studio. Pode transferir plug-ins adicionais a partir de um repositório de plug-ins, conhecido como Hub. Para mais informações, consulte a Vista geral dos plug-ins.
  • Preparação de dados: o Cloud Data Fusion permite-lhe preparar os seus dados através do respetivo plug-in de preparação de dados avançado: Wrangler. O Wrangler ajuda a ver, explorar e transformar uma pequena amostra dos seus dados num único local antes de executar a lógica no conjunto de dados completo no Studio. Isto permite-lhe aplicar rapidamente transformações para compreender como afetam o conjunto de dados completo. Pode criar várias transformações e adicioná-las a uma receita. Para mais informações, consulte a Vista geral do Wrangler.
  • Transformar: os plugins de transformação alteram os dados depois de serem carregados a partir de uma origem. Por exemplo, pode clonar um registo, alterar o formato do ficheiro para JSON ou usar o plugin Javascript para criar uma transformação personalizada. Para mais informações, consulte a Vista geral dos plug-ins.
  • Estabeleça ligação a um destino: depois de preparar os dados e aplicar as transformações, pode estabelecer ligação ao destino onde planeia carregar os dados. O Cloud Data Fusion suporta ligações a vários destinos. Para mais informações, consulte o artigo Vista geral dos plug-ins.
  • Pré-visualização: depois de criar o pipeline, para depurar problemas antes de implementar e executar um pipeline, executa uma tarefa de pré-visualização. Se encontrar erros, pode corrigi-los no modo Rascunho. O Studio usa as primeiras 100 linhas do conjunto de dados de origem para gerar a pré-visualização. O Studio apresenta o estado e a duração da tarefa de pré-visualização. Pode parar a tarefa em qualquer altura. Também pode monitorizar os eventos de registo à medida que a tarefa de pré-visualização é executada. Para mais informações, consulte o artigo Pré-visualizar dados.
  • Gerir configurações de pipelines: depois de pré-visualizar os dados, pode implementar o pipeline e gerir as seguintes configurações de pipelines:

    • Configuração de computação: pode alterar o perfil de computação que executa o pipeline. Por exemplo, pode querer executar o pipeline num cluster do Dataproc personalizado em vez do cluster do Dataproc predefinido.
    • Configuração do pipeline: para cada pipeline, pode ativar ou desativar a instrumentação, como as métricas de tempo. Por predefinição, a instrumentação está ativada.
    • Configuração do motor: o Spark é o motor de execução predefinido. Pode transmitir parâmetros personalizados para o Spark.
    • Recursos: pode especificar a memória e o número de CPUs para o controlador e o executor do Spark. O controlador orquestra a tarefa do Spark. O executor processa os dados no Spark.
    • Alerta de pipeline: pode configurar o pipeline para enviar alertas e iniciar tarefas de pós-processamento após a conclusão da execução do pipeline. Cria alertas de pipeline quando cria o pipeline. Depois de implementar o pipeline, pode ver os alertas. Para alterar as definições de alerta, pode editar o pipeline.
    • Transferência de transformações: pode ativar a transferência de transformações se quiser que um pipeline execute determinadas transformações no BigQuery.

    Para mais informações, consulte o artigo Faça a gestão das configurações de pipelines.

  • Reutilize pipelines com macros, preferências e argumentos de tempo de execução: O Cloud Data Fusion permite-lhe reutilizar pipelines de dados. Com os pipelines de dados reutilizáveis, pode ter um único pipeline que pode aplicar um padrão de integração de dados a uma variedade de exemplos de utilização e conjuntos de dados. Os pipelines reutilizáveis oferecem uma melhor capacidade de gestão. Permitem-lhe definir a maioria da configuração de um pipeline no momento da execução, em vez de a codificar no momento da conceção. No Pipeline Design Studio, pode usar macros para adicionar variáveis às configurações de plug-ins, de modo a poder especificar as substituições de variáveis no tempo de execução. Para mais informações, consulte o artigo Faça a gestão de macros, preferências e argumentos de tempo de execução.

  • Executar: depois de rever as configurações do pipeline, pode iniciar a execução do pipeline. Pode ver a alteração do estado durante as fases da execução do pipeline, por exemplo, aprovisionamento, início, execução e êxito.

  • Programar e orquestrar: os pipelines de dados em lote podem ser definidos para serem executados de acordo com uma programação e uma frequência especificadas. Depois de criar e implementar um pipeline, pode criar uma programação. No Pipeline Design Studio, pode orquestrar pipelines criando um acionador num pipeline de dados em lote para o executar quando uma ou mais execuções de pipelines forem concluídas. Estes são os chamados pipelines a jusante e a montante. Cria um acionador no pipeline a jusante para que seja executado com base na conclusão de um ou mais pipelines a montante.

    Recomendado: também pode usar o Composer para orquestrar pipelines no Cloud Data Fusion. Para mais informações, consulte os artigos Agende pipelines e Organize pipelines.

  • Editar pipelines: o Cloud Data Fusion permite-lhe editar um pipeline implementado. Quando edita um pipeline implementado, cria uma nova versão do pipeline com o mesmo nome e marca-o como a versão mais recente. Isto permite-lhe desenvolver pipelines iterativamente em vez de duplicar pipelines, o que cria um novo pipeline com um nome diferente. Para mais informações, consulte o artigo Edite pipelines.

  • Gestão de controlo de origens: o Cloud Data Fusion permite-lhe gerir melhor os pipelines entre o desenvolvimento e a produção com a gestão de controlo de origens dos pipelines através do GitHub.

  • Registo e monitorização: para monitorizar as métricas e os registos de pipelines, é recomendado que ative o serviço de registo do Stackdriver para usar o Cloud Logging com o seu pipeline do Cloud Data Fusion.

O que se segue?