Como criar um pipeline reutilizável

Neste tutorial, mostramos como criar um pipeline reutilizável que lê dados do Cloud Storage, realiza verificações de qualidade de dados e grava no Cloud Storage.

Os pipelines reutilizáveis têm uma estrutura de pipeline regular, mas é possível alterar a configuração de cada nó de pipeline com base nas configurações fornecidas por um servidor HTTP. Por exemplo, um pipeline estático pode ler dados do Cloud Storage, aplicar transformações e gravar em uma tabela de saída do BigQuery. Se você quiser que a transformação e a tabela de saída do BigQuery sejam alteradas com base no arquivo do Cloud Storage que o pipeline lê, crie um pipeline reutilizável.

Objetivos

  • Use o plug-in Argument Setter para permitir que o pipeline leia entradas diferentes em cada execução.
  • Use o plug-in Argument Setter para permitir que o pipeline realize diferentes verificações de qualidade em cada execução.
  • Grave os dados de saída de cada execução no Cloud Storage.

Custos

Neste tutorial, há componentes faturáveis do Google Cloud, a saber:

  • Cloud Data Fusion
  • Cloud Storage

Use a calculadora de preços para gerar uma estimativa de custos baseada na projeção de uso. Novos usuários do Google Cloud podem estar qualificados para uma avaliação gratuita.

Antes de começar

  1. Faça login na sua conta do Google Cloud. Se você começou a usar o Google Cloud agora, crie uma conta para avaliar o desempenho de nossos produtos em situações reais. Clientes novos também recebem US$ 300 em créditos para executar, testar e implantar cargas de trabalho.
  2. No Console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar o seletor de projetos

  3. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como confirmar se o faturamento está ativado para o projeto.

  4. Ative as APIs Cloud Data Fusion, Cloud Storage, and Cloud Dataproc.

    Ative as APIs

  5. Crie uma instância do Cloud Data Fusion.

Ao usar o Cloud Data Fusion, você usa o Console do Cloud e a IU separada do Cloud Data Fusion. No Console do Cloud, é possível criar um projeto do Console do Cloud e criar e excluir instâncias do Cloud Data Fusion. Na IU do Cloud Data Fusion, é possível usar as várias páginas, como o Pipeline Studio ou o Wrangler, para usar os recursos do Cloud Data Fusion.

  1. No Console do Cloud, abra a página Instâncias.

    Abrir a página "Instâncias"

  2. Na coluna Ações da instância, clique no link Ver instância. A IU do Cloud Data Fusion será aberta em uma nova guia do navegador.

Implantar o plug-in Argument Setter

  1. Na IU da Web do Cloud Data Fusion, clique em Hub no canto superior direito.

  2. Clique no plug-in de ação do setter e Implantar.

  3. Na janela Implantar que é aberta, clique em Concluir.

  4. Clique em Criar um pipeline. A página Pipeline Studio é aberta.

Ler do Cloud Storage

  1. No painel esquerdo doStudio de pipeline , usando aFonte menu suspenso , selecionarArmazenamento em nuvem do Google ,
  2. Passe o cursor sobre o card de origem do Cloud Storage e clique no botão Propriedades exibido.
  3. No campo Nome de referência, insira um nome.
  4. No campo Caminho, digite ${input.path}. Essa macro controla o caminho de entrada do Cloud Storage nas diferentes execuções do pipeline.
  5. No painel direito "Esquema de saída", remova o campo offset do esquema de saída clicando no ícone de lixeira na linha do campo "offset".
  6. Clique em Validar para garantir que você não tem erros.
  7. Clique no botão X para sair da caixa de diálogo "Propriedades".

Transformar os dados

  1. No painel esquerdo da página do Pipeline Studio, usando o menu suspenso Transform , selecione Wrangler.
  2. Na tela do Pipeline Studio, arraste uma seta do card do Cloud Storage para o card do Administrador.
  3. Passe o cursor sobre o card do Administrador e clique no botão Propriedades exibido.
  4. Em Nome do campo de entrada, digite body.
  5. No campo Receita, digite ${directives}. Essa macro controla a lógica de transformação nas diferentes execuções do pipeline.
  6. Clique em Validar para garantir que você não tem erros.
  7. Clique no botão X para sair da caixa de diálogo "Propriedades".

Gravar no Cloud Storage

  1. No painel esquerdo da página Pipeline do Studio, usando o menu suspenso Coletor , selecione o Cloud Storage.
  2. Na tela do Pipeline Studio, arraste uma seta do card do Administrador para o card do Cloud Storage que você acabou de adicionar.
  3. Passe o cursor sobre o card de coletor do Cloud Storage e clique no botão Propriedades exibido.
  4. No campo Nome de referência, insira um nome.
  5. No campo Caminho, insira o caminho de um bucket do Cloud Storage no projeto, onde o pipeline possa gravar os arquivos de saída. Se você não tiver um bucket do Cloud Storage, crie um.
  6. Clique em Validar para garantir que você não tem erros.
  7. Clique no botão X para sair do menu "Propriedades".

Definir os argumentos da macro

  1. No painel esquerdo da página Pipeline do Studio, usando o menu suspenso Condições e Ações , selecione o Argumento Setter.
  2. Na tela do Pipeline Studio, arraste uma seta do card "Argument Setter" para o card de origem do Cloud Storage.
  3. Passe o cursor sobre o card "Argument Setter" e clique no botão Propriedades exibido.
  4. No campo URL, digite o seguinte.

    https://storage.googleapis.com/reusable-pipeline-tutorial/args.json
    

    O URL corresponde a um objeto de acesso público no Cloud Storage com o seguinte conteúdo:

    {
      "arguments" : [
        {
          "name": "input.path",
          "value": "gs://reusable-pipeline-tutorial/user-emails.txt"
        },
        {
          "name": "directives",
          "value": "send-to-error !dq:isEmail(body)"
        }
      ]
    }
    

    O primeiro dos dois argumentos é o valor de input.path. O caminho gs://reusable-pipeline-tutorial/user-emails.txt é um objeto de acesso público no Cloud Storage com os seguintes dados de teste:

    alice@example.com
    bob@example.com
    craig@invalid@example.com
    

    O segundo argumento é o valor de directives. O valor send-to-error !dq:isEmail(body) configura o Administrador para filtrar as linhas que não são um endereço de e-mail válido. Por exemplo, craig@invalid@example.com é filtrado.

  5. Clique em Validar para garantir que você não tem erros.

  6. Clique no botão X para sair do menu "Propriedades".

Implantar e executar o pipeline

  1. Na barra superior da página do Pipeline Studio, clique em Nomear o pipeline. Dê um nome ao pipeline e clique em Salvar.
  2. Clique em Implantar.
  3. Ao lado de Executar, clique no menu suspenso para abrir os Argumentos de ambiente de execução e visualizar a macro (ambiente de execução) input.path e directives. Deixe os campos de valor em branco para notificar o Cloud Data Fusion de que o nó do conjunto de argumentos no pipeline definirá os valores desses argumentos durante o tempo de execução.
  4. Clique em Executar.

Limpeza

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados no tutorial, exclua o projeto que os contém ou mantenha o projeto e exclua os recursos individuais.

Depois de concluir o tutorial, é possível limpar os recursos criados no Google Cloud para que eles não consumam sua cota e você não receba cobranças por eles no futuro. Nas seções a seguir, você aprenderá a excluir e desativar esses recursos.

Excluir a instância do Cloud Data Fusion

Siga as instruções para excluir a instância do Cloud Data Fusion.

Exclua o projeto

O jeito mais fácil de evitar cobranças é excluir o projeto que você criou para o tutorial.

Para excluir o projeto:

  1. No Console do Cloud, acesse a página Gerenciar recursos:

    Acessar "Gerenciar recursos"

  2. Na lista de projetos, selecione o projeto que você quer excluir e clique em Excluir .
  3. Na caixa de diálogo, digite o ID do projeto e clique em Encerrar para excluí-lo.

A seguir