Usar o criador de jobs para criar um pipeline

Com o criador de jobs, é possível criar e executar um pipeline do Dataflow no console do Google Cloud, sem escrever código.

O criador de jobs aceita a leitura e gravação dos seguintes tipos de dados:

  • Mensagens de Pub/Sub
  • Dados da tabela do BigQuery
  • Arquivos CSV, JSON e arquivos de texto no Cloud Storage

Ele é compatível com transformações de pipeline, incluindo filtrar, mesclar, mapear, agrupar por e explodir (achatamento da matriz).

O criador de jobs também pode salvar pipelines como arquivos YAML do Apache Beam . Ao usar esse recurso, é possível projetar o pipeline no criador de jobs e armazenar o arquivo YAML no Cloud Storage ou em um repositório de controle de origem para reutilização.

Considere o criador de jobs para os seguintes casos de uso:

  • Você quer criar um pipeline rapidamente sem escrever código.
  • Você quer salvar um pipeline em YAML para reutilização.
  • O pipeline pode ser expresso usando as origens, os coletores e as transformações compatíveis.
  • Não há um modelo fornecido pelo Google que corresponda ao seu caso de uso.

Criar pipeline

Para criar um novo pipeline no criador de jobs, siga estas etapas:

  1. Acesse a página Jobs no console do Google Cloud.

    Acessar "Jobs"

  2. Clique em Criar job a partir do modelo.

  3. Clique em Criador de jobs.

  4. Em Nome do job, insira um nome.

  5. Selecione Lote ou Streaming.

  6. Se você selecionar Streaming, selecione um modo de janela. Em seguida, insira um especificação para a janela, da seguinte forma:

    • Janela fixa: insira um tamanho de janela em segundos.
    • Janela deslizante: informe o tamanho e o período da janela em segundos.
    • Janela de sessão: insira um intervalo de sessão, em segundos.

    Para mais informações sobre janelamento, consulte Janelas e funções de janelamento.

Depois adicione origens, transformações e coletores ao pipeline, conforme descrito nas seções a seguir.

Adicionar uma origem ao pipeline

Um pipeline precisa ter pelo menos uma origem. Inicialmente, o criador de jobs é preenchida com uma origem vazia. Para configurar a origem, faça o seguinte:

  1. Na caixa Nome da origem, digite um nome para a origem ou use o nome padrão. O nome aparece no gráfico do job quando você executa o job.

  2. Na lista Tipo de origem, selecione o tipo de fonte de dados.

  3. Dependendo do tipo de origem, forneça mais informações de configuração. Por exemplo, se você selecionar BigQuery, especifique a tabela de onde deve fazer a leitura.

    Se você selecionar Pub/Sub, especifique um esquema de mensagem. Insira o nome e o tipo de dados de cada campo onde que você quer ler as mensagens do Pub/Sub. O pipeline descarta todos os campos que não estão especificados no esquema.

  4. Opcional: para alguns tipos de origem, você pode clicar em Visualizar dados de origem para visualizar os dados de origem.

Para adicionar outra origem ao pipeline, clique em Adicionar uma origem. Para combinar dados de várias fontes, adicione a transformação Join ao pipeline.

Adicionar uma transformação ao pipeline

Opcionalmente, adicione uma ou mais transformações ao pipeline. Para adicionar uma transformação:

  1. Clique em Adicionar uma transformação.

  2. Na caixa Transformação, insira um nome para a transformação ou use o nome padrão. O nome aparece no gráfico do job quando você executa o job.

  3. Na lista Tipo de transformação, selecione o tipo de transformação.

  4. Dependendo do tipo de transformação, forneça informações adicionais de configuração. Por exemplo, se você selecionar Filtro (Python), digite uma expressão em Python para ser usada como filtro.

  5. Selecione a etapa de entrada para a transformação. A etapa de entrada é a origem ou transformação cuja saída fornece a entrada para essa transformação.

Adicionar um coletor ao pipeline

Um pipeline precisa ter pelo menos um coletor. Inicialmente, o criador de jobs é preenchido com um coletor vazio. Para configurar o coletor, faça o seguinte:

  1. Na caixa Nome do coletor, insira um nome para o coletor ou use o nome padrão. O nome aparece no gráfico do job quando você executa o job.

  2. Na lista Tipo de coletor, selecione o tipo de coletor.

  3. Dependendo do tipo de coletor, forneça mais informações de configuração. Por exemplo, se você selecionar o coletor do BigQuery, selecione a tabela do BigQuery em que escreverá.

  4. Selecione a etapa de entrada para o coletor. A etapa de entrada é a origem ou transformação cuja saída fornece a entrada para essa transformação.

  5. Para adicionar outro coletor ao pipeline, clique em Adicionar um coletor.

Executar o pipeline

Para executar um pipeline a partir do criador de jobs, siga estas etapas:

  1. Opcional: defina as opções de job do Dataflow. Para expandir a seção de opções do Dataflow, clique na seta de expansão.

  2. Cliquem em Executar job. O criador de jobs navega até o gráfico do job enviado. Você pode usar o gráfico do job para monitorar o status dele.

Salvar um pipeline

Para salvar um pipeline no YAML do Beam:

  1. Clique em Salvar para abrir a janela Salvar YAML.

  2. Realize uma das seguintes ações:

    • Para copiar o YAML para a área de transferência, clique em Copiar.
    • Para salvar no Cloud Storage, insira um caminho do Cloud Storage e Clique em Salvar.
    • Para fazer o download de um arquivo local, clique em Fazer o download.

Carregar um pipeline

Depois de salvar um pipeline no YAML do Beam, é possível carregá-lo de volta no criador de jobs. Em seguida, use o criador de jobs para modificar ou executar o pipeline.

É possível carregar o YAML do Beam pelo Cloud Storage ou por texto.

Carregar um pipeline pelo Cloud Storage

Para carregar um pipeline pelo Cloud Storage:

  1. Clique em Carregar.
  2. Clique em Carregar pelo Cloud Storage.
  3. Na caixa Local do arquivo YAML, insira o local do Cloud Storage. do arquivo YAML ou clique em Procurar para selecionar o arquivo.
  4. Clique em Carregar.

Carregar um pipeline com texto

Para carregar um pipeline com texto:

  1. Clique em Carregar.
  2. Clique em Carregar com texto.
  3. Cole o YAML na janela.
  4. Clique em Carregar.

A seguir