Crie uma tarefa personalizada com o criador de tarefas

O criador de tarefas permite-lhe criar tarefas personalizadas de processamento em lote e streaming do Dataflow. Também pode guardar tarefas do criador de tarefas como ficheiros YAML do Apache Beam para partilhar e reutilizar.

Crie um novo pipeline

Para criar um novo pipeline no criador de tarefas, siga estes passos:

  1. Aceda à página Tarefas na Google Cloud consola.

    Aceda a Empregos

  2. Clique em Criar tarefa a partir do criador.

  3. Em Nome da tarefa, introduza um nome para a tarefa.

  4. Selecione Em lote ou Streaming.

  5. Se selecionar Streaming, selecione um modo de exibição em várias janelas. Em seguida, introduza uma especificação para a janela, da seguinte forma:

    • Janela fixa: introduza uma dimensão da janela em segundos.
    • Janela deslizante: introduza uma dimensão da janela e um período da janela, em segundos.
    • Período da sessão: introduza um intervalo de sessões em segundos.

    Para mais informações sobre a criação de janelas, consulte o artigo Janelas e funções de criação de janelas.

Em seguida, adicione origens, transformações e destinos ao pipeline, conforme descrito nas secções seguintes.

Adicione uma origem ao pipeline

Um pipeline tem de ter, pelo menos, uma origem. Inicialmente, o criador de tarefas é preenchido com uma origem vazia. Para configurar a origem, siga os seguintes passos:

  1. Na caixa Nome da origem, introduza um nome para a origem ou use o nome predefinido. O nome aparece no gráfico de tarefas quando executa a tarefa.

  2. Na lista Tipo de origem, selecione o tipo de origem de dados.

  3. Consoante o tipo de origem, faculte informações de configuração adicionais. Por exemplo, se selecionar o BigQuery, especifique a tabela a partir da qual ler.

    Se selecionar o Pub/Sub, especifique um esquema de mensagens. Introduza o nome e o tipo de dados de cada campo que quer ler a partir de mensagens do Pub/Sub. O pipeline elimina todos os campos que não estejam especificados no esquema.

  4. Opcional: para alguns tipos de origens, pode clicar em Pré-visualizar dados de origem para pré-visualizar os dados de origem.

Para adicionar outra origem ao pipeline, clique em Adicionar uma origem. Para combinar dados de várias origens, adicione uma transformação SQL ou Join ao seu pipeline.

Adicione uma transformação ao pipeline

Opcionalmente, adicione uma ou mais transformações ao pipeline. Pode usar as seguintes transformações para manipular, agregar ou juntar dados de origens e outras transformações:

Tipo de transformação Descrição Informações de transformação YAML do Beam
Filtro (Python) Filtre registos com uma expressão Python.
Transformação de SQL Manipular registos ou juntar várias entradas com uma declaração SQL.
Mapear campos (Python) Adicione novos campos ou remapeie registos completos com expressões e funções Python.
Mapear campos (SQL) Adicione ou mapeie campos de registo com expressões SQL.
Transformações YAML:
  1. AssertEqual
  2. AssignTimestamps
  3. Combinar
  4. Explode
  5. Filtro
  6. Nivelar
  7. Adira
  8. LogForTesting
  9. MLTransform
  10. MapToFields
  11. PyTransform
  12. WindowInfo

Use qualquer transformação do SDK YAML do Beam.

Configuração da transformação YAML: forneça os parâmetros de configuração da transformação YAML como um mapa YAML. Os pares de chave-valor são usados para preencher a secção de configuração da transformação YAML do Beam resultante. Para ver os parâmetros de configuração suportados para cada tipo de transformação, consulte a documentação de transformação YAML do Beam. Exemplo de parâmetros de configuração:

Combinar
group_by:
combine:
Adira
type:
equalities:
fields:
Registo Registar registos nos registos de trabalhadores da tarefa.
Agrupar por Combine registos com funções como count() e sum().
Adira Junte várias entradas em campos iguais.
Explode Divida os registos ao reduzir os campos de matriz.

Para adicionar uma transformação:

  1. Clique em Adicionar uma transformação.

  2. Na caixa de nome Transformação, introduza um nome para a transformação ou use o nome predefinido. O nome aparece no gráfico de tarefas quando executa a tarefa.

  3. Na lista Tipo de transformação, selecione o tipo de transformação.

  4. Consoante o tipo de transformação, faculte informações de configuração adicionais. Por exemplo, se selecionar Filtrar (Python), introduza uma expressão Python para usar como filtro.

  5. Selecione o passo de entrada para a transformação. O passo de entrada é a origem ou a transformação cuja saída fornece a entrada para esta transformação.

Adicione um destino à pipeline

Um pipeline tem de ter, pelo menos, um destino. Inicialmente, o criador de tarefas é preenchido com um destino vazio. Para configurar o destino, siga os seguintes passos:

  1. Na caixa Nome do destino, introduza um nome para o destino ou use o nome predefinido. O nome aparece no gráfico de tarefas quando executa a tarefa.

  2. Na lista Tipo de destino, selecione o tipo de destino.

  3. Consoante o tipo de destino, faculte informações de configuração adicionais. Por exemplo, se selecionar o destino do BigQuery, selecione a tabela do BigQuery na qual escrever.

  4. Selecione o passo de entrada para o destino. O passo de entrada é a origem ou a transformação cujo resultado fornece a entrada para esta transformação.

  5. Para adicionar outra saída ao pipeline, clique em Adicionar uma saída.

Execute a pipeline

Para executar um pipeline a partir do criador de tarefas, siga estes passos:

  1. Opcional: defina as opções da tarefa do Dataflow. Para expandir a secção Opções de fluxo de dados, clique na seta de expansão .

  2. Clique em Executar tarefa. O criador de tarefas navega para o gráfico de tarefas da tarefa enviada. Pode usar o gráfico de tarefas para monitorizar o estado da tarefa.

Valide o pipeline antes do lançamento

Para pipelines com uma configuração complexa, como filtros Python e expressões SQL, pode ser útil verificar se existem erros de sintaxe na configuração do pipeline antes do lançamento. Para validar a sintaxe do pipeline, siga estes passos:

  1. Clique em Validar para abrir o Cloud Shell e iniciar o serviço de validação.
  2. Clique em Iniciar validação.
  3. Se for encontrado um erro durante a validação, é apresentado um ponto de exclamação vermelho.
  4. Corrija os erros detetados e valide as correções clicando em Validar. Se não for encontrado nenhum erro, é apresentada uma marca de verificação verde.

Executar com a CLI gcloud

Também pode executar pipelines YAML do Beam através da CLI gcloud. Para executar um pipeline do criador de tarefas com a CLI gcloud:

  1. Clique em Guardar YAML para abrir a janela Guardar YAML.

  2. Realize uma das seguintes ações:

    • Para guardar no Cloud Storage, introduza um caminho do Cloud Storage e clique em Guardar.
    • Para transferir um ficheiro local, clique em Transferir.
  3. Execute o seguinte comando na shell ou no terminal:

      gcloud dataflow yaml run my-job-builder-job --yaml-pipeline-file=YAML_FILE_PATH
    

    Substitua YAML_FILE_PATH pelo caminho do seu ficheiro YAML, localmente ou no Cloud Storage.

O que se segue?