Esta página foi traduzida pela API Cloud Translation.

Crie uma tarefa personalizada com o criador de tarefas

O criador de tarefas permite-lhe criar tarefas personalizadas de processamento em lote e streaming do Dataflow. Também pode guardar tarefas do criador de tarefas como ficheiros YAML do Apache Beam para partilhar e reutilizar.

Crie um novo pipeline

Para criar um novo pipeline no criador de tarefas, siga estes passos:

Aceda à página Tarefas na Google Cloud consola.

Aceda a Empregos
Clique em Criar tarefa a partir do criador.
Em Nome da tarefa, introduza um nome para a tarefa.
Selecione Em lote ou Streaming.
Se selecionar Streaming, selecione um modo de exibição em várias janelas. Em seguida, introduza uma especificação para a janela, da seguinte forma:
- Janela fixa: introduza uma dimensão da janela em segundos.
- Janela deslizante: introduza uma dimensão da janela e um período da janela, em segundos.
- Período da sessão: introduza um intervalo de sessões em segundos.
Para mais informações sobre a criação de janelas, consulte o artigo Janelas e funções de criação de janelas.

Em seguida, adicione origens, transformações e destinos ao pipeline, conforme descrito nas secções seguintes.

Adicione uma origem ao pipeline

Um pipeline tem de ter, pelo menos, uma origem. Inicialmente, o criador de tarefas é preenchido com uma origem vazia. Para configurar a origem, siga os seguintes passos:

Na caixa Nome da origem, introduza um nome para a origem ou use o nome predefinido. O nome aparece no gráfico de tarefas quando executa a tarefa.
Na lista Tipo de origem, selecione o tipo de origem de dados.
Consoante o tipo de origem, faculte informações de configuração adicionais. Por exemplo, se selecionar o BigQuery, especifique a tabela a partir da qual ler.

Se selecionar o Pub/Sub, especifique um esquema de mensagens. Introduza o nome e o tipo de dados de cada campo que quer ler a partir de mensagens do Pub/Sub. O pipeline elimina todos os campos que não estejam especificados no esquema.
Opcional: para alguns tipos de origens, pode clicar em Pré-visualizar dados de origem para pré-visualizar os dados de origem.

Para adicionar outra origem ao pipeline, clique em Adicionar uma origem. Para combinar dados de várias origens, adicione uma transformação SQL ou Join ao seu pipeline.

Adicione uma transformação ao pipeline

Opcionalmente, adicione uma ou mais transformações ao pipeline. Pode usar as seguintes transformações para manipular, agregar ou juntar dados de origens e outras transformações:

Tipo de transformação	Descrição	Informações de transformação YAML do Beam
Filtro (Python)	Filtre registos com uma expressão Python.	Filtragem (Python) Filtragem
Transformação de SQL	Manipular registos ou juntar várias entradas com uma declaração SQL.	Transformações com nome Sql
Mapear campos (Python)	Adicione novos campos ou remapeie registos completos com expressões e funções Python.	Funções de mapeamento MapToFields
Mapear campos (SQL)	Adicione ou mapeie campos de registo com expressões SQL.	Funções de mapeamento MapToFields
Transformações YAML: AssertEqual AssignTimestamps Combinar Explode Filtro Nivelar Adira LogForTesting MLTransform MapToFields PyTransform WindowInfo	Use qualquer transformação do SDK YAML do Beam. Configuração da transformação YAML: forneça os parâmetros de configuração da transformação YAML como um mapa YAML. Os pares de chave-valor são usados para preencher a secção de configuração da transformação YAML do Beam resultante. Para ver os parâmetros de configuração suportados para cada tipo de transformação, consulte a documentação de transformação YAML do Beam. Exemplo de parâmetros de configuração: Combinar group_by: combine: Adira type: equalities: fields:	Índice de transformação YAML do Beam
Registo	Registar registos nos registos de trabalhadores da tarefa.	LogForTesting
Agrupar por	Combine registos com funções como `count()` e `sum()`.	Agrupar por
Adira	Junte várias entradas em campos iguais.	Beam YAML Join Participar
Explode	Divida os registos ao reduzir os campos de matriz.	Flatmap Explode

Para adicionar uma transformação:

Clique em Adicionar uma transformação.
Na caixa de nome Transformação, introduza um nome para a transformação ou use o nome predefinido. O nome aparece no gráfico de tarefas quando executa a tarefa.
Na lista Tipo de transformação, selecione o tipo de transformação.
Consoante o tipo de transformação, faculte informações de configuração adicionais. Por exemplo, se selecionar Filtrar (Python), introduza uma expressão Python para usar como filtro.
Selecione o passo de entrada para a transformação. O passo de entrada é a origem ou a transformação cuja saída fornece a entrada para esta transformação.

Nota: a transformação SQL e Join pode ter vários passos de entrada.

Adicione um destino à pipeline

Um pipeline tem de ter, pelo menos, um destino. Inicialmente, o criador de tarefas é preenchido com um destino vazio. Para configurar o destino, siga os seguintes passos:

Na caixa Nome do destino, introduza um nome para o destino ou use o nome predefinido. O nome aparece no gráfico de tarefas quando executa a tarefa.
Na lista Tipo de destino, selecione o tipo de destino.
Consoante o tipo de destino, faculte informações de configuração adicionais. Por exemplo, se selecionar o destino do BigQuery, selecione a tabela do BigQuery na qual escrever.
Selecione o passo de entrada para o destino. O passo de entrada é a origem ou a transformação cujo resultado fornece a entrada para esta transformação.
Para adicionar outra saída ao pipeline, clique em Adicionar uma saída.

Execute a pipeline

Para executar um pipeline a partir do criador de tarefas, siga estes passos:

Opcional: defina as opções da tarefa do Dataflow. Para expandir a secção Opções de fluxo de dados, clique na seta de expansão .
Clique em Executar tarefa. O criador de tarefas navega para o gráfico de tarefas da tarefa enviada. Pode usar o gráfico de tarefas para monitorizar o estado da tarefa.

Valide o pipeline antes do lançamento

Para pipelines com uma configuração complexa, como filtros Python e expressões SQL, pode ser útil verificar se existem erros de sintaxe na configuração do pipeline antes do lançamento. Para validar a sintaxe do pipeline, siga estes passos:

Clique em Validar para abrir o Cloud Shell e iniciar o serviço de validação.
Clique em Iniciar validação.
Se for encontrado um erro durante a validação, é apresentado um ponto de exclamação vermelho.
Corrija os erros detetados e valide as correções clicando em Validar. Se não for encontrado nenhum erro, é apresentada uma marca de verificação verde.

Executar com a CLI gcloud

Também pode executar pipelines YAML do Beam através da CLI gcloud. Para executar um pipeline do criador de tarefas com a CLI gcloud:

Clique em Guardar YAML para abrir a janela Guardar YAML.
Realize uma das seguintes ações:
- Para guardar no Cloud Storage, introduza um caminho do Cloud Storage e clique em Guardar.
- Para transferir um ficheiro local, clique em Transferir.
Execute o seguinte comando na shell ou no terminal:
```
  gcloud dataflow yaml run my-job-builder-job --yaml-pipeline-file=YAML_FILE_PATH
```
Substitua YAML_FILE_PATH pelo caminho do seu ficheiro YAML, localmente ou no Cloud Storage.

O que se segue?

Use a interface de monitorização de tarefas do Dataflow.
Guardar e carregar definições de tarefas YAML no criador de tarefas.
Saiba mais sobre o YAML do Beam.