O criador de tarefas permite-lhe criar tarefas personalizadas de processamento em lote e streaming do Dataflow. Também pode guardar tarefas do criador de tarefas como ficheiros YAML do Apache Beam para partilhar e reutilizar.
Crie um novo pipeline
Para criar um novo pipeline no criador de tarefas, siga estes passos:
Aceda à página Tarefas na Google Cloud consola.
Clique em
Criar tarefa a partir do criador.Em Nome da tarefa, introduza um nome para a tarefa.
Selecione Em lote ou Streaming.
Se selecionar Streaming, selecione um modo de exibição em várias janelas. Em seguida, introduza uma especificação para a janela, da seguinte forma:
- Janela fixa: introduza uma dimensão da janela em segundos.
- Janela deslizante: introduza uma dimensão da janela e um período da janela, em segundos.
- Período da sessão: introduza um intervalo de sessões em segundos.
Para mais informações sobre a criação de janelas, consulte o artigo Janelas e funções de criação de janelas.
Em seguida, adicione origens, transformações e destinos ao pipeline, conforme descrito nas secções seguintes.
Adicione uma origem ao pipeline
Um pipeline tem de ter, pelo menos, uma origem. Inicialmente, o criador de tarefas é preenchido com uma origem vazia. Para configurar a origem, siga os seguintes passos:
Na caixa Nome da origem, introduza um nome para a origem ou use o nome predefinido. O nome aparece no gráfico de tarefas quando executa a tarefa.
Na lista Tipo de origem, selecione o tipo de origem de dados.
Consoante o tipo de origem, faculte informações de configuração adicionais. Por exemplo, se selecionar o BigQuery, especifique a tabela a partir da qual ler.
Se selecionar o Pub/Sub, especifique um esquema de mensagens. Introduza o nome e o tipo de dados de cada campo que quer ler a partir de mensagens do Pub/Sub. O pipeline elimina todos os campos que não estejam especificados no esquema.
Opcional: para alguns tipos de origens, pode clicar em Pré-visualizar dados de origem para pré-visualizar os dados de origem.
Para adicionar outra origem ao pipeline, clique em Adicionar uma origem. Para combinar dados de várias origens, adicione uma transformação SQL
ou Join
ao seu pipeline.
Adicione uma transformação ao pipeline
Opcionalmente, adicione uma ou mais transformações ao pipeline. Pode usar as seguintes transformações para manipular, agregar ou juntar dados de origens e outras transformações:
Tipo de transformação | Descrição | Informações de transformação YAML do Beam |
---|---|---|
Filtro (Python) | Filtre registos com uma expressão Python. | |
Transformação de SQL | Manipular registos ou juntar várias entradas com uma declaração SQL. | |
Mapear campos (Python) | Adicione novos campos ou remapeie registos completos com expressões e funções Python. | |
Mapear campos (SQL) | Adicione ou mapeie campos de registo com expressões SQL. | |
Transformações YAML:
|
Use qualquer transformação do SDK YAML do Beam. Configuração da transformação YAML: forneça os parâmetros de configuração da transformação YAML como um mapa YAML. Os pares de chave-valor são usados para preencher a secção de configuração da transformação YAML do Beam resultante. Para ver os parâmetros de configuração suportados para cada tipo de transformação, consulte a documentação de transformação YAML do Beam. Exemplo de parâmetros de configuração: Combinargroup_by: combine: Adiratype: equalities: fields: |
|
Registo | Registar registos nos registos de trabalhadores da tarefa. | |
Agrupar por |
Combine registos com funções como count() e
sum() .
|
|
Adira | Junte várias entradas em campos iguais. | |
Explode | Divida os registos ao reduzir os campos de matriz. |
Para adicionar uma transformação:
Clique em Adicionar uma transformação.
Na caixa de nome Transformação, introduza um nome para a transformação ou use o nome predefinido. O nome aparece no gráfico de tarefas quando executa a tarefa.
Na lista Tipo de transformação, selecione o tipo de transformação.
Consoante o tipo de transformação, faculte informações de configuração adicionais. Por exemplo, se selecionar Filtrar (Python), introduza uma expressão Python para usar como filtro.
Selecione o passo de entrada para a transformação. O passo de entrada é a origem ou a transformação cuja saída fornece a entrada para esta transformação.
Adicione um destino à pipeline
Um pipeline tem de ter, pelo menos, um destino. Inicialmente, o criador de tarefas é preenchido com um destino vazio. Para configurar o destino, siga os seguintes passos:
Na caixa Nome do destino, introduza um nome para o destino ou use o nome predefinido. O nome aparece no gráfico de tarefas quando executa a tarefa.
Na lista Tipo de destino, selecione o tipo de destino.
Consoante o tipo de destino, faculte informações de configuração adicionais. Por exemplo, se selecionar o destino do BigQuery, selecione a tabela do BigQuery na qual escrever.
Selecione o passo de entrada para o destino. O passo de entrada é a origem ou a transformação cujo resultado fornece a entrada para esta transformação.
Para adicionar outra saída ao pipeline, clique em Adicionar uma saída.
Execute a pipeline
Para executar um pipeline a partir do criador de tarefas, siga estes passos:
Opcional: defina as opções da tarefa do Dataflow. Para expandir a secção Opções de fluxo de dados, clique na seta de expansão
.Clique em Executar tarefa. O criador de tarefas navega para o gráfico de tarefas da tarefa enviada. Pode usar o gráfico de tarefas para monitorizar o estado da tarefa.
Valide o pipeline antes do lançamento
Para pipelines com uma configuração complexa, como filtros Python e expressões SQL, pode ser útil verificar se existem erros de sintaxe na configuração do pipeline antes do lançamento. Para validar a sintaxe do pipeline, siga estes passos:
- Clique em Validar para abrir o Cloud Shell e iniciar o serviço de validação.
- Clique em Iniciar validação.
- Se for encontrado um erro durante a validação, é apresentado um ponto de exclamação vermelho.
- Corrija os erros detetados e valide as correções clicando em Validar. Se não for encontrado nenhum erro, é apresentada uma marca de verificação verde.
Executar com a CLI gcloud
Também pode executar pipelines YAML do Beam através da CLI gcloud. Para executar um pipeline do criador de tarefas com a CLI gcloud:
Clique em Guardar YAML para abrir a janela Guardar YAML.
Realize uma das seguintes ações:
- Para guardar no Cloud Storage, introduza um caminho do Cloud Storage e clique em Guardar.
- Para transferir um ficheiro local, clique em Transferir.
Execute o seguinte comando na shell ou no terminal:
gcloud dataflow yaml run my-job-builder-job --yaml-pipeline-file=YAML_FILE_PATH
Substitua
YAML_FILE_PATH
pelo caminho do seu ficheiro YAML, localmente ou no Cloud Storage.
O que se segue?
- Use a interface de monitorização de tarefas do Dataflow.
- Guardar e carregar definições de tarefas YAML no criador de tarefas.
- Saiba mais sobre o YAML do Beam.