Execute um modelo de exemplo

O modelo WordCount é um pipeline em lote que lê texto do Cloud Storage, tokeniza as linhas de texto em palavras individuais e faz uma contagem da frequência de cada uma das palavras. Para mais informações sobre o WordCount, consulte o artigo Exemplo de pipeline WordCount.

Se o contentor do Cloud Storage estiver fora do seu perímetro de serviço, crie uma regra de saída que permita o acesso ao contentor.

Parâmetros de modelos

Parâmetro Descrição
inputFile O caminho do ficheiro de entrada do Cloud Storage.
outputFile O caminho e o prefixo do ficheiro de saída do Cloud Storage.

Execute o modelo WordCount

Consola

  1. Aceda à página do fluxo de dados Criar tarefa a partir de um modelo.
  2. Aceda a Criar tarefa a partir de modelo
  3. No campo Nome da tarefa, introduza um nome exclusivo para a tarefa.
  4. Opcional: para Ponto final regional, selecione um valor no menu pendente. A região predefinida é us-central1.

    Para ver uma lista das regiões onde pode executar uma tarefa do Dataflow, consulte as localizações do Dataflow.

  5. No menu pendente Modelo do fluxo de dados, selecione the WordCount template.
  6. Nos campos de parâmetros fornecidos, introduza os valores dos parâmetros.
  7. Clique em Executar tarefa.

gcloud

Na shell ou no terminal, execute o modelo:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Word_Count \
    --region REGION_NAME \
    --parameters \
    inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,output=gs://BUCKET_NAME/output/my_output

Substitua o seguinte:

  • JOB_NAME: um nome de tarefa exclusivo à sua escolha

  • REGION_NAME: a região onde quer implementar a tarefa do Dataflow, por exemplo, us-central1

  • BUCKET_NAME: o nome do seu contentor do Cloud Storage

API

Para executar o modelo através da API REST, envie um pedido HTTP POST. Para mais informações sobre a API e os respetivos âmbitos de autorização, consulte projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
    "jobName": "JOB_NAME",
    "parameters": {
       "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
       "output": "gs://BUCKET_NAME/output/my_output"
    },
    "environment": { "zone": "us-central1-f" }
}

Substitua o seguinte:

  • PROJECT_ID: o ID do projeto onde quer executar a tarefa do Dataflow Google Cloud
  • JOB_NAME: um nome de tarefa exclusivo à sua escolha

  • LOCATION: a região onde quer implementar a tarefa do Dataflow, por exemplo, us-central1

  • BUCKET_NAME: o nome do seu contentor do Cloud Storage