O modelo WordCount é um pipeline em lote que lê textos do Cloud Storage, transforma linhas de texto em palavras individuais e executa uma contagem de frequência em cada palavra. Para mais informações sobre WordCount, consulte Pipeline de exemplo de WordCount.
Se o bucket do Cloud Storage estiver fora do perímetro do serviço, crie uma regra de saída que permita acesso ao bucket.
Parâmetros do modelo
Parâmetro | Descrição |
---|---|
inputFile |
O caminho do arquivo de entrada do Cloud Storage. |
outputFile |
Caminho e prefixo do arquivo de saída do Cloud Storage. |
Executar o modelo WordCount
Console
- Acesse a página Criar job usando um modelo do Dataflow. Acesse Criar job usando um modelo
- No campo Nome do job, insira um nome exclusivo.
- Opcional: em Endpoint regional, selecione um valor no menu suspenso. A região padrão é
us-central1
.Para ver uma lista de regiões em que é possível executar um job do Dataflow, consulte Locais do Dataflow.
- No menu suspenso Modelo do Dataflow, selecione the WordCount template.
- Nos campos de parâmetro fornecidos, insira os valores de parâmetro.
- Cliquem em Executar job.
gcloud
No shell ou no terminal, execute o modelo:
gcloud dataflow jobs run JOB_NAME \\
--gcs-location gs://dataflow-templates/latest/Word_Count \\
--region REGION_NAME \\
--parameters \\
inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,\\
output=gs://BUCKET_NAME/output/my_output
Substitua:
JOB_NAME
: um nome de job de sua escolhaREGION_NAME
: a região em que você quer implantar o job do Dataflow, por exemplo,us-central1
BUCKET_NAME
: o nome do bucket do Cloud Storage
API
Para executar o modelo usando a API REST, envie uma solicitação HTTP POST. Para mais informações sobre a
API e os respectivos escopos de autorização, consulte
projects.templates.launch
.
POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
"jobName": "JOB_NAME",
"parameters": {
"inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
"output": "gs://BUCKET_NAME/output/my_output"
},
"environment": { "zone": "us-central1-f" }
}
Substitua:
PROJECT_ID
: o ID do projeto do Google Cloud em que você quer executar o job do Dataflow
JOB_NAME
: um nome de job de sua escolhaLOCATION
: a região em que você quer implantar o job do Dataflow, por exemplo,us-central1
BUCKET_NAME
: o nome do bucket do Cloud Storage