Primeiros passos com os modelos fornecidos pelo Google

O Google fornece um conjunto de modelos de código aberto do Cloud Dataflow. Para informações gerais sobre modelos, consulte a página Visão geral. Para começar, use o modelo WordCount. Veja outros modelos fornecidos pelo Google:

Modelos de streaming: modelos para processar dados continuamente:

Modelos em lote: modelos para processamento de dados em massa:

Modelos de utilitários

WordCount

O modelo WordCount é um canal em lote que lê textos do Cloud Storage, transforma linhas de texto em palavras individuais e executa uma contagem de frequência em cada palavra. Para mais informações sobre o WordCount, consulte Exemplo de pipeline do WordCount.

Parâmetros do modelo

Parâmetro Descrição
inputFile O caminho do arquivo de entrada do Cloud Storage.
output Caminho e prefixo do arquivo de saída do Cloud Storage.

Como executar o modelo WordCount

Console

Execute usando o Console do Google Cloud.
  1. Acesse a página do Dataflow no Console do Cloud.
  2. Acessar a página do Dataflow
  3. Clique em Criar job usando um modelo.
  4. Criar job usando um botão de modelo no Console do Cloud Platform
  5. Selecione the WordCount template no menu suspenso Modelo do Dataflow.
  6. Digite o nome de um job no campo Nome do job.
  7. Digite os valores de parâmetro nos campos fornecidos.
  8. Clique em Executar job.

gcloud

Execute usando a ferramenta de linha de comando gcloud.

Ao executar este modelo, é necessário indicar o caminho dele no Cloud Storage:

gs://dataflow-templates/latest/Word_Count

Execute este comando:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Word_Count \
    --parameters \
    inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,\
    output=gs://BUCKET_NAME/output/my_output

Substitua:

  • JOB_NAME: um nome de job de sua escolha
  • BUCKET_NAME: o nome do bucket do Cloud Storage.

API

Execute usando a API REST.

Ao executar este modelo, é necessário indicar o caminho dele no Cloud Storage:

gs://dataflow-templates/latest/Word_Count

Para executar esse modelo com uma solicitação de API REST, envie uma solicitação HTTP POST com o ID do projeto. Essa solicitação requer uma autorização.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
    "jobName": "JOB_NAME",
    "parameters": {
       "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
       "output": "gs://BUCKET_NAME/output/my_output"
    },
    "environment": { "zone": "us-central1-f" }
}

Substitua:

  • PROJECT_ID: ID do projeto
  • JOB_NAME: um nome de job de sua escolha
  • BUCKET_NAME: o nome do bucket do Cloud Storage.