Primeiros passos com os modelos fornecidos pelo Google

O Google fornece um conjunto de modelos de código aberto do Cloud Dataflow. Para informações gerais sobre modelos, consulte a página Visão geral. Para começar, use o modelo WordCount. Veja outros modelos fornecidos pelo Google:

Modelos de streaming: modelos para processar dados continuamente:

Modelos em lote: modelos para processamento de dados em massa:

Modelos de utilitários

WordCount

O modelo WordCount é um canal em lote que lê textos do Cloud Storage, transforma linhas de texto em palavras individuais e executa uma contagem de frequência em cada palavra. Para mais informações sobre o WordCount, consulte Exemplo de pipeline do WordCount.

Parâmetros do modelo

Parâmetro Descrição
inputFile O caminho do arquivo de entrada do Cloud Storage.
output Caminho e prefixo do arquivo de saída do Cloud Storage.

Como executar o modelo WordCount

Console

Execute usando o Console do Google Cloud.
  1. Acesse a página Criar job usando um modelo do Dataflow.
  2. Acesse Criar job usando um modelo
  3. No campo Nome do job, insira um nome exclusivo.
  4. Opcional: em Endpoint regional, selecione um valor no menu suspenso. O endpoint regional padrão é us-central1.

    Para ver uma lista de regiões em que é possível executar um job do Dataflow, consulte Locais do Dataflow.

  5. No menu suspenso Modelo do Dataflow, selecione the WordCount template.
  6. Nos campos de parâmetro fornecidos, insira os valores de parâmetro.
  7. Cliquem em Executar job.

gcloud

Execute usando a ferramenta de linha de comando gcloud.

Ao executar este modelo, é necessário indicar o caminho dele no Cloud Storage:

gs://dataflow-templates/latest/Word_Count

Execute este comando:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Word_Count \
    --parameters \
    inputFile=gs://dataflow-samples/shakespeare/kinglear.txt,\
    output=gs://BUCKET_NAME/output/my_output

Substitua:

  • JOB_NAME: um nome de job de sua escolha
  • BUCKET_NAME: o nome do bucket do Cloud Storage.

API

Execute usando a API REST.

Ao executar este modelo, é necessário indicar o caminho dele no Cloud Storage:

gs://dataflow-templates/latest/Word_Count

Para executar esse modelo com uma solicitação de API REST, envie uma solicitação HTTP POST com o ID do projeto. Essa solicitação requer uma autorização.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Word_Count
{
    "jobName": "JOB_NAME",
    "parameters": {
       "inputFile" : "gs://dataflow-samples/shakespeare/kinglear.txt",
       "output": "gs://BUCKET_NAME/output/my_output"
    },
    "environment": { "zone": "us-central1-f" }
}

Substitua:

  • PROJECT_ID: ID do projeto
  • JOB_NAME: um nome de job de sua escolha
  • BUCKET_NAME: o nome do bucket do Cloud Storage.