Guia de início rápido usando modelos

Nesta página, você aprenderá a criar um pipeline de streaming usando como exemplo um modelo do Dataflow fornecido pelo Google. Mais especificamente, o modelo do Pub/Sub para BigQuery é usado como exemplo.

Antes de começar

  1. Faça login na sua conta do Google.

    Se você ainda não tiver uma, inscreva-se.

  2. No Console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar a página do seletor de projetos

  3. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como confirmar se o faturamento está ativado para o projeto.

  4. Ative as APIs Cloud Dataflow, Compute Engine, Stackdriver Logging, Cloud Storage, Cloud Storage JSON, BigQuery, Cloud Pub/Sub e Cloud Resource Manager .

    Ative as APIs

  5. Crie um bucket do Cloud Storage:
    1. No Console do Cloud, acesse a página Navegador do Cloud Storage.

      Acessar a página "Navegador do Cloud Storage"

    2. Clique em Criar bucket.
    3. Na caixa de diálogo Criar bucket, especifique os seguintes atributos.
      • Nome: um nome de bucket exclusivo. Não inclua informações confidenciais no nome do bucket: o namespace é global e visível ao público.
      • Classe de armazenamento padrão: Standard
      • Um local onde os dados do bucket serão armazenados.
    4. Clique em Criar.

Crie um tópico

  1. Acesse a página de tópicos do Pub/Sub na IU da Web.
    Acesse a página de tópicos do Pub/Sub
  2. Clique em Criar tópico.

    Captura de tela que mostra a caixa de diálogo "Criar um tópico" no console

  3. No campo ID do tópico, forneça um nome de tópico exclusivo, por exemplo, taxirides-realtime.
  4. Clique em Save.

Criar um conjunto de dados e uma tabela do BigQuery

Crie um conjunto de dados do BigQuery e uma tabela com o esquema apropriado para seu tópico Pub/Sub, usando o Cloud Shell ou o Console do Cloud.

Neste exemplo, o nome do conjunto de dados é taxirides e o nome da tabela é realtime.

Como usar o Cloud Shell

Use o Cloud Shell para criar um conjunto de dados e uma tabela.

  1. Crie o conjunto de dados executando o comando:
    bq mk taxirides
    A saída será semelhante a esta:
    Dataset “myprojectid:taxirides” successfully created
  2. Crie a tabela executando o comando:
    bq mk \
    --time_partitioning_field timestamp \
    --schema ride_id:string,point_idx:integer,latitude:float,longitude:float,\
    timestamp:timestamp,meter_reading:float,meter_increment:float,ride_status:string,\
    passenger_count:integer -t taxirides.realtime
    A saída será semelhante a esta:
    Table “myprojectid:taxirides.realtime” successfully created

    A tabela é particionada para reduzir os custos de consulta e melhorar o desempenho.

Como usar o Console do Google Cloud Platform

Use o Console do Google Cloud para criar um conjunto de dados e uma tabela.

  1. Acesse a IU da Web do BigQuery.
    ACESSAR A IU DA WEB DO BIGQUERY
  2. Clique no ícone de seta para baixo ao lado do nome do projeto e selecione Criar conjunto de dados. Insira taxirides como o ID do conjunto de dados.

    O botão de criação do conjunto de dados na IU do BigQuery.

    Os IDs de conjunto de dados são exclusivos por projeto. Clique no ícone de ponto de interrogação para ver as limitações do código.

  3. Deixe as outras configurações padrão como estão e clique em OK.
  4. Na navegação, mantenha o ponteiro do mouse sobre o ID do conjunto de dados que você acabou de criar. Clique no ícone de seta para baixo ao lado do código e depois clique em Criar nova tabela.
  5. Ao lado de Dados de origem, selecione a opção Criar tabela vazia.
  6. Em Tabela de destino, selecione taxirides e digite realtime.
  7. Em Esquema, selecione Editar como texto e insira:
    ride_id:string,point_idx:integer,latitude:float,longitude:float,timestamp:timestamp,
    meter_reading:float,meter_increment:float,ride_status:string,passenger_count:integer
  8. Em Opções, selecione a opção Dia no campo Tipo de particionamento.
  9. Em Opções, selecione a coluna de carimbo de data/hora no seletor do campo Tipo de particionamento.
  10. Clique no botão Criar tabela.
  11. Configuração do BigQuery

Executar o canal

Execute um pipeline de streaming usando o modelo de tópico do Pub/Sub para BigQuery fornecido pelo Google.

  1. Acesse a IU da Web do Dataflow.
    ACESSAR A IU DA WEB DO CLOUD DATAFLOW
  2. Clique em Criar job usando um modelo.
  3. Digite um Nome do job para o job do Dataflow.
  4. Em modelo do Dataflow, selecione o modelo tópico do Pub/Sub para BigQuery.
  5. Em Tópico de entrada do Pub/Sub, digite projects/pubsub-public-data/topics/taxirides-realtime. O pipeline recebe dados de entrada a partir do tópico de entrada.
  6. Em Tabela de saída do BigQuery, digite myprojectid:taxirides.realtime.
  7. Em Local temporário, digite gs://mybucket/temp/. Essa subpasta serve para armazenar arquivos temporários, como o job preparado do pipeline.
  8. Clique no botão Executar job.
  9. Job de criação do Cloud Dataflow
  10. Veja os dados gravados no BigQuery. Acesse a IU da Web do BigQuery.
    ACESSAR A IU DA WEB DO BIGQUERY
    É possível enviar consultas usando o SQL padrão. Por exemplo, a consulta a seguir seleciona todas as linhas que foram adicionadas nas últimas 24 horas:
    SELECT * FROM `myprojectid.taxirides.realtime`
    WHERE `timestamp` > TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 1 DAY)
    LIMIT 1000

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados neste guia de início rápido, siga estas etapas:

  1. Acesse a IU da Web do Dataflow.
    ACESSAR A IU DA WEB DO CLOUD DATAFLOW
    1. Talvez seja necessário selecionar o job de streaming na lista de jobs no Console do Google Cloud.
    2. No painel de navegação, clique em Cancelar.
    3. Na caixa de diálogo Cancelar, selecione Cancelar ou Drenar o pipeline.
  2. Acesse a IU da Web do BigQuery.
    ACESSAR A IU DA WEB DO BIGQUERY
    1. No painel de navegação, passe o cursor sobre o conjunto de dados taxirides criado.
    2. Clique no ícone da seta para baixo ao lado do nome do conjunto de dados na navegação e depois clique em Excluir conjunto de dados.
    3. Na caixa de diálogo Excluir conjunto de dados, confirme a exclusão digitando o nome do conjunto de dados ("taxirides") e clicando em OK.

Próximas etapas