Guia de início rápido sobre como usar o SQL

Nesta página, mostramos como criar um job do Dataflow usando a ferramenta de linha de comando gcloud para o SQL do Dataflow. O job do Dataflow grava os resultados de uma consulta SQL do Dataflow em uma tabela de um conjunto de dados do BigQuery.

Antes de começar

  1. Faça login na sua conta do Google.

    Se você ainda não tiver uma, inscreva-se.

  2. No Console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.

    Acessar a página do seletor de projetos

  3. Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como confirmar se o faturamento está ativado para o projeto.

  4. Ative as APIs Dataflow, Compute Engine, Logging, Cloud Storage, Cloud Storage JSON, BigQuery, Pub/Sub, Resource Manager e Data Catalog .

    Ative as APIs

  5. Instale e inicie o SDK do Cloud.

Crie um conjunto de dados do BigQuery

Crie um conjunto de dados do BigQuery chamado taxirides.

bq mk taxirides

Consultar um tópico do Pub/Sub

Consulte o tópico público do Pub/Sub taxirides-realtime para ver o número de passageiros retirados a cada 10 segundos.

gcloud beta dataflow sql query \
  --job-name=dataflow-sql-quickstart \
  --region=us-central1 \
  --bigquery-dataset=taxirides \
  --bigquery-table=passengers_per_minute \
'SELECT
  TUMBLE_START("INTERVAL 10 SECOND") as period_start,
  SUM(passenger_count) AS pickup_count,
FROM pubsub.topic.`pubsub-public-data`.`taxirides-realtime`
WHERE
  ride_status = "pickup"
GROUP BY
  TUMBLE(event_timestamp, "INTERVAL 10 SECOND")'

Ver os resultados da consulta

  1. Certifique-se de que o job do Dataflow está em execução.

    1. Acesse a interface de monitoramento do Dataflow.

      Acessar a interface de monitoramento do Dataflow

    2. Na lista de jobs, clique em dataflow-sql-quickstart.

    3. No painel Informações do job, verifique se o campo Status do job está definido como Em execução.

      Iniciar o job pode levar vários minutos. O Status do job é definido como Na fila até que ele seja iniciado.

    4. Na guia Gráfico de jobs, confirme se todas as etapas estão executando por pelo menos 1 seg.

      O gráfico de jobs do Dataflow com duas etapas compostas. A primeira etapa é executada por 6 minutos e 45 segundos e a segunda é executada por 1 segundo.

      Após o início do job, as etapas podem levar vários minutos para começar a ser executadas.

  2. Retorne os intervalos mais ocupados da tabela passengers_per_minute.

    bq query \
    'SELECT *
    FROM taxirides.passengers_per_minute
    ORDER BY pickup_count DESC
    LIMIT 5'
    

Limpar

Para evitar cobranças na sua conta do Google Cloud pelos recursos usados neste guia de início rápido, siga estas etapas:

  1. Exclua o conjunto de dados taxirides.

    1. Execute o comando bq rm:

      bq rm taxirides
      
    2. Para confirmar, digite y.

  2. Cancele o job do Dataflow.

    1. Acesse a interface de monitoramento do Dataflow.

      Acessar a interface de monitoramento do Dataflow

    2. Na lista de jobs, clique em dataflow-sql-quickstart.

    3. Clique em Interromper, Cancelar e Interromper job.

A seguir