Guía de inicio rápido para SQL

En esta página, se muestra cómo crear un trabajo de Dataflow con la herramienta de línea de comandos de gcloud para Dataflow SQL. El trabajo de Dataflow escribe los resultados de una consulta de Dataflow SQL a una tabla en un conjunto de datos de BigQuery.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyecto

  3. Comprueba que la facturación esté habilitada en tu proyecto.

    Descubre cómo puedes habilitar la facturación

  4. Habilita las API de Dataflow, Compute Engine, Logging, Cloud Storage, JSON de Cloud Storage, BigQuery, Pub/Sub, Resource Manager y Data Catalog .

    Habilita las API

  5. Instala y, luego, inicializa el SDK de Cloud.

Crea un conjunto de datos de BigQuery

Crea un conjunto de datos de BigQuery llamado taxirides.

bq mk taxirides

Consulta un tema de Pub/Sub

Consulta el tema público de Pub/Sub taxirides-realtime para conocer la cantidad de pasajeros que se recogen cada 10 segundos.

gcloud beta dataflow sql query \
  --job-name=dataflow-sql-quickstart \
  --region=us-central1 \
  --bigquery-dataset=taxirides \
  --bigquery-table=passengers_per_minute \
'SELECT
  TUMBLE_START("INTERVAL 10 SECOND") as period_start,
  SUM(passenger_count) AS pickup_count,
FROM pubsub.topic.`pubsub-public-data`.`taxirides-realtime`
WHERE
  ride_status = "pickup"
GROUP BY
  TUMBLE(event_timestamp, "INTERVAL 10 SECOND")'

Observa los resultados de la consulta

  1. Confirma que el trabajo de Dataflow esté en ejecución.

    1. Ve a la interfaz de supervisión de Dataflow.

      Ir a la interfaz de supervisión de Dataflow

    2. En la lista de trabajos, haz clic en dataflow-sql-quickstart.

    3. En el panel Información del trabajo, confirma que el campo Estado del trabajo esté configurado como En ejecución.

      Inicia el trabajo puede tardar varios minutos. El Estado del trabajo se establece en En cola hasta que se inicia el trabajo.

    4. En la pestaña Grafo del trabajo, confirma que cada paso se ejecute durante al menos 1 segundo.

      El grafo de trabajo de Dataflow con dos pasos compuestos. El primer paso se ejecuta durante 6 minutos y 45 segundos, y el segundo, durante 1 seg.

      Después de que se inicia el trabajo, los pasos pueden tardar varios minutos en comenzar a ejecutarse.

  2. Muestra los intervalos más activos de la tabla passengers_per_minute.

    bq query \
    'SELECT *
    FROM taxirides.passengers_per_minute
    ORDER BY pickup_count DESC
    LIMIT 5'
    

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta guía de inicio rápido.

  1. Borra el conjunto de datos taxirides

    1. Ejecuta el comando bq rm:

      bq rm taxirides
      
    2. Para confirmar, ingresa y.

  2. Cancela el trabajo de Dataflow.

    1. Ve a la interfaz de supervisión de Dataflow.

      Ir a la interfaz de supervisión de Dataflow

    2. En la lista de trabajos, haz clic en dataflow-sql-quickstart.

    3. Haz clic en Detener > Cancelar > Detener trabajo.

¿Qué sigue?