Guía de inicio rápido del uso de plantillas

En esta página, se muestra cómo crear una canalización de transmisión con una plantilla de Dataflow proporcionada por Google. Específicamente, esta página utiliza la plantilla Tema de Pub/Sub a BigQuery como ejemplo.

Antes de comenzar

  1. Accede a tu Cuenta de Google.

    Si todavía no tienes una cuenta, regístrate para obtener una nueva.

  2. En la página de selección de proyectos de Cloud Console, selecciona o crea un proyecto de Cloud.

    Ir a la página Selector de proyectos

  3. Comprueba que la facturación esté habilitada en tu proyecto.

    Descubre cómo puedes habilitar la facturación

  4. Habilita las API de Cloud Dataflow, Compute Engine, Stackdriver Logging, Cloud Storage, JSON de Cloud Storage, BigQuery, Cloud Pub/Sub y Cloud Resource Manager .

    Habilita las API

  5. Crea un depósito de Cloud Storage:
    1. En Cloud Console ve a la página Navegador de Cloud Storage.

      Ir a la página Navegador de Cloud Storage

    2. Haz clic en Crear depósito.
    3. En el diálogo Crear depósito, especifica los siguientes atributos:
      • Nombre: Un nombre de depósito único. No incluyas información sensible en el nombre del depósito, ya que el espacio de nombres del depósito es global y tiene visibilidad pública.
      • Clase de almacenamiento predeterminada: Estándar
      • Una ubicación donde se almacenan los datos del depósito.
    4. Haz clic en Crear.

Crea un conjunto de datos y una tabla de BigQuery

Crea un conjunto de datos y una tabla de BigQuery con el esquema adecuado para tu tema de Pub/Sub mediante Cloud Shell o Cloud Console.

En este ejemplo, el nombre del conjunto de datos es taxirides y el nombre de la tabla es realtime.

Con Cloud Shell

Utiliza Cloud Shell para crear un conjunto de datos y una tabla.

  1. Crea tu conjunto de datos mediante la ejecución del siguiente comando:
    bq mk taxirides
    El resultado debería ser similar a este:
    Dataset “myprojectid:taxirides” successfully created
  2. Para crear la tabla, ejecuta el siguiente comando:
    bq mk \
    --time_partitioning_field timestamp \
    --schema ride_id:string,point_idx:integer,latitude:float,longitude:float,\
    timestamp:timestamp,meter_reading:float,meter_increment:float,ride_status:string,\
    passenger_count:integer -t taxirides.realtime
    El resultado debería ser similar a este:
    Table “myprojectid:taxirides.realtime” successfully created

    La tabla está particionada para reducir los costos de consulta y mejorar el rendimiento.

Con Google Cloud Platform Console

Usa Google Cloud Console para crear un conjunto de datos y una tabla.

  1. Ir a la IU web de BigQuery.
    IR A LA IU WEB DE BIGQUERY
  2. Haz clic en el ícono de flecha hacia abajo que está junto al nombre de tu proyecto en la navegación, luego haz clic en Crear conjunto de datos (Create dataset). Ingresa taxirides como tu ID de conjunto de datos.

    El botó Create dataset (Crear conjunto de datos) en la IU de BigQuery.

    Los ID de conjuntos de datos son exclusivos para cada proyecto. Haz clic en el ícono de signo de interrogación para ver las limitaciones de ID.

  3. Deja el resto de la configuración predeterminada como está y haz clic en Aceptar.
  4. En la navegación, mantén el puntero sobre el ID del conjunto de datos que acabas de crear. Haz clic en el ícono de flecha hacia abajo junto al ID y selecciona Crear tabla nueva.
  5. Junto a Source Data (Datos de origen), selecciona la opción Create empty table (Crear una tabla vacía).
  6. En Tabla de destino (Destination Table), selecciona taxirides y, luego, ingresa realtime.
  7. En Esquema (Schema), selecciona Editar como texto y, luego, ingresa:
    ride_id:string,point_idx:integer,latitude:float,longitude:float,timestamp:timestamp,
    meter_reading:float,meter_increment:float,ride_status:string,passenger_count:integer
  8. En Opciones (Options), selecciona la opción Día (Day) para el campo Tipo de partición (Partitioning type).
  9. En Opciones (Options), selecciona la columna de marca de tiempo (timestamp) para el selector Campo de partición (Partitioning field).
  10. Haz clic en el botón Crear tabla (Create Table).
  11. Configuración de BigQuery

Ejecuta la canalización

Ejecuta una canalización de transmisión con la plantilla Tema de Pub/Sub a BigQuery proporcionada por Google.

  1. Ve a la IU web de Dataflow.
    IR A LA IU WEB DE CLOUD DATAFLOW
  2. Haz clic en Create job from template (Crear un trabajo a partir de una plantilla).
  3. En Job name (Nombre del trabajo), ingresa un nombre para el trabajo de Dataflow.
  4. En Dataflow template (Plantilla de Dataflow), selecciona la plantilla Pub/Sub Topic to BigQuery (Tema de Pub/Sub a BigQuery).
  5. En Pub/Sub input topic (Tema de entrada de Pub/Sub), ingresa projects/pubsub-public-data/topics/taxirides-realtime. La canalización obtiene datos entrantes del tema de entrada.
  6. En Tabla de salida de BigQuery (BigQuery output table), ingresa <myprojectid>:taxirides.realtime.
  7. En Ubicación temporal (Temporary Location), ingresa gs://<mybucket>/tmp/. Esta es una subcarpeta para almacenar archivos temporales, como el trabajo de canalización en etapas.
  8. Haz clic en el botón Ejecutar trabajo (Run job).
  9. Creación de un trabajo en Cloud Dataflow
  10. Consulta los datos escritos en BigQuery. Ir a la IU web de BigQuery.
    IR A LA IU WEB DE BIGQUERY
    Puedes enviar consultas con SQL estándar. Por ejemplo, la siguiente consulta selecciona todas las filas que se agregaron en las últimas 24 horas:
    SELECT * FROM `myprojectid.taxirides.realtime`
    WHERE `timestamp` > TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 1 DAY)
    LIMIT 1000

Limpieza

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta guía de inicio rápido.

  1. Ve a la IU web de Dataflow.
    IR A LA IU WEB DE CLOUD DATAFLOW
    1. Es posible que debas seleccionar tu trabajo de transmisión en la lista de trabajos de Google Cloud Console.
    2. En la navegación, haz clic en Cancelar.
    3. En el cuadro de diálogo Cancelar, selecciona Cancelar o Desviar tu canalización.
  2. Ir a la IU web de BigQuery.
    IR A LA IU WEB DE BIGQUERY
    1. En la navegación, desplázate por el conjunto de datos taxirides que creaste.
    2. Haz clic en el ícono de la flecha hacia abajo junto al nombre de tu conjunto de datos en la navegación y, luego, haz clic en Borrar conjunto de datos.
    3. En el cuadro de diálogo Borrar conjunto de datos, confirma el comando de eliminación escribiendo el nombre del conjunto de datos ("taxirides") y, luego, haz clic en Aceptar.

Próximos pasos