Guía de inicio rápido del uso de plantillas

En esta página, se muestra cómo crear una canalización de transmisión mediante una plantilla de Cloud Dataflow proporcionada por Google. Específicamente, esta página utiliza la plantilla Tema de Cloud Pub/Sub a BigQuery como ejemplo.

Antes de comenzar

  1. Accede a tu Cuenta de Google.

    Si todavía no tienes una cuenta, regístrate para obtener una nueva.

  2. En GCP Console, en la página de selección de proyecto, selecciona o crea un proyecto de GCP.

    Ir a la página de selección de proyecto

  3. Comprueba que la facturación esté habilitada en tu proyecto.

    Descubre cómo puedes habilitar la facturación

  4. Habilita lasCloud Dataflow, Compute Engine, Stackdriver Logging, Google Cloud Storage, JSON de Google Cloud Storage, BigQuery, Cloud Pub/Sub y Cloud Resource ManagerAPIAPI.

    Habilita lasAPI

  5. Crea un depósito de Cloud Storage:
    1. En GCP Console, ve a la página Navegador de Cloud Storage.

      Ir a la página Navegador de Cloud Storage

    2. Haz clic en Crear depósito.
    3. En el diálogo Crear depósito, especifica los siguientes atributos:
      • Nombre: un nombre de depósito único No incluyas información sensible en el nombre del depósito, ya que su espacio de nombres es global y tiene visibilidad pública.
      • Clase de almacenamiento predeterminada:Estándar
      • Una ubicación donde se almacenan los datos del depósito
    4. Haz clic en Crear.

Crea un conjunto de datos y una tabla de Cloud BigQuery

Crea un conjunto de datos y una tabla de BigQuery con el esquema apropiado para tu tema de Cloud Pub/Sub, mediante Google Cloud Shell o GCP Console.

En este ejemplo, el nombre del conjunto de datos es taxirides y el nombre de la tabla es realtime.

Usa Cloud Shell

Utiliza Cloud Shell para crear un conjunto de datos y una tabla.

  1. Crea tu conjunto de datos mediante la ejecución del siguiente comando:
    bq mk taxirides
    El resultado debería ser similar a este:
    Dataset “myprojectid:taxirides” successfully created
  2. Para crear la tabla, ejecuta el siguiente comando:
    bq mk \
    --time_partitioning_field timestamp \
    --schema ride_id:string,point_idx:integer,latitude:float,longitude:float,\
    timestamp:timestamp,meter_reading:float,meter_increment:float,ride_status:string,\
    passenger_count:integer -t taxirides.realtime
    El resultado debería ser similar a este:
    Table “myprojectid:taxirides.realtime” successfully created

    La tabla está particionada para disminuir los costos de consulta y mejorar el rendimiento.

Cómo utilizar Google Cloud Platform Console

Usa Google Cloud Platform Console para crear un conjunto de datos y una tabla.

  1. Ir a la IU web de BigQuery.
    IR A LA IU WEB DE BIGQUERY
  2. Haz clic en el ícono de flecha hacia abajo que está junto al nombre de tu proyecto en la navegación, luego haz clic en Crear conjunto de datos (Create dataset). Ingresa taxirides como tu ID de conjunto de datos.

    El botón Crear conjunto de datos (Create dataset) en la IU de BigQuery.

    Los ID de conjuntos de datos son exclusivos para cada proyecto. Haz clic en el ícono de signo de interrogación para ver las limitaciones de ID.

  3. Deja los valores predeterminados en el resto de la configuración y haz clic en Aceptar.
  4. En la navegación, coloca el cursor sobre el ID del conjunto de datos que acabas de crear. Haz clic en el ícono de flecha hacia abajo junto al ID y, luego, en Crear tabla nueva (Create new table).
  5. Junto a Datos de origen (Source Data), selecciona la opción Crear una tabla vacía (Create empty table).
  6. En Tabla de destino (Destination Table), selecciona taxirides y, luego, ingresa realtime.
  7. En Esquema (Schema), selecciona Editar como texto y, luego, ingresa:
    ride_id:string,point_idx:integer,latitude:float,longitude:float,timestamp:timestamp,
    meter_reading:float,meter_increment:float,ride_status:string,passenger_count:integer
  8. En Opciones (Options), selecciona la opción Día (Day) para el campo Tipo de partición (Partitioning type).
  9. En Opciones (Options), selecciona la columna de marca de tiempo (timestamp) para el selector Campo de partición (Partitioning field).
  10. Haz clic en el botón Crear tabla (Create Table).
  11. Configuración de BigQuery

Ejecuta la canalización

Ejecuta una canalización de transmisión con la plantilla Tema de Cloud Pub/Sub a BigQuery proporcionada por Google.

  1. Ve a la IU web de Cloud Dataflow.
    IR A LA IU WEB DE CLOUD DATAFLOW
  2. Haz clic en Crear trabajo a partir de una plantilla (Create job from template).
  3. Ingresa un nombre en Nombre del trabajo (Job name) para tu trabajo de Cloud Dataflow.
  4. En Plantilla de Cloud Dataflow (Cloud Dataflow template), selecciona la plantilla Tema de Cloud Pub/Sub a BigQuery (Cloud Pub/Sub Topic to BigQuery).
  5. En Tema de entrada de Cloud Pub/Sub (Cloud Pub/Sub input topic), ingresa projects/pubsub-public-data/topics/taxirides-realtime. La canalización obtiene datos entrantes del tema de entrada.
  6. En Tabla de salida de BigQuery (BigQuery output table), ingresa <myprojectid>:taxirides.realtime.
  7. En Ubicación temporal (Temporary Location), ingresa gs://<mybucket>/tmp/. Esta es una subcarpeta para almacenar archivos temporales, como el trabajo de canalización en etapas.
  8. Haz clic en el botón Ejecutar trabajo (Run job).
  9. Crear un trabajo en Cloud Dataflow
  10. Consulta los datos escritos en BigQuery. Ir a la IU web de BigQuery.
    IR A LA IU WEB DE BIGQUERY
    Puedes enviar consultas con SQL estándar. Por ejemplo, la siguiente consulta selecciona todas las filas que se han agregado en las últimas 24 horas:
    SELECT * FROM `myprojectid.taxirides.realtime`
    WHERE `timestamp` > TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 1 DAY)
    LIMIT 1000

Realiza una limpieza

Sigue estos pasos para evitar que se generen cargos en tu cuenta de GCP por los recursos que usaste en esta guía de inicio rápido:

  1. Ve a la IU web de Cloud Dataflow.
    IR A LA IU WEB DE CLOUD DATAFLOW
    1. Es posible que tengas que seleccionar tu trabajo de transmisión en la lista de trabajos de Google Cloud Platform Console.
    2. En la navegación, haz clic en Cancelar.
    3. En el cuadro de diálogo Cancelar, selecciona Cancelar o Desviar tu canalización.
  2. Ir a la IU web de BigQuery.
    IR A LA IU WEB DE BIGQUERY
    1. En la navegación, desplázate por el conjunto de datos taxirides que creaste.
    2. Haz clic en el ícono de la flecha hacia abajo junto al nombre de tu conjunto de datos en la navegación y, luego, haz clic en Borrar conjunto de datos.
    3. En el cuadro de diálogo Borrar conjunto de datos, confirma el comando de eliminación escribiendo el nombre del conjunto de datos ("taxirides") y, luego, haz clic en Aceptar.

Pasos siguientes

¿Te ha resultado útil esta página? Enviar comentarios:

Enviar comentarios sobre...

Si necesitas ayuda, visita nuestra página de asistencia.