Guía de inicio rápido del uso de plantillas

En esta página, se muestra cómo crear una canalización de transmisión mediante una plantilla de Cloud Dataflow proporcionada por Google. Aquí se utiliza específicamente la plantilla Cloud Pub/Sub a BigQuery a modo de ejemplo.

Antes de comenzar

  1. Sign in to your Google Account.

    If you don't already have one, sign up for a new account.

  2. Select or create a GCP project.

    Go to the Project selector page

  3. Asegúrate de tener habilitada la facturación para tu proyecto.

    Aprende a habilitar la facturación

  4. Habilita las Cloud Dataflow, Compute Engine, Stackdriver Logging, Google Cloud Storage, Google Cloud Storage JSON, BigQuery, Cloud Pub/Sub y Cloud Resource Manager API necesarias.

    Habilita las API

  5. Crea un depósito de Cloud Storage:
    1. In the GCP Console, go to the Cloud Storage Browser page.

      Go to the Cloud Storage Browser page

    2. Click Create bucket.
    3. In the Create bucket dialog, specify the following attributes:
      • Name: A unique bucket name. Do not include sensitive information in the bucket name, as the bucket namespace is global and publicly visible.
      • Storage class: Multi-Regional
      • A location where bucket data will be stored.
    4. Click Create.

Crea un conjunto de datos y una tabla de Cloud BigQuery

Crea un conjunto de datos y una tabla de BigQuery con el esquema apropiado para tu tema de Cloud Pub/Sub, mediante Google Cloud Shell o GCP Console.

En este ejemplo, el nombre del conjunto de datos es taxirides y el nombre de la tabla es realtime.

Cómo utilizar Cloud Shell

Utiliza Cloud Shell para crear un conjunto de datos y una tabla.

  1. Crea tu conjunto de datos mediante la ejecución del siguiente comando:
    bq mk taxirides
    El resultado debería ser similar a este:
    Dataset “myprojectid:taxirides” successfully created
  2. Para crear la tabla, ejecuta el siguiente comando:
    bq mk \
    --time_partitioning_field timestamp \
    --schema ride_id:string,point_idx:integer,latitude:float,longitude:float,\
    timestamp:timestamp,meter_reading:float,meter_increment:float,ride_status:string,\
    passenger_count:integer -t taxirides.realtime
    El resultado debería ser similar a este:
    Table “myprojectid:taxirides.realtime” successfully created

    La tabla está particionada para disminuir los costos de consulta y mejorar el rendimiento.

Cómo utilizar Google Cloud Platform Console

Usa Google Cloud Platform Console para crear un conjunto de datos y una tabla.

  1. Ve a la IU web de BigQuery.
    IR A LA IU WEB DE BIGQUERY
  2. Haz clic en el ícono de flecha hacia abajo que está junto al nombre de tu proyecto en la navegación; luego, haz clic en Crear un conjunto de datos nuevo. Ingresa taxirides como el ID de tu conjunto de datos.

    Los ID de conjuntos de datos son exclusivos para cada proyecto. Haz clic en el ícono de signo de interrogación para ver las limitaciones de ID.

  3. Deja los valores predeterminados en el resto de la configuración y haz clic en Aceptar.
  4. En la navegación, desplázate sobre el ID del conjunto de datos que acabas de crear. Haz clic en el ícono de flecha hacia abajo junto al ID y, luego, en Crear tabla nueva.
  5. Junto a Source Data (Datos de origen), selecciona la opción Create empty table (Crear una tabla vacía).
  6. En Destination Table (Tabla de destino), selecciona taxirides y, luego, ingresa realtime.
  7. En Schema (Esquema), selecciona Edit as Text (Editar como texto) y, a continuación, ingresa lo siguiente:
    ride_id:string,point_idx:integer,latitude:float,longitude:float,timestamp:timestamp,
    meter_reading:float,meter_increment:float,ride_status:string,passenger_count:integer
  8. En Options (Opciones), selecciona la opción Day (Día) para el campo Partitioning type (Tipo de partición).
  9. En Options (Opciones), selecciona la columna de timestamp (marca de tiempo) para el selector Partitioning field (Campo de partición).
  10. Haga clic en el botón Create Table (Crear tabla).
  11. Configuración de BigQuery

Ejecuta la canalización

Ejecuta una canalización de transmisión mediante la plantilla Cloud Pub/Sub a BigQuery que proporciona Google.

  1. Ve a la IU web de Cloud Dataflow.
    IR A LA IU WEB DE CLOUD DATAFLOW
  2. Ingresa un nombre en Job name (Nombre del trabajo) para tu trabajo de Cloud Dataflow.
  3. En Cloud Dataflow template (Plantilla de Cloud Dataflow), selecciona la plantilla Cloud Pub/Sub to BigQuery (Cloud Pub/Sub a BigQuery).
  4. En Cloud Pub/Sub input topic (Tema de salida de Cloud Pub/Sub), ingresa projects/pubsub-public-data/topics/taxirides-realtime.
  5. En BigQuery output table (Tabla de salida de BigQuery), ingresa <myprojectid>:taxirides.realtime.
  6. En Temporary Location (Ubicación temporal), ingresa gs://<mybucket>/tmp/.
  7. Haz clic en el botón Run job (Ejecutar trabajo).
  8. Crear un trabajo en Cloud Dataflow
  9. Consulta los datos escritos en BigQuery. Ve a la IU web de BigQuery.
    IR A LA IU WEB DE BIGQUERY
    Puedes enviar consultas con SQL estándar. Por ejemplo, en la siguiente consulta, se seleccionan todas las filas que se agregaron en las últimas 24 horas:
    SELECT * FROM `myprojectid.taxirides.realtime`
    WHERE `timestamp` > TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 1 DAY)
    LIMIT 1000

Limpiar

Para evitar que se apliquen cargos a tu cuenta de GCP por los recursos que se utilizan en esta guía de inicio rápido, sigue estos pasos:

  1. Ve a la IU web de Cloud Dataflow.
    IR A LA IU WEB DE CLOUD DATAFLOW
    1. Es posible que tengas que seleccionar tu trabajo de transmisión en la lista de trabajos de Google Cloud Platform Console.
    2. En la navegación, haz clic en Cancelar.
    3. En el cuadro de diálogo Cancelar, elige Cancelar o Desviar la canalización.
  2. Ve a la IU web de BigQuery.
    IR A LA IU WEB DE BIGQUERY
    1. En la navegación, desplázate por el conjunto de datos taxirides que creaste.
    2. Haz clic en el ícono de la flecha hacia abajo junto al nombre de tu conjunto de datos en la navegación y, luego, haz clic en Borrar conjunto de datos.
    3. En el cuadro de diálogo Borrar conjunto de datos, confirma el comando de eliminación escribiendo el nombre del conjunto de datos ("taxirides") y, luego, haz clic en Aceptar.

¿Qué sigue?

¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

¿Necesitas ayuda? Visita nuestra página de asistencia.