Guía de inicio rápido para las plantillas

En esta guía de inicio rápido, se muestra cómo crear una canalización de transmisión con una plantilla de Dataflow proporcionada por Google. Específicamente, esta página utiliza la plantilla Tema de Pub/Sub a BigQuery como ejemplo.

La plantilla de tema de Pub/Sub a BigQuery es una canalización de transmisión que lee mensajes con formato JSON de un tema de Pub/Sub y los escribe en una tabla de BigQuery.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Cloud. Descubre cómo confirmar que tienes habilitada la facturación en un proyecto.

  4. Habilita las API de Dataflow, Compute Engine, Cloud Logging, Cloud Storage, JSON de Google Cloud Storage, BigQuery, Cloud Pub/Sub y Cloud Resource Manager .

    Habilita las API

  5. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyectos

  6. Asegúrate de que la facturación esté habilitada para tu proyecto de Cloud. Descubre cómo confirmar que tienes habilitada la facturación en un proyecto.

  7. Habilita las API de Dataflow, Compute Engine, Cloud Logging, Cloud Storage, JSON de Google Cloud Storage, BigQuery, Cloud Pub/Sub y Cloud Resource Manager .

    Habilita las API

  8. Crea un bucket de Cloud Storage:
    1. En Cloud Console, ve a la página Navegador de Cloud Storage.

      Ir al navegador

    2. Haz clic en Crear bucket.
    3. En la página Crear un bucket, ingresa la información de tu bucket. Para ir al siguiente paso, haz clic en Continuar.
      • Para Asignar un nombre a tu depósito, ingresa un nombre de bucket único. No incluyas información sensible en el nombre del bucket porque su espacio de nombres es global y públicamente visible.
      • Para Elige dónde almacenar tus datos, sigue estos pasos:
        • Seleccione una opción de Tipo de ubicación.
        • Selecciona una opción de Ubicación.
      • Para Elegir una clase de almacenamiento predeterminado para tus datos, selecciona lo siguiente:Estándar.
      • En Elegir cómo controlar el acceso a los objetos, selecciona una opción Control de acceso.
      • En Configuración avanzada (opcional), especifica un método de encriptación, una política de retención o etiquetas de depósito.
    4. Haga clic en Crear.
  9. Copia lo siguiente, ya que los necesitarás en una sección posterior:
    • : Es el nombre del bucket de Cloud Storage.
    • Tu ID del proyecto de Google Cloud. Para encontrar este ID, consulta Identifica proyectos.

Crea un conjunto de datos y una tabla de BigQuery

Crea un conjunto de datos de BigQuery y una tabla de BigQuery con el esquema adecuado para tu tema de Pub/Sub con Cloud Console.

En este ejemplo, el nombre del conjunto de datos es taxirides y el nombre de la tabla es realtime. Para crear este conjunto de datos y esta tabla, sigue estos pasos:

  1. En Cloud Console, ve a la página BigQuery.
    IR A BigQuery
  2. En el panel Explorador junto al proyecto en el que deseas crear el conjunto de datos, haz clic en Ver acciones y, luego, haz clic en Abrir.
  3. En el panel de detalles, haz clic en Crear conjunto de datos.
  4. En el panel Crear conjunto de datos, sigue estos pasos:
    1. En ID del conjunto de datos, ingresa taxirides.
    2. En Ubicación de los datos, elija Estados Unidos (EE.UU.). Los conjuntos de datos públicos se almacenan en la ubicación multirregión de US. Para que sea más simple, coloque su conjunto de datos en la misma ubicación.
  5. Deja los valores predeterminados para el resto de la configuración y haz clic en Crear conjunto de datos.
  6. En el panel Explorador, expande tu proyecto.
  7. Junto al conjunto de datos taxirides, haz clic en Ver acciones y, luego, en Abrir.
  8. En el panel de detalles, haz clic en Crear tabla (Create table).
  9. En el panel Crear tabla, sigue estos pasos:
    1. En la sección Fuente, en Crear tabla desde, selecciona Tabla vacía.
    2. En la sección Destino (Destination), para Nombre de tabla (Table name), ingresa realtime.
    3. En la sección Esquema (Schema), haz clic en el botón de activación Editar como texto y pega la siguiente definición de esquema en el cuadro.
      ride_id:string,point_idx:integer,latitude:float,longitude:float,timestamp:timestamp,
      meter_reading:float,meter_increment:float,ride_status:string,passenger_count:integer
    4. En la sección Configuración del clúster y particiones, en Partición, selecciona el campo marca de tiempo.
  10. Deja los valores predeterminados para el resto de la configuración y haz clic en Crear tabla.

Ejecuta la canalización

Ejecuta una canalización de transmisión con la plantilla Tema de Pub/Sub a BigQuery proporcionada por Google. La canalización obtiene datos entrantes del tema de entrada.

  1. En Cloud Console, ve a la página de Jobs.
    IR A TRABAJOS
  2. Haz clic en Create job from template (Crear un trabajo a partir de una plantilla).
  3. En Job name (Nombre del trabajo), ingresa un nombre para el trabajo de Dataflow.
  4. En Plantilla de Dataflow, seleccione la plantilla Pub/Sub Topic to BigQuery.
  5. En Ingresa tema de Pub/Sub, ingresa lo siguiente:
    projects/pubsub-public-data/topics/taxirides-realtime

    Este tema de Pub/Sub disponible al público se basa en el conjunto de datos abierto de la Comisión de Taxis y Limusinas de la Ciudad de Nueva York. El siguiente es un mensaje de muestra de este tema, en formato JSON:

    {
      "ride_id": "19c41fc4-e362-4be5-9d06-435a7dc9ba8e",
      "point_idx": 217,
      "latitude": 40.75399,
      "longitude": -73.96302,
      "timestamp": "2021-03-08T02:29:09.66644-05:00",
      "meter_reading": 6.293821,
      "meter_increment": 0.029003782,
      "ride_status": "enroute",
      "passenger_count": 1
    }
  6. En BigQuery output table, ingrese lo siguiente:
    PROJECT_ID:taxirides.realtime

    Reemplaza PROJECT_ID por el ID del proyecto en el que creaste tu conjunto de datos de BigQuery.

  7. En Ubicación temporal (Temporary location), ingresa lo siguiente:
    gs://BUCKET_NAME/temp/

    Reemplaza BUCKET_NAME por el nombre de tu bucket de Cloud Storage. La carpeta temp almacena archivos temporales, como el trabajo de canalización en etapa de pruebas.

  8. Haga clic en Ejecutar trabajo.

Ve los resultados

Para ver los datos escritos en tu tabla realtime, sigue estos pasos:

  1. En Cloud Console, ve a la página BigQuery.
    IR A BigQuery
  2. En el Editor de consultas, ejecute la siguiente consulta:
    SELECT * FROM `PROJECT_ID.taxirides.realtime`
    WHERE `timestamp` > TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 1 DAY)
    LIMIT 1000

    Reemplaza PROJECT_ID por el ID del proyecto en el que creaste tu conjunto de datos de BigQuery. Los datos pueden tardar hasta un minuto en comenzar a aparecer en la tabla.

    La consulta muestra las filas que se agregaron a su tabla en las últimas 24 horas. También puedes ejecutar consultas con SQL estándar.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.

Borra el proyecto

La manera más fácil de eliminar la facturación es borrar el proyecto de Google Cloud que creaste para la guía de inicio rápido.

  1. En Cloud Console, ve a la página Administrar recursos.

    Ir a Administrar recursos

  2. En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
  3. En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.

Borra los recursos individuales

Si deseas conservar el proyecto Google Cloud que usaste en esta guía de inicio rápido, borra los recursos individuales:

  1. En Cloud Console, ve a la página de Jobs.
    IR A TRABAJOS
  2. Selecciona tu trabajo de transmisión en la lista de trabajos.
  3. En la barra de navegación, haz clic en Detener.
  4. En el cuadro de diálogo Detener trabajo, cancela o desvía tu canalización y, luego, haz clic en Detener el trabajo.
  5. En Cloud Console, ve a la página BigQuery.
    IR A BigQuery
  6. En el panel Explorador, expande tu proyecto.
  7. Junto al conjunto de datos que deseas borrar, haz clic en Ver acciones y, luego, en Abrir.
  8. En el panel de detalles, haz clic en Borrar conjunto de datos y, luego, sigue las instrucciones.
  9. En Cloud Console, ve a la página Navegador de Cloud Storage.

    Ir al navegador

  10. Haz clic en la casilla de verificación del bucket que deseas borrar.
  11. Para borrar el bucket, haz clic en Borrar y, luego, sigue las instrucciones.

¿Qué sigue?