Guía de inicio rápido del uso de plantillas

En esta página, se muestra cómo crear una canalización de transmisión con una plantilla de Dataflow proporcionada por Google. Específicamente, esta página utiliza la plantilla Tema de Pub/Sub a BigQuery como ejemplo.

La plantilla de tema de Pub/Sub a BigQuery es una canalización de transmisión que lee mensajes con formato JSON de un tema de Pub/Sub y los escribe en una tabla de BigQuery.

Antes de comenzar

  1. Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
  2. En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.

    Ir al selector de proyecto

  3. Asegúrate de que la facturación esté habilitada para tu proyecto de Cloud. Descubre cómo confirmar que tienes habilitada la facturación en un proyecto.

  4. Habilita las API de Cloud Dataflow, Compute Engine, Stackdriver Logging, Cloud Storage, JSON de Cloud Storage, BigQuery, Cloud Pub/Sub y Cloud Resource Manager .

    Habilita las API

  5. Crea un depósito de Cloud Storage:
    1. En Cloud Console, ve a la página Navegador de Cloud Storage.

      Ir al navegador

    2. Haz clic en Crear bucket.
    3. En la página Crear un bucket, ingresa la información de tu bucket. Para ir al siguiente paso, haz clic en Continuar.
      • Para Asignar un nombre a tu depósito, ingresa un nombre de bucket único. No incluyas información sensible en el nombre del bucket porque su espacio de nombres es global y públicamente visible.
      • Para Elige dónde almacenar tus datos, sigue estos pasos:
        • Seleccione una opción de Tipo de ubicación.
        • Selecciona una opción de Ubicación.
      • Para Elegir una clase de almacenamiento predeterminado para tus datos, selecciona lo siguiente:Estándar.
      • En Elegir cómo controlar el acceso a los objetos, selecciona una opción Control de acceso.
      • En Configuración avanzada (opcional), especifica un método de encriptación, una política de retención o etiquetas de depósito.
    4. Haga clic en Crear.

Crea un conjunto de datos y una tabla de BigQuery

Crea un conjunto de datos y una tabla de BigQuery con el esquema adecuado para tu tema de Pub/Sub mediante Cloud Console.

En este ejemplo, el nombre del conjunto de datos es taxirides y el nombre de la tabla es realtime. Para crear este conjunto de datos y esta tabla, haz lo siguiente:

  1. En Cloud Console, ve a la página BigQuery.
    Ir a BigQuery
  2. En el panel Explorador, selecciona el proyecto en el que deseas crear el conjunto de datos.
  3. En el panel de detalles, haz clic en Crear conjunto de datos .
  4. En la página Crear conjunto de datos:
    1. En ID del conjunto de datos, ingresa taxirides.
    2. En Ubicación de los datos, elige Estados Unidos (EE.UU.). En la actualidad, los conjuntos de datos públicos se almacenan en la ubicación multirregión US. Para que sea más simple, coloque su conjunto de datos en la misma ubicación.
  5. Deja los valores predeterminados para el resto de la configuración y haz clic en Crear conjunto de datos.
  6. En el panel Explorador (Explorer), expande tu proyecto.
  7. Junto al conjunto de datos, haz clic en el ícono de acciones de vista y, luego, en Abrir.
  8. En el panel de detalles, haz clic en Crear tabla (Create table).
  9. En la página Crear tabla, siga estos pasos:
    1. En la sección Fuente, en Crear tabla desde, selecciona Tabla vacía.
    2. En la sección Destino (Destination), para Nombre de tabla (Table name), ingresa realtime.
    3. En la sección Esquema (Schema), haz clic en el botón de activación Editar como texto y pega la siguiente definición de esquema en el cuadro.
      ride_id:string,point_idx:integer,latitude:float,longitude:float,timestamp:timestamp,
      meter_reading:float,meter_increment:float,ride_status:string,passenger_count:integer
    4. En la sección Configuración del clúster y particiones, en Partición, selecciona el campo marca de tiempo.
  10. Deja los valores predeterminados para el resto de la configuración y haz clic en Crear tabla.

Ejecuta la canalización

Ejecuta una canalización de transmisión con la plantilla Tema de Pub/Sub a BigQuery proporcionada por Google.

  1. En Cloud Console, ve a la página de Jobs.
    Ir a trabajos de Dataflow
  2. Haz clic en Create job from template (Crear un trabajo a partir de una plantilla).
  3. En Job name (Nombre del trabajo), ingresa un nombre para el trabajo de Dataflow.
  4. En Dataflow template (Plantilla de Dataflow), selecciona la plantilla Pub/Sub Topic to BigQuery (Tema de Pub/Sub a BigQuery).
  5. En Tema de entrada de Pub/Sub, ingresa projects/pubsub-public-data/topics/taxirides-realtime. La canalización obtiene datos entrantes del tema de entrada.

    Este es un tema público basado enConjunto de datos abierto de la Comisión de Taxis y Limusinas de la Ciudad de Nueva York se expandió con información de enrutamiento adicional mediante elAPI de Google Maps Directions y marcas de tiempo interpoladas para simular una situación en tiempo real. El siguiente es un mensaje de muestra de este tema, en formato JSON:

    {
      "ride_id": "19c41fc4-e362-4be5-9d06-435a7dc9ba8e",
      "point_idx": 217,
      "latitude": 40.75399,
      "longitude": -73.96302,
      "timestamp": "2021-03-08T02:29:09.66644-05:00",
      "meter_reading": 6.293821,
      "meter_increment": 0.029003782,
      "ride_status": "enroute",
      "passenger_count": 1
    }
  6. En Tabla de salida de BigQuery, ingresa PROJECT_ID:taxirides.realtime. Reemplaza PROJECT_ID por el ID del proyecto en el que creaste tu conjunto de datos de BigQuery.
  7. En Ubicación temporal (Temporary location), ingresa gs://BUCKET_NAME/temp/. Reemplaza BUCKET_NAME por el nombre de tu bucket de Cloud Storage. temp es una carpeta en ese depósito para almacenar archivos temporales, como el trabajo de canalización por etapas.
  8. Haga clic en Ejecutar trabajo.
  9. Consulta los datos escritos en BigQuery. Dirígete a la página de BigQuery.
    Ir a BigQuery

    Puede enviar una consulta mediante SQL estándar. Por ejemplo, la siguiente consulta selecciona todas las filas que se agregaron en las últimas 24 horas:

    SELECT * FROM `PROJECT_ID.taxirides.realtime`
    WHERE `timestamp` > TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 1 DAY)
    LIMIT 1000

    Reemplaza PROJECT_ID por el ID del proyecto en el que creaste tu conjunto de datos de BigQuery.

Limpia

Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta guía de inicio rápido.

  1. En Cloud Console, ve a la página de Jobs.
    Ir a trabajos de Dataflow
    1. Selecciona tu trabajo de transmisión de la lista de trabajos.
    2. En la barra de navegación, haz clic en Detener.
    3. En el diálogo Detener trabajo, elija Cancelar o Desviar su canalización y, luego, haga clic en Detener trabajo.
  2. En Cloud Console, ve a la página BigQuery.
    Ir a BigQuery
    1. En el panel Explorador (Explorer), expande tu proyecto.
    2. Junto al conjunto de datos, haz clic en el ícono de acciones de vista y, luego, en Abrir.
    3. En el panel de detalles, haz clic en Borrar conjunto de datos.
    4. En el cuadro de diálogo Borrar conjunto de datos, ingresa el nombre del conjunto de datos (taxirides) y haz clic en Borrar para confirmar el comando de borrado.

¿Qué sigue?