Guía de inicio rápido para las plantillas
En esta guía de inicio rápido, se muestra cómo crear una canalización de transmisión con una plantilla de Dataflow proporcionada por Google. Específicamente, esta guía de inicio rápido utiliza la plantilla Tema de Pub/Sub a BigQuery como ejemplo.
La plantilla Tema de Pub/Sub a BigQuery es una canalización de transmisión que lee mensajes con formato JSON de un tema de Pub/Sub y los escribe en una tabla de BigQuery.
Para obtener una guía paso a paso sobre esta tarea directamente en la consola, haz clic en Guiarme:
En las siguientes secciones, se explican los mismos pasos que cuando se hace clic en Guiarme.
Antes de comenzar
- Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Habilita las API de Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, BigQuery, Pub/Sub, and Resource Manager.
-
En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud.
-
Habilita las API de Dataflow, Compute Engine, Cloud Logging, Cloud Storage, Google Cloud Storage JSON, BigQuery, Pub/Sub, and Resource Manager.
- Cree un bucket de Cloud Storage:
- En la consola de Google Cloud, ve a la página Buckets de Cloud Storage.
- Haga clic en Crear bucket.
- En la página Crear un bucket, ingresa la información de tu bucket. Para ir al paso siguiente, haz clic en Continuar.
- En Nombre del bucket, ingresa un nombre de bucket único. No incluyas información sensible en el nombre del bucket porque su espacio de nombres es global y públicamente visible.
-
En Elige dónde almacenar tus datos, haz lo siguiente:
- Selecciona una opción de Tipo de ubicación.
- Selecciona una opción de Ubicación.
- Para Elegir una clase de almacenamiento predeterminado para tus datos, selecciona lo siguiente:Estándar.
- En Elige cómo controlar el acceso a los objetos, selecciona una opción de Control de acceso.
- Para la Configuración avanzada (opcional), especifica un método de encriptación, una política de retención o etiquetas de bucket.
- Haga clic en Crear.
- Copia lo siguiente, ya que los necesitarás en una sección posterior:
- : Es el nombre del bucket de Cloud Storage.
- Tu ID del proyecto de Google Cloud.
Para encontrar este ID, consulta Identifica proyectos.
Para completar los pasos de esta guía de inicio rápido, tu cuenta de usuario debe tener los roles de Administrador de Dataflow y Usuario de cuenta de servicio. La cuenta de servicio predeterminada de Compute Engine debe tener el rol de trabajador de Dataflow. Para agregar los roles necesarios en la consola, haz lo siguiente:
- En la consola, ve a la página IAM.
Ir a IAM - Selecciona tu proyecto.
- En la fila que contiene tu cuenta de usuario, haz clic en Editar principal y, luego, en Agregar otro rol.
- En la lista desplegable, selecciona el rol Administrador de Dataflow.
- Repite los pasos para el rol Usuario de cuenta de servicio y, luego, haz clic en Guardar.
- En la fila que contiene la cuenta de servicio predeterminada de Compute Engine, haz clic en Editar principal y, luego, en Agregar otro rol.
- En la lista desplegable, selecciona el rol Trabajador de Dataflow.
- Repite para los roles Pub/Sub Editor y BigQuery Data Editor y, luego, haz clic en Guardar.
Para obtener más información sobre cómo otorgar roles, consulta Otorga un rol de IAM mediante la consola.
- En la consola, ve a la página IAM.
- Cada proyecto nuevo comienza con una red predeterminada, a menos que decidas inhabilitarla.
Si tu proyecto no tiene una red predeterminada, debes tener una red en tu proyecto en la que tu cuenta de usuario tenga el rol de usuario de la red de Compute (
roles/compute.networkUser
).
Crea un conjunto de datos y una tabla de BigQuery
Crea un conjunto de datos de BigQuery y una tabla de BigQuery con el esquema adecuado para tu tema de Pub/Sub con la consola.
En este ejemplo, el nombre del conjunto de datos es taxirides
y el nombre de la
tabla es realtime
. Para crear este conjunto de datos y esta tabla, sigue estos pasos:
- En la consola, ve a la página BigQuery.
Ir a BigQuery - En el panel Explorador junto al proyecto en el que deseas crear el conjunto de datos, haz clic en Ver acciones y, luego, haz clic en Crear conjunto de datos.
- En el panel Crear conjunto de datos, sigue estos pasos:
- En ID del conjunto de datos, ingresa
taxirides
. - En Ubicación de los datos, elija Estados Unidos (EE.UU.). Los conjuntos de datos públicos se almacenan en la ubicación multirregión de
US
. Para que sea más simple, coloca tu conjunto de datos en la misma ubicación. - Deja los valores de configuración predeterminados para el resto de la configuración y haz clic en Crear conjunto de datos.
- En el panel
Explorador , expande tu proyecto. - Junto al conjunto de datos
taxirides
, haz clic en , en Ver acciones y, luego, en Abrir. - En el panel de detalles, haz clic en Crear tabla (Create table).
- En el panel Crear tabla, sigue estos pasos:
- En la sección Origen, para Crear tabla desde, selecciona Tabla vacía.
- En la sección Destino, para Nombre de tabla, ingresa
realtime
. - En la sección Esquema, haz clic en el interruptor Editar como texto y pega
la siguiente definición de esquema en el cuadro:
ride_id:string,point_idx:integer,latitude:float,longitude:float,timestamp:timestamp, meter_reading:float,meter_increment:float,ride_status:string,passenger_count:integer
- En la sección Configuración del clúster y particiones, en Partición, selecciona el campo Marca de tiempo.
- Deja los valores predeterminados para el resto de la configuración y haz clic en Crear tabla.
Ejecute la canalización
Ejecuta una canalización de transmisión con la plantilla Tema de Pub/Sub a BigQuery proporcionada por Google. La canalización obtiene datos entrantes del tema de entrada.
- En la consola, ve a la página Trabajos de Dataflow.
IR A TRABAJOS - Haz clic en
Crear trabajo a partir de una plantilla . - Ingresa
taxi-data
como el Nombre del trabajo para tu trabajo de Dataflow. - En Plantilla de Dataflow, selecciona la plantilla Tema de Pub/Sub a BigQuery.
- En Tema de entrada de Cloud Pub/Sub, haz clic en Ingresar tema de forma manual.
- En el cuadro de diálogo, en Nombre del tema, ingresa lo siguiente y, luego, haz clic en Guardar:
projects/pubsub-public-data/topics/taxirides-realtime
Este tema de Pub/Sub disponible al público se basa en el conjunto de datos abierto de la Comisión de Taxis y Limusinas de la Ciudad de Nueva York. El siguiente es un mensaje de muestra de este tema, en formato JSON:
{ "ride_id": "19c41fc4-e362-4be5-9d06-435a7dc9ba8e", "point_idx": 217, "latitude": 40.75399, "longitude": -73.96302, "timestamp": "2021-03-08T02:29:09.66644-05:00", "meter_reading": 6.293821, "meter_increment": 0.029003782, "ride_status": "enroute", "passenger_count": 1 }
- En Tabla de salida de BigQuery, ingresa lo siguiente:
PROJECT_ID:taxirides.realtime
Reemplaza
PROJECT_ID
por el ID del proyecto en el que creaste tu conjunto de datos de BigQuery. - En Ubicación temporal, ingresa lo siguiente:
BUCKET_NAME/temp/
Reemplaza
BUCKET_NAME
por el nombre de tu bucket de Cloud Storage. La carpetatemp
almacena archivos temporales, como el trabajo de canalización en etapa de pruebas. - Si tu proyecto no tiene una red predeterminada, haz clic en Mostrar parámetros opcionales y, luego, ingresa una Red y una Subred.. Para obtener más información, consulta Especifica una red y una subred.
- Haz clic en Ejecutar trabajo.
Ve los resultados
Para ver los datos escritos en tu tablarealtime
, sigue estos pasos:
En la consola, ve a la página BigQuery.
En la búsqueda Editor, pega la siguiente consulta:
SELECT * FROM `PROJECT_ID.taxirides.realtime` WHERE `timestamp` > TIMESTAMP_SUB(CURRENT_TIMESTAMP(), INTERVAL 1 DAY) LIMIT 1000
Reemplaza
PROJECT_ID
por el ID del proyecto en el que creaste tu conjunto de datos de BigQuery. Los datos pueden tardar hasta un minuto en comenzar a aparecer en la tabla.Haga clic en Ejecutar.
La consulta muestra las filas que se agregaron a tu tabla en las últimas 24 horas. También puedes ejecutar consultas con SQL estándar.
Limpia
Sigue estos pasos para evitar que se apliquen cargos a tu cuenta de Google Cloud por los recursos que usaste en esta página.
Borra el proyecto
La manera más fácil de eliminar la facturación es borrar el proyecto de Google Cloud que creaste para la guía de inicio rápido.- En la consola de Google Cloud, ve a la página Administrar recursos.
- En la lista de proyectos, elige el proyecto que quieres borrar y haz clic en Borrar.
- En el diálogo, escribe el ID del proyecto y, luego, haz clic en Cerrar para borrar el proyecto.
Borra los recursos individuales
Si deseas conservar el proyecto Google Cloud que usaste en esta guía de inicio rápido, borra los recursos individuales:
- En la consola, ve a la página Trabajos de Dataflow.
IR A TRABAJOS - Selecciona tu trabajo de transmisión en la lista de trabajos.
- En la navegación, haz clic en Detener.
- En el cuadro de diálogo Detener trabajo, cancela o desvía tu canalización y, luego, haz clic en Detener el trabajo.
- En la consola, ve a la página BigQuery.
IR A BigQuery - En el panel Explorador, expande tu proyecto.
- Junto al conjunto de datos que deseas borrar, haz clic en Ver acciones y, luego, en Abrir.
- En el panel de detalles, haz clic en Borrar conjunto de datos y, luego, sigue las instrucciones.
- En la consola de Google Cloud, ve a la página Buckets de Cloud Storage.
- Haz clic en la casilla de verificación del bucket que deseas borrar.
- Para borrar el bucket, haz clic en Borrar y sigue las instrucciones.