Esta página se ha traducido con Cloud Translation API.

Plantilla de texto de Cloud Storage a Pub/Sub (por lotes)

Esta plantilla crea un flujo de procesamiento por lotes que lee registros de archivos de texto almacenados en Cloud Storage y los publica en un tema de Pub/Sub. La plantilla puede usarse para publicar los registros de un archivo delimitado por líneas nuevas con registros JSON o los de un archivo CSV en un tema de Pub/Sub para procesarlos en tiempo real. Puedes usar esta plantilla para volver a reproducir datos con Pub/Sub.

Esta plantilla no establece una marca de tiempo en los registros concretos. La hora del evento es igual a la hora de publicación durante la ejecución. No uses este flujo de procesamiento si necesitas que la hora del evento sea exacta para que se procese tu flujo de procesamiento.

Requisitos del flujo de procesamiento

Los archivos que se tienen que leer deben tener un formato JSON delimitado por líneas nuevas o un formato CSV. Los registros que abarcan varias líneas en los archivos de origen pueden provocar errores en el canal de bajada porque cada línea se publicará como un mensaje en Pub/Sub.
El tema de Pub/Sub debe existir antes de ejecutar el flujo de procesamiento.

Parámetros de plantilla

Parámetros obligatorios

inputFilePattern el patrón del archivo de entrada del que se va a leer. Por ejemplo, gs://bucket-name/files/*.json.
outputTopic el tema de entrada de Pub/Sub en el que se va a escribir. El nombre debe tener el formato projects/<PROJECT_ID>/topics/<TOPIC_NAME>. Por ejemplo, projects/your-project-id/topics/your-topic-name.

Ejecutar la plantilla

Consola

Ve a la página Crear tarea a partir de plantilla de Dataflow.

Ir a Crear tarea a partir de plantilla

En el campo Nombre de la tarea, introduce un nombre único.
Opcional: En Endpoint regional, seleccione un valor en el menú desplegable. La región predeterminada es us-central1.
Para ver una lista de las regiones en las que puedes ejecutar una tarea de Dataflow, consulta Ubicaciones de Dataflow.
En el menú desplegable Plantilla de flujo de datos, seleccione the Text Files on Cloud Storage to Pub/Sub (Batch) template.
En los campos de parámetros proporcionados, introduzca los valores de los parámetros.
Haz clic en Ejecutar trabajo.

gcloud

En tu shell o terminal, ejecuta la plantilla:

gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates-REGION_NAME/VERSION/GCS_Text_to_Cloud_PubSub \
    --region REGION_NAME \
    --parameters \
inputFilePattern=gs://BUCKET_NAME/files/*.json,\
outputTopic=projects/PROJECT_ID/topics/TOPIC_NAME

Haz los cambios siguientes:

PROJECT_ID: el ID del proyecto Google Cloud en el que quieres ejecutar la tarea de Dataflow
JOB_NAME: un nombre de trabajo único que elijas
VERSION: la versión de la plantilla que quieres usar
Puedes usar los siguientes valores:
- latest para usar la última versión de la plantilla, que está disponible en la carpeta principal sin fecha del contenedor: gs://dataflow-templates-REGION_NAME/latest/
- el nombre de la versión, como 2023-09-12-00_RC00, para usar una versión específica de la plantilla, que se encuentra anidada en la carpeta principal correspondiente con la fecha en el bucket: gs://dataflow-templates-REGION_NAME/
Precaución: La última versión de las plantillas puede actualizarse con cambios importantes. Tus entornos de producción deben usar plantillas que se encuentren en la carpeta principal con fecha más reciente para evitar que estos cambios afecten a tus flujos de trabajo de producción.
REGION_NAME: la región en la que quieras desplegar tu trabajo de Dataflow. Por ejemplo, us-central1
TOPIC_NAME: nombre del tema de Pub/Sub
BUCKET_NAME: el nombre de tu segmento de Cloud Storage

API

Para ejecutar la plantilla mediante la API REST, envía una solicitud HTTP POST. Para obtener más información sobre la API y sus ámbitos de autorización, consulta projects.templates.launch.

POST https://dataflow.googleapis.com/v1b3/projects/PROJECT_ID/locations/LOCATION/templates:launch?gcsPath=gs://dataflow-templates-LOCATION/VERSION/GCS_Text_to_Cloud_PubSub
{
   "jobName": "JOB_NAME",
   "parameters": {
       "inputFilePattern": "gs://BUCKET_NAME/files/*.json",
       "outputTopic": "projects/PROJECT_ID/topics/TOPIC_NAME"
   },
   "environment": { "zone": "us-central1-f" }
}