Plantillas de transmisión proporcionadas por Google

Google ofrece un conjunto de plantillas de código abierto de Cloud Dataflow. Para obtener información general sobre las plantillas, consulta la página de descripción general. Para obtener una lista de todas las plantillas proporcionadas por Google, consulta la página sobre cómo comenzar con las plantillas proporcionadas por Google.

En esta página, se documentan las plantillas de transmisión:

Suscripción de Cloud Pub/Sub a BigQuery

La plantilla de suscripción de Cloud Pub/Sub a BigQuery es una canalización de transmisión que lee los mensajes con formato JSON de una suscripción de Cloud Pub/Sub y los escribe en una tabla de BigQuery. Puedes usar la plantilla como una solución rápida para mover datos desde Cloud Pub/Sub hacia BigQuery. La plantilla lee mensajes con formato JSON desde Cloud Pub/Sub y los convierte en elementos de BigQuery.

Requisitos para esta canalización:

  • Los mensajes de Cloud Pub/Sub deben tener formato JSON, como se describe aquí. Por ejemplo, los mensajes con formato {"k1":"v1", "k2":"v2"} pueden insertarse en una tabla de BigQuery con dos columnas, denominadas k1 y k2, con el tipo de datos de string.
  • La tabla de salida debe existir antes de ejecutar la canalización.

Parámetros de la plantilla

Parámetro Descripción
inputSubscription La suscripción de entrada de Cloud Pub/Sub para leer, en el formato projects/<project>/subscriptions/<subscription>
outputTableSpec La ubicación de la tabla de salida de BigQuery, en el formato de <my-project>:<my-dataset>.<my-table>

Ejecuta la suscripción de Cloud Pub/Sub en la plantilla de BigQuery

CONSOLE

Ejecuta desde Google Cloud Platform Console
  1. Ve a la página Cloud Dataflow en GCP Console.
  2. Ir a la página de Cloud Dataflow
  3. Haz clic en Crear un trabajo a partir de una plantilla.
  4. Botón Crear trabajo a partir de una plantilla de Cloud Platform Console
  5. Selecciona the Cloud Pub/Sub Subscription to BigQuery template del menú desplegable Plantilla de Cloud Dataflow.
  6. Ingresa un nombre para el trabajo en el campo Nombre del trabajo. El nombre de tu trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para ser válido.
  7. Ingresa los valores de tus parámetros en los campos de parámetros provistos.
  8. Haz clic en Ejecutar trabajo.

GCLOUD

Ejecuta desde la herramienta de línea de comandos de gcloud

Nota: Para usar la herramienta de línea de comandos de gcloud a fin de ejecutar plantillas, debes tener la versión 138.0.0 o superior del SDK de Cloud.

Cuando ejecutes esta plantilla, necesitarás la ruta de acceso de Cloud Storage a la plantilla:

gs://dataflow-templates/VERSION/PubSub_Subscription_to_BigQuery

En este ejemplo, debes reemplazar los valores siguientes:

  • Reemplaza YOUR-PROJECT_ID por el ID del proyecto.
  • Reemplaza JOB_NAME por un nombre a elección para el trabajo. El nombre del trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para que sea válido.
  • Reemplaza YOUR_SUBSCRIPTION_NAME por el nombre de la suscripción a Cloud Pub/Sub.
  • Reemplaza YOUR_DATASET por el conjunto de datos de BigQuery y YOUR_TABLE_NAME por el nombre de la tabla de BigQuery.
gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/PubSub_Subscription_to_BigQuery \
    --parameters \
inputSubscription=projects/YOUR_PROJECT_ID/subscriptions/YOUR_SUBSCRIPTION_NAME,\
outputTableSpec=YOUR_PROJECT_ID:YOUR_DATASET.YOUR_TABLE_NAME

API

Ejecuta desde la API de REST

Cuando ejecutes esta plantilla, necesitarás la ruta de acceso de Cloud Storage a la plantilla:

gs://dataflow-templates/VERSION/PubSub_Subscription_to_BigQuery

Para ejecutar esta plantilla con una solicitud a la API de REST, envía una solicitud HTTP POST con tu ID del proyecto. Esta solicitud requiere autorización.

En este ejemplo, debes reemplazar los valores siguientes:

  • Reemplaza YOUR-PROJECT_ID por el ID del proyecto.
  • Reemplaza JOB_NAME por un nombre a elección para el trabajo. El nombre del trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para que sea válido.
  • Reemplaza YOUR_SUBSCRIPTION_NAME por el nombre de la suscripción a Cloud Pub/Sub.
  • Reemplaza YOUR_DATASET por el conjunto de datos de BigQuery y YOUR_TABLE_NAME por el nombre de la tabla de BigQuery.
POST https://dataflow.googleapis.com/v1b3/projects/YOUR_PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/PubSub_Subscription_to_BigQuery
{
   "jobName": "JOB_NAME",
   "parameters": {
       "inputSubscription": "projects/YOUR_PROJECT_ID/subscriptions/YOUR_SUBSCRIPTION_NAME",
       "outputTableSpec": "YOUR_PROJECT_ID:YOUR_DATASET.YOUR_TABLE_NAME"
   },
   "environment": { "zone": "us-central1-f" }
}

Tema de Cloud Pub/Sub a BigQuery

La plantilla de tema de Cloud Pub/Sub a BigQuery es una canalización de transmisión que lee mensajes con formato JSON desde un tema de Cloud Pub/Sub y los escribe en una tabla de BigQuery. Puedes usar la plantilla como una solución rápida para mover datos desde Cloud Pub/Sub hacia BigQuery. La plantilla lee mensajes con formato JSON desde Cloud Pub/Sub y los convierte en elementos de BigQuery.

Requisitos para esta canalización:

  • Los mensajes de Cloud Pub/Sub deben tener formato JSON, como se describe aquí. Por ejemplo, los mensajes con formato {"k1":"v1", "k2":"v2"} pueden insertarse en una tabla de BigQuery con dos columnas, denominadas k1 y k2, con el tipo de datos de string.
  • La tabla de salida debe existir antes de que se ejecute la canalización.

Parámetros de la plantilla

Parámetro Descripción
inputTopic El tema de entrada de Cloud Pub/Sub desde el que se va a leer, en el formato projects/<project>/topics/<topic>.
outputTableSpec La ubicación de la tabla de salida de BigQuery, en el formato de <my-project>:<my-dataset>.<my-table>

Ejecuta la plantilla de tema de Cloud Pub/Sub a BigQuery

CONSOLE

Ejecuta desde Google Cloud Platform Console
  1. Ve a la página Cloud Dataflow en GCP Console.
  2. Ir a la página de Cloud Dataflow
  3. Haz clic en Crear un trabajo a partir de una plantilla.
  4. Botón Crear trabajo a partir de una plantilla de Cloud Platform Console
  5. Selecciona the Cloud Pub/Sub Topic to BigQuery template del menú desplegable Plantilla de Cloud Dataflow.
  6. Ingresa un nombre para el trabajo en el campo Nombre del trabajo. El nombre de tu trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para ser válido.
  7. Ingresa los valores de tus parámetros en los campos de parámetros provistos.
  8. Haz clic en Ejecutar trabajo.

GCLOUD

Ejecuta desde la herramienta de línea de comandos de gcloud

Nota: Para usar la herramienta de línea de comandos de gcloud a fin de ejecutar plantillas, debes tener la versión 138.0.0 o superior del SDK de Cloud.

Cuando ejecutes esta plantilla, necesitarás la ruta de acceso de Cloud Storage a la plantilla:

gs://dataflow-templates/VERSION/PubSub_to_BigQuery

En este ejemplo, debes reemplazar los valores siguientes:

  • Reemplaza YOUR-PROJECT_ID por el ID del proyecto.
  • Reemplaza JOB_NAME por un nombre a elección para el trabajo. El nombre del trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para que sea válido.
  • Reemplaza [YOUR_TOPIC_NAME] por el nombre de tu tema de Cloud Pub/Sub.
  • Reemplaza YOUR_DATASET por el conjunto de datos de BigQuery y YOUR_TABLE_NAME por el nombre de la tabla de BigQuery.
gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/PubSub_to_BigQuery \
    --parameters \
inputTopic=projects/YOUR_PROJECT_ID/topics/YOUR_TOPIC_NAME,\
outputTableSpec=YOUR_PROJECT_ID:YOUR_DATASET.YOUR_TABLE_NAME

API

Ejecuta desde la API de REST

Cuando ejecutes esta plantilla, necesitarás la ruta de acceso de Cloud Storage a la plantilla:

gs://dataflow-templates/VERSION/PubSub_to_BigQuery

Para ejecutar esta plantilla con una solicitud a la API de REST, envía una solicitud HTTP POST con tu ID del proyecto. Esta solicitud requiere autorización.

En este ejemplo, debes reemplazar los valores siguientes:

  • Reemplaza YOUR-PROJECT_ID por el ID del proyecto.
  • Reemplaza JOB_NAME por un nombre a elección para el trabajo. El nombre del trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para que sea válido.
  • Reemplaza [YOUR_TOPIC_NAME] por el nombre de tu tema de Cloud Pub/Sub.
  • Reemplaza YOUR_DATASET por el conjunto de datos de BigQuery y YOUR_TABLE_NAME por el nombre de la tabla de BigQuery.
POST https://dataflow.googleapis.com/v1b3/projects/YOUR_PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/PubSub_to_BigQuery
{
   "jobName": "JOB_NAME",
   "parameters": {
       "inputTopic": "projects/YOUR_PROJECT_ID/topics/YOUR_TOPIC_NAME",
       "outputTableSpec": "YOUR_PROJECT_ID:YOUR_DATASET.YOUR_TABLE_NAME"
   },
   "environment": { "zone": "us-central1-f" }
}

Cloud Pub/Sub a Cloud Pub/Sub

La plantilla de Cloud Pub/Sub a Cloud Pub/Sub es una canalización de transmisión que lee mensajes desde una suscripción de Cloud Pub/Sub y los escribe en otro tema de Cloud Pub/Sub. La canalización también acepta una clave de atributo de mensaje opcional y un valor que se puede usar para filtrar los mensajes que deben escribirse en el tema de Cloud Pub/Sub. Puedes usar esta plantilla para copiar mensajes desde la suscripción de Cloud Pub/Sub en otro tema de Cloud Pub/Sub con un filtro de mensaje opcional.

Requisitos para esta canalización:

  • La suscripción de Cloud Pub/Sub de origen debe existir antes de la ejecución.
  • El tema de Cloud Pub/Sub de destino debe existir antes de la ejecución.

Parámetros de la plantilla

Parámetro Descripción
inputSubscription Suscripción de Cloud Pub/Sub de la que se leerá la entrada. Por ejemplo, projects/<project-id>/subscriptions/<subscription-name>.
outputTopic Tema de Cloud Pub/Sub en la que se escribe el resultado. Por ejemplo, projects/<project-id>/topics/<topic-name>.
filterKey Eventos de filtro basados en la clave de atributo (opcional). No se aplican filtros si no se especifica filterKey.
filterValue Valor del atributo del filtro para usar en caso de que se proporcione filterKey (opcional). De forma predeterminada, se usa un filterValue nulo.

Ejecuta la plantilla de Cloud Pub/Sub a Cloud Pub/Sub

CONSOLE

Ejecuta desde Google Cloud Platform Console
  1. Ve a la página Cloud Dataflow en GCP Console.
  2. Ir a la página de Cloud Dataflow
  3. Haz clic en Crear un trabajo a partir de una plantilla.
  4. Botón Crear trabajo a partir de una plantilla de Cloud Platform Console
  5. Selecciona the Cloud Pub/Sub to Cloud Pub/Sub template del menú desplegable Plantilla de Cloud Dataflow.
  6. Ingresa un nombre para el trabajo en el campo Nombre del trabajo. El nombre de tu trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para ser válido.
  7. Ingresa los valores de tus parámetros en los campos de parámetros provistos.
  8. Haz clic en Ejecutar trabajo.

GCLOUD

Ejecuta desde la herramienta de línea de comandos de gcloud

Nota: Para usar la herramienta de línea de comandos de gcloud a fin de ejecutar plantillas, debes tener la versión 138.0.0 o superior del SDK de Cloud.

Cuando ejecutes esta plantilla, necesitarás la ruta de acceso de Cloud Storage a la plantilla:

gs://dataflow-templates/VERSION/Cloud_PubSub_to_Cloud_PubSub

En este ejemplo, debes reemplazar los valores siguientes:

  • Reemplaza YOUR-PROJECT_ID por el ID del proyecto.
  • Reemplaza JOB_NAME por un nombre a elección para el trabajo. El nombre del trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para que sea válido.
  • Reemplaza YOUR_SUBSCRIPTION_NAME por el nombre de la suscripción de Cloud Pub/Sub.
  • Reemplaza YOUR_TOPIC_NAME por el nombre del tema de Cloud Pub/Sub.
  • Reemplaza FILTER_KEY por el nombre de la clave de atributo para filtrar los mensajes.
  • Reemplaza FILTER_VALUE por el valor del atributo.
gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Cloud_PubSub_to_Cloud_PubSub \
    --parameters \
inputSubscription=projects/YOUR_PROJECT_ID/subscriptions/YOUR_SUBSCRIPTION_NAME,\
outputTopic=projects/YOUR_PROJECT_ID/topics/YOUR_TOPIC_NAME,\
filterKey=FILTER_KEY,\
filterValue=FILTER_VALUE

API

Ejecuta desde la API de REST

Cuando ejecutes esta plantilla, necesitarás la ruta de acceso de Cloud Storage a la plantilla:

gs://dataflow-templates/VERSION/Cloud_PubSub_to_Cloud_PubSub

Para ejecutar esta plantilla con una solicitud a la API de REST, envía una solicitud HTTP POST con tu ID del proyecto. Esta solicitud requiere autorización.

En este ejemplo, debes reemplazar los valores siguientes:

  • Reemplaza YOUR-PROJECT_ID por el ID del proyecto.
  • Reemplaza JOB_NAME por un nombre a elección para el trabajo. El nombre del trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para que sea válido.
  • Reemplaza YOUR_SUBSCRIPTION_NAME por el nombre de la suscripción de Cloud Pub/Sub.
  • Reemplaza YOUR_TOPIC_NAME por el nombre del tema de Cloud Pub/Sub.
  • Reemplaza FILTER_KEY por el nombre de la clave de atributo para filtrar los mensajes.
  • Reemplaza FILTER_VALUE por el valor del atributo.
POST https://dataflow.googleapis.com/v1b3/projects/YOUR_PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Cloud_PubSub_to_Cloud_PubSub
{
   "jobName": "JOB_NAME",
   "parameters": {
       "inputSubscription": "projects/YOUR_PROJECT_ID/subscriptions/YOUR_SUBSCRIPTION_NAME",
       "outputTopic": "projects/YOUR_PROJECT_ID/topics/YOUR_TOPIC_NAME",
       "filterKey": "FILTER_KEY",
       "filterValue": "FILTER_VALUE"
   },
   "environment": { "zone": "us-central1-f" }
}

Cloud Pub/Sub a Cloud Storage Avro

La plantilla de Cloud Pub/Sub a Cloud Storage Avro es una canalización de transmisión que lee datos desde un tema de Cloud Pub/Sub y escribe archivos Avro en un depósito especificado de Cloud Storage. Esta canalización admite la duración de ventana opcional que proporciona el usuario y que se utilizará para realizar operaciones de escritura con ventanas.

Requisitos para esta canalización:

  • El tema de entrada de Cloud Pub/Sub debe existir antes de la ejecución de la canalización.

Parámetros de la plantilla

Parámetro Descripción
inputTopic Tema de Cloud Pub/Sub al cual suscribirse para el consumo de mensajes. El nombre del tema debe estar en formato projects/<project-id>/topics/<topic-name>.
outputDirectory Directorio de salida donde se archivarán los archivos Avro de salida. Agrega una / al final. Por ejemplo: gs://example-bucket/example-directory/.
avroTempDirectory Directorio para los archivos Avro temporales. Agrega una / al final. Por ejemplo: gs://example-bucket/example-directory/.
outputFilenamePrefix Prefijo de nombre de archivo de salida para los archivos Avro (opcional).
outputFilenameSuffix Sufijo de nombre de archivo de salida para los archivos Avro (opcional).
outputShardTemplate Plantilla de fragmentación del archivo de salida (opcional). Especificada como secuencias repetidas de letras “S” o “N” (por ejemplo: SSS-NNN). Estas se reemplazan con el número de fragmentación o la cantidad de fragmentaciones respectivamente. El formato de la plantilla predeterminada es “W-P-SS-of-NN” cuando no se especifica este parámetro.
numShards La cantidad máxima de fragmentos de salida producidos cuando se escribe. La cantidad máxima predeterminada de es 1 (opcional).
windowDuration Duración de ventana en la que se escribirán los datos (opcional). La configuración predeterminada es de 5 m. Los formatos permitidos son: Ns (para los segundos, por ejemplo, 5 s), Nm (para los minutos, por ejemplo, 12 m) y Nh (para las horas, por ejemplo, 2 h).

Ejecuta la plantilla de Cloud Pub/Sub a Avro de Cloud Storage

CONSOLE

Ejecuta desde Google Cloud Platform Console
  1. Ve a la página Cloud Dataflow en GCP Console.
  2. Ir a la página de Cloud Dataflow
  3. Haz clic en Crear un trabajo a partir de una plantilla.
  4. Botón Crear trabajo a partir de una plantilla de Cloud Platform Console
  5. Selecciona the Cloud Pub/Sub to Cloud Storage Avro template del menú desplegable Plantilla de Cloud Dataflow.
  6. Ingresa un nombre para el trabajo en el campo Nombre del trabajo. El nombre de tu trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para ser válido.
  7. Ingresa los valores de tus parámetros en los campos de parámetros provistos.
  8. Haz clic en Ejecutar trabajo.

GCLOUD

Ejecuta desde la herramienta de línea de comandos de gcloud

Nota: Para usar la herramienta de línea de comandos de gcloud a fin de ejecutar plantillas, debes tener la versión 138.0.0 o superior del SDK de Cloud.

Cuando ejecutes esta plantilla, necesitarás la ruta de acceso de Cloud Storage a la plantilla:

gs://dataflow-templates/VERSION/Cloud_PubSub_to_Avro

En este ejemplo, debes reemplazar los valores siguientes:

  • Reemplaza YOUR-PROJECT_ID por el ID del proyecto.
  • Reemplaza JOB_NAME por un nombre a elección para el trabajo. El nombre del trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para que sea válido.
  • Reemplaza YOUR_TOPIC_NAME por el nombre del tema de Cloud Pub/Sub.
  • Reemplaza YOUR_BUCKET_NAME por el nombre del depósito de Cloud Storage.
  • Reemplaza FILENAME_PREFIX por el prefijo de nombre de archivo de salida preferido.
  • Reemplaza FILENAME_SUFFIX por el sufijo de nombre de archivo de salida preferido.
  • Reemplaza SHARD_TEMPLATE por la plantilla de fragmento de salida preferida.
  • Reemplaza NUM_SHARDS por la cantidad de fragmentos de salida.
  • Reemplaza WINDOW_DURATION por la duración de la ventana de resultados.
gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Cloud_PubSub_to_Avro \
    --parameters \
inputTopic=projects/YOUR_PROJECT_ID/topics/YOUR_TOPIC_NAME,\
outputDirectory=gs://YOUR_BUCKET_NAME/output/,\
avroTempDirectory=gs://YOUR_BUCKET_NAME/temp/,\
outputFilenamePrefix=FILENAME_PREFIX,\
outputFilenameSuffix=FILENAME_SUFFIX,\
outputShardTemplate=SHARD_TEMPLATE,\
numShards=NUM_SHARDS,\
windowDuration=WINDOW_DURATION

API

Ejecuta desde la API de REST

Cuando ejecutes esta plantilla, necesitarás la ruta de acceso de Cloud Storage a la plantilla:

gs://dataflow-templates/VERSION/Cloud_PubSub_to_Avro

Para ejecutar esta plantilla con una solicitud a la API de REST, envía una solicitud HTTP POST con tu ID del proyecto. Esta solicitud requiere autorización.

En este ejemplo, debes reemplazar los valores siguientes:

  • Reemplaza YOUR-PROJECT_ID por el ID del proyecto.
  • Reemplaza JOB_NAME por un nombre a elección para el trabajo. El nombre del trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para que sea válido.
  • Reemplaza YOUR_TOPIC_NAME por el nombre del tema de Cloud Pub/Sub.
  • Reemplaza YOUR_BUCKET_NAME por el nombre del depósito de Cloud Storage.
  • Reemplaza FILENAME_PREFIX por el prefijo de nombre de archivo de salida preferido.
  • Reemplaza FILENAME_SUFFIX por el sufijo de nombre de archivo de salida preferido.
  • Reemplaza SHARD_TEMPLATE por la plantilla de fragmento de salida preferida.
  • Reemplaza NUM_SHARDS por la cantidad de fragmentos de salida.
  • Reemplaza WINDOW_DURATION por la duración de la ventana de resultados.
POST https://dataflow.googleapis.com/v1b3/projects/YOUR_PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Cloud_PubSub_to_Avro
{
   "jobName": "JOB_NAME",
   "parameters": {
       "inputTopic": "projects/YOUR_PROJECT_ID/topics/YOUR_TOPIC_NAME",
       "outputDirectory": "gs://YOUR_BUCKET_NAME/output/",
       "avroTempDirectory": "gs://YOUR_BUCKET_NAME/temp/",
       "outputFilenamePrefix": "FILENAME_PREFIX",
       "outputFilenameSuffix": "FILENAME_SUFFIX",
       "outputShardTemplate": "SHARD_TEMPLATE",
       "numShards": "NUM_SHARDS",
       "windowDuration": "WINDOW_DURATION"
   },
   "environment": { "zone": "us-central1-f" }
}

Cloud Pub/Sub a Cloud Storage Text

La plantilla de Cloud Pub/Sub a Cloud Storage Text es una canalización de transmisión que lee registros desde Cloud Pub/Sub y los guarda como una serie de archivos de Cloud Storage en formato de texto. Se puede usar más adelante como una forma rápida para guardar datos en Cloud Pub/Sub. De forma predeterminada, la plantilla genera un archivo nuevo cada 5 minutos.

Requisitos para esta canalización:

  • El tema de Cloud Pub/Sub debe existir antes de la ejecución.
  • Los mensajes publicados en el tema deben tener formato de texto.
  • Los mensajes publicados en el tema no deben contener líneas nuevas. Ten en cuenta que el mensaje de Cloud Pub/Sub se guarda como una sola línea en el archivo de salida.

Parámetros de la plantilla

Parámetro Descripción
inputTopic Tema de Cloud Pub/Sub del que se leerá la entrada. El nombre del tema debe estar en formato projects/<project-id>/topics/<topic-name>.
outputDirectory Ruta de acceso y prefijo del nombre de archivo para escribir los archivos de salida. Por ejemplo, gs://bucket-name/path/. El valor debe terminar con una barra.
outputFilenamePrefix Prefijo para colocar en cada archivo con ventanas. Por ejemplo, output-
outputFilenameSuffix El sufijo para colocar en cada archivo con ventana, por lo general, es una extensión de archivo como .txt o .csv.
outputShardTemplate La plantilla de fragmentación define la parte dinámica de la parte de cada archivo con ventanas. De forma predeterminada, la canalización utiliza una única fragmentación de salida para el sistema de archivo dentro de cada ventana. Esto significa que todos los datos llegarán a un único archivo por ventana. El valor predeterminado outputShardTemplate es W-P-SS-of-NN, en el que W es el período de la ventana, P es la información del panel, S es el número de fragmento y N es la cantidad de fragmentos. En el caso de un solo archivo, la parte SS-of-NN de outputShardTemplate será 00-of-01.

Ejecuta la plantilla de texto de Cloud Pub/Sub a Cloud Storage

CONSOLE

Ejecuta desde Google Cloud Platform Console
  1. Ve a la página Cloud Dataflow en GCP Console.
  2. Ir a la página de Cloud Dataflow
  3. Haz clic en Crear un trabajo a partir de una plantilla.
  4. Botón Crear trabajo a partir de una plantilla de Cloud Platform Console
  5. Selecciona the Cloud Pub/Sub to Cloud Storage Text template del menú desplegable Plantilla de Cloud Dataflow.
  6. Ingresa un nombre para el trabajo en el campo Nombre del trabajo. El nombre de tu trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para ser válido.
  7. Ingresa los valores de tus parámetros en los campos de parámetros provistos.
  8. Haz clic en Ejecutar trabajo.

GCLOUD

Ejecuta desde la herramienta de línea de comandos de gcloud

Nota: Para usar la herramienta de línea de comandos de gcloud a fin de ejecutar plantillas, debes tener la versión 138.0.0 o superior del SDK de Cloud.

Cuando ejecutes esta plantilla, necesitarás la ruta de acceso de Cloud Storage a la plantilla:

gs://dataflow-templates/VERSION/Cloud_PubSub_to_GCS_Text

En este ejemplo, debes reemplazar los valores siguientes:

  • Reemplaza YOUR-PROJECT_ID por el ID del proyecto.
  • Reemplaza JOB_NAME por un nombre a elección para el trabajo. El nombre del trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para que sea válido.
  • Reemplaza [YOUR_TOPIC_NAME] por el nombre de tu tema de Cloud Pub/Sub.
  • Reemplaza YOUR_BUCKET_NAME por el nombre del depósito de Cloud Storage.
gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Cloud_PubSub_to_GCS_Text \
    --parameters \
inputTopic=projects/YOUR_PROJECT_ID/topics/YOUR_TOPIC_NAME,\
outputDirectory=gs://YOUR_BUCKET_NAME/output/,\
outputFilenamePrefix=output-,\
outputFilenameSuffix=.txt

API

Ejecuta desde la API de REST

Cuando ejecutes esta plantilla, necesitarás la ruta de acceso de Cloud Storage a la plantilla:

gs://dataflow-templates/VERSION/Cloud_PubSub_to_GCS_Text

Para ejecutar esta plantilla con una solicitud a la API de REST, envía una solicitud HTTP POST con tu ID del proyecto. Esta solicitud requiere autorización.

En este ejemplo, debes reemplazar los valores siguientes:

  • Reemplaza YOUR-PROJECT_ID por el ID del proyecto.
  • Reemplaza JOB_NAME por un nombre a elección para el trabajo. El nombre del trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para que sea válido.
  • Reemplaza [YOUR_TOPIC_NAME] por el nombre de tu tema de Cloud Pub/Sub.
  • Reemplaza YOUR_BUCKET_NAME por el nombre del depósito de Cloud Storage.
POST https://dataflow.googleapis.com/v1b3/projects/YOUR_PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Cloud_PubSub_to_GCS_Text
{
   "jobName": "JOB_NAME",
   "parameters": {
       "inputTopic": "projects/YOUR_PROJECT_ID/topics/YOUR_TOPIC_NAME"
       "outputDirectory": "gs://YOUR_BUCKET_NAME/output/",
       "outputFilenamePrefix": "output-",
       "outputFilenameSuffix": ".txt",
   },
   "environment": { "zone": "us-central1-f" }
}

Texto de Cloud Storage a BigQuery (transmisión)

La canalización de texto de Cloud Storage a BigQuery (transmisión) es una canalización de transmisión que te permite transmitir archivos de texto almacenados en Cloud Storage, transformarlos con una función definida por el usuario (UDF) de JavaScript que proporciones y enviar el resultado a BigQuery.

Requisitos para esta canalización:

  • Crea un archivo de esquema de BigQuery con formato JSON que describa la tabla de salida.
    {
        'fields': [{
            'name': 'location',
            'type': 'STRING'
        }, {
            'name': 'name',
            'type': 'STRING'
        }, {
            'name': 'age',
            'type': 'STRING',
        }, {
            'name': 'color',
            'type': 'STRING'
        }, {
            'name': 'coffee',
            'type': 'STRING',
            'mode': 'REQUIRED'
        }, {
            'name': 'cost',
            'type': 'NUMERIC',
            'mode': 'REQUIRED'
        }]
    }
    
  • Crea un archivo JavaScript (.js) con tu función UDF que proporcione la lógica para transformar las líneas de texto. Ten en cuenta que tu función debe mostrar una string JSON.

    Por ejemplo, esta función divide cada línea de un archivo CSV y muestra una string JSON después de transformar los valores.

    function transform(line) {
    var values = line.split(',');
    
    var obj = new Object();
    obj.location = values[0];
    obj.name = values[1];
    obj.age = values[2];
    obj.color = values[3];
    obj.coffee = values[4];
    var jsonString = JSON.stringify(obj);
    
    return jsonString;
    }
    

Parámetros de la plantilla

Parámetro Descripción
javascriptTextTransformGcsPath Ubicación de Cloud Storage de tu UDF de JavaScript. Por ejemplo: gs://my_bucket/my_function.js.
JSONPath Ubicación de Cloud Storage de tu archivo de esquema de BigQuery, descrito como un JSON. Por ejemplo: gs://path/to/my/schema.json.
javascriptTextTransformFunctionName El nombre de la función de JavaScript que quieres nombrar como tu UDF. Por ejemplo: transform.
outputTable La tabla de BigQuery calificada por completo. Por ejemplo: my-project:dataset.table
inputFilePattern Ubicación en Cloud Storage del texto que quieres procesar. Por ejemplo: gs://my-bucket/my-files/text.txt.
bigQueryLoadingTemporaryDirectory Directorio temporal para el proceso de carga de BigQuery. Por ejemplo: gs://my-bucket/my-files/temp_dir
outputDeadletterTable La tabla de mensajes no pudo llegar a la tabla de salida (también conocida como tabla de mensajes no enviados). Por ejemplo: my-project:dataset.my-deadletter-table. Si no existe, se creará durante la ejecución de la canalización. Si no se especifica, se usa <outputTableSpec>_error_records en su lugar.

Ejecuta la plantilla de texto de Cloud Storage a BigQuery (transmisión)

CONSOLE

Ejecuta desde Google Cloud Platform Console
  1. Ve a la página Cloud Dataflow en GCP Console.
  2. Ir a la página de Cloud Dataflow
  3. Haz clic en Crear un trabajo a partir de una plantilla.
  4. Botón Crear trabajo a partir de una plantilla de Cloud Platform Console
  5. Selecciona the Cloud Storage Text to BigQuery template del menú desplegable Plantilla de Cloud Dataflow.
  6. Ingresa un nombre para el trabajo en el campo Nombre del trabajo. El nombre de tu trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para ser válido.
  7. Ingresa los valores de tus parámetros en los campos de parámetros provistos.
  8. Haz clic en Ejecutar trabajo.

GCLOUD

Ejecuta desde la herramienta de línea de comandos de gcloud

Nota: Para usar la herramienta de línea de comandos de gcloud a fin de ejecutar plantillas, debes tener la versión 138.0.0 o superior del SDK de Cloud.

Cuando ejecutes esta plantilla, necesitarás la ruta de acceso de Cloud Storage a la plantilla:

gs://dataflow-templates/VERSION/Stream_GCS_Text_to_BigQuery

En este ejemplo, debes reemplazar los valores siguientes:

  • Reemplaza YOUR-PROJECT_ID por el ID del proyecto.
  • Reemplaza JOB_NAME por un nombre a elección para el trabajo. El nombre del trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para que sea válido.
  • Reemplaza YOUR_JAVASCRIPT_FUNCTION por el nombre de tu UDF.
  • Reemplaza PATH_TO_BIGQUERY_SCHEMA_JSON por la ruta de Cloud Storage al archivo JSON que contiene la definición del esquema.
  • Reemplaza PATH_TO_JAVASCRIPT_UDF_FILE por la ruta de Cloud Storage al archivo .js que contiene el código JavaScript.
  • Reemplaza PATH_TO_YOUR_TEXT_DATA por tu ruta de Cloud Storage al conjunto de datos de texto.
  • Reemplaza BIGQUERY_TABLE por el nombre de la tabla de BigQuery.
  • Reemplaza BIGQUERY_DEADLETTER_TABLE por el nombre de la tabla de los mensajes no enviados de BigQuery.
  • Reemplaza PATH_TO_TEMP_DIR_ON_GCS por la ruta de Cloud Storage al directorio temporal.
gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Stream_GCS_Text_to_BigQuery \
    --parameters \
javascriptTextTransformFunctionName=YOUR_JAVASCRIPT_FUNCTION,\
JSONPath=PATH_TO_BIGQUERY_SCHEMA_JSON,\
javascriptTextTransformGcsPath=PATH_TO_JAVASCRIPT_UDF_FILE,\
inputFilePattern=PATH_TO_YOUR_TEXT_DATA,\
outputTable=BIGQUERY_TABLE,\
outputDeadletterTable=BIGQUERY_DEADLETTER_TABLE,\
bigQueryLoadingTemporaryDirectory=PATH_TO_TEMP_DIR_ON_GCS

API

Ejecuta desde la API de REST

Cuando ejecutes esta plantilla, necesitarás la ruta de acceso de Cloud Storage a la plantilla:

gs://dataflow-templates/VERSION/Stream_GCS_Text_to_BigQuery

Para ejecutar esta plantilla con una solicitud a la API de REST, envía una solicitud HTTP POST con tu ID del proyecto. Esta solicitud requiere autorización.

En este ejemplo, debes reemplazar los valores siguientes:

  • Reemplaza YOUR-PROJECT_ID por el ID del proyecto.
  • Reemplaza JOB_NAME por un nombre a elección para el trabajo. El nombre del trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para que sea válido.
  • Reemplaza YOUR_JAVASCRIPT_FUNCTION por el nombre de tu UDF.
  • Reemplaza PATH_TO_BIGQUERY_SCHEMA_JSON por la ruta de Cloud Storage al archivo JSON que contiene la definición del esquema.
  • Reemplaza PATH_TO_JAVASCRIPT_UDF_FILE por la ruta de Cloud Storage al archivo .js que contiene el código JavaScript.
  • Reemplaza PATH_TO_YOUR_TEXT_DATA por tu ruta de Cloud Storage al conjunto de datos de texto.
  • Reemplaza BIGQUERY_TABLE por el nombre de la tabla de BigQuery.
  • Reemplaza BIGQUERY_DEADLETTER_TABLE por el nombre de la tabla de los mensajes no enviados de BigQuery.
  • Reemplaza PATH_TO_TEMP_DIR_ON_GCS por la ruta de Cloud Storage al directorio temporal.
POST https://dataflow.googleapis.com/v1b3/projects/YOUR_PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Stream_GCS_Text_to_BigQuery
{
   "jobName": "JOB_NAME",
   "parameters": {
       "javascriptTextTransformFunctionName": "YOUR_JAVASCRIPT_FUNCTION",
       "JSONPath": "PATH_TO_BIGQUERY_SCHEMA_JSON",
       "javascriptTextTransformGcsPath": "PATH_TO_JAVASCRIPT_UDF_FILE",
       "inputFilePattern":"PATH_TO_YOUR_TEXT_DATA",
       "outputTable":"BIGQUERY_TABLE",
       "outputDeadletterTable":"BIGQUERY_DEADLETTER_TABLE",
       "bigQueryLoadingTemporaryDirectory": "PATH_TO_TEMP_DIR_ON_GCS"
   },
   "environment": { "zone": "us-central1-f" }
}

Cloud Storage Text a Cloud Pub/Sub (transmisión)

Con esta plantilla, se crea una canalización de transmisión que sondea de manera continua los archivos de texto nuevos subidos a Cloud Storage, lee cada línea del archivo y publica strings en un tema de Cloud Pub/Sub. Publica registros en un archivo delimitado por saltos de línea que contiene registros JSON o un archivo CSV en un tema de Cloud Pub/Sub para el procesamiento en tiempo real. Puedes usar esta plantilla para reproducir datos en Cloud Pub/Sub.

Actualmente, el intervalo de sondeo es fijo y configurado en 10 segundos. Esta plantilla no establece una marca de tiempo en los registros individuales. Es por eso que la hora del evento será la misma que la hora de publicación durante la ejecución. Si tu canalización depende de la hora precisa del evento para el procesamiento, no deberías usar esta canalización.

Requisitos para esta canalización:

  • Los archivos de entrada deben tener el formato JSON delimitado por saltos de línea o CSV. Los registros que abarcan varias líneas en los archivos de origen pueden causar problemas de bajada, ya que cada línea dentro de los archivos se publicará como un mensaje en Cloud Pub/Sub.
  • El tema de Cloud Pub/Sub debe existir antes de la ejecución.
  • La canalización se ejecuta de forma indefinida, y deberás detenerla de forma manual.

Parámetros de la plantilla

Parámetro Descripción
inputFilePattern Patrón del archivo de entrada en el que se desea leer. Por ejemplo, gs://bucket-name/files/*.json.
outputTopic Tema de entrada de Cloud Pub/Sub en el que desea escribir. El nombre del tema debe tener el formato projects/<project-id>/topics/<topic-name>

Ejecuta la plantilla de texto de Cloud Storage a Cloud Pub/Sub (transmisión)

CONSOLE

Ejecuta desde Google Cloud Platform Console
  1. Ve a la página Cloud Dataflow en GCP Console.
  2. Ir a la página de Cloud Dataflow
  3. Haz clic en Crear un trabajo a partir de una plantilla.
  4. Botón Crear trabajo a partir de una plantilla de Cloud Platform Console
  5. Selecciona the Cloud Storage Text to Cloud Pub/Sub (Stream) template del menú desplegable Plantilla de Cloud Dataflow.
  6. Ingresa un nombre para el trabajo en el campo Nombre del trabajo. El nombre de tu trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para ser válido.
  7. Ingresa los valores de tus parámetros en los campos de parámetros provistos.
  8. Haz clic en Ejecutar trabajo.

GCLOUD

Ejecuta desde la herramienta de línea de comandos de gcloud

Nota: Para usar la herramienta de línea de comandos de gcloud a fin de ejecutar plantillas, debes tener la versión 138.0.0 o superior del SDK de Cloud.

Cuando ejecutes esta plantilla, necesitarás la ruta de acceso de Cloud Storage a la plantilla:

gs://dataflow-templates/VERSION/Stream_GCS_Text_to_Cloud_PubSub

En este ejemplo, debes reemplazar los valores siguientes:

  • Reemplaza YOUR-PROJECT_ID por el ID del proyecto.
  • Reemplaza JOB_NAME por un nombre a elección para el trabajo. El nombre del trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para que sea válido.
  • Reemplaza [YOUR_TOPIC_NAME] por el nombre de tu tema de Cloud Pub/Sub.
  • Reemplaza [YOUR_BUCKET_NAME] por el nombre del depósito de Cloud Storage.
gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Stream_GCS_Text_to_Cloud_PubSub \
    --parameters \
inputFilePattern=gs://YOUR_BUCKET_NAME/files/*.json,\
outputTopic=projects/YOUR_PROJECT_ID/topics/YOUR_TOPIC_NAME

API

Ejecuta desde la API de REST

Cuando ejecutes esta plantilla, necesitarás la ruta de acceso de Cloud Storage a la plantilla:

gs://dataflow-templates/VERSION/Stream_GCS_Text_to_Cloud_PubSub

Para ejecutar esta plantilla con una solicitud a la API de REST, envía una solicitud HTTP POST con tu ID del proyecto. Esta solicitud requiere autorización.

En este ejemplo, debes reemplazar los valores siguientes:

  • Reemplaza YOUR-PROJECT_ID por el ID del proyecto.
  • Reemplaza JOB_NAME por un nombre a elección para el trabajo. El nombre del trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para que sea válido.
  • Reemplaza [YOUR_TOPIC_NAME] por el nombre de tu tema de Cloud Pub/Sub.
  • Reemplaza [YOUR_BUCKET_NAME] por el nombre del depósito de Cloud Storage.
POST https://dataflow.googleapis.com/v1b3/projects/YOUR_PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Stream_GCS_Text_to_Cloud_PubSub
{
   "jobName": "JOB_NAME",
   "parameters": {
       "inputFilePattern": "gs://YOUR_BUCKET_NAME/files/*.json",
       "outputTopic": "projects/YOUR_PROJECT_ID/topics/YOUR_TOPIC_NAME"
   },
   "environment": { "zone": "us-central1-f" }
}

Enmascara y asigna tokens de datos mediante Cloud DLP desde Cloud Storage a BigQuery (transmisión)

El enmascaramiento de datos y la asignación de tokens mediante Cloud DLP de Cloud Storage a BigQuery es una canalización de transmisión que lee archivos csv de un depósito de Cloud Storage, llama a la API de Cloud Data Loss Prevention (Cloud DLP) para la desidentificación de datos en la tabla de BigQuery especificada. Esta plantilla admite el uso de una plantilla de inspección de Cloud DLP y una plantilla de desidentificación de Cloud DLP. Esto permite que los usuarios inspeccionen información que puede ser sensible y desidentificar datos estructurados en los que las columnas están especificadas para ser desidentificadas y no se necesita la inspección.

Requisitos para esta canalización:

  • Los datos de entrada para la asignación de tokens deben existir
  • Las plantillas de Cloud DLP deben existir (por ejemplo, InspectTemplate y DeidentifyTemplate). Consulta Plantillas de Cloud DLP para obtener más detalles.
  • El conjunto de datos de BigQuery debe existir

Parámetros de la plantilla

Parámetro Descripción
inputFilePattern Los archivos csv desde los que se deben leer los registros de datos de entrada. También se acepta el comodín. Por ejemplo, gs://mybucket/my_csv_filename.csv o gs://mybucket/file-*.csv.
dlpProjectId ID del proyecto de Cloud DLP que posee el recurso de la API de Cloud DLP. Este proyecto de Cloud DLP puede ser el mismo que posee las plantillas de Cloud DLP, o puede ser uno independiente. Por ejemplo, my_dlp_api_project.
deidentifyTemplateName Plantilla de desidentificación de Cloud DLP que se usa para las solicitudes a la API, especificada con el patrón projects/{template_project_id}/deidentifyTemplates/{deIdTemplateId}. Por ejemplo, projects/my_project/deidentifyTemplates/100.
datasetName Conjunto de datos de BigQuery para enviar resultados con asignación de token.
batchSize Tamaño de fragmentación o del lote para enviar datos a fin de inspeccionar o quitar la asignación de token. En el caso de un archivo csv, batchSize es la cantidad de filas en un lote. Los usuarios deben determinar el tamaño del lote según el tamaño de los registros y del archivo. Ten en cuenta que la API de Cloud DLP tiene un límite de tamaño de carga útil de 524 KB por llamada a la API.
inspectTemplateName Plantilla de inspección de Cloud DLP que se usará para solicitudes a la API, especificada con el patrón projects/{template_project_id}/identifyTemplates/{idTemplateId} (opcional). Por ejemplo, projects/my_project/identifyTemplates/100.

Ejecuta el enmascaramiento de datos y la asignación de token con Cloud DLP desde Cloud Storage a la plantilla de BigQuery

CONSOLE

Ejecuta desde Google Cloud Platform Console
  1. Ve a la página Cloud Dataflow en GCP Console.
  2. Ir a la página de Cloud Dataflow
  3. Haz clic en Crear un trabajo a partir de una plantilla.
  4. Botón Crear trabajo a partir de una plantilla de Cloud Platform Console
  5. Selecciona the Data Masking/Tokenization using Cloud DLP from Cloud Storage to BigQuery (Stream) template del menú desplegable Plantilla de Cloud Dataflow.
  6. Ingresa un nombre para el trabajo en el campo Nombre del trabajo. El nombre de tu trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para ser válido.
  7. Ingresa los valores de tus parámetros en los campos de parámetros provistos.
  8. Haz clic en Ejecutar trabajo.

GCLOUD

Ejecuta desde la herramienta de línea de comandos de gcloud

Nota: Para usar la herramienta de línea de comandos de gcloud a fin de ejecutar plantillas, debes tener la versión 138.0.0 o superior del SDK de Cloud.

Cuando ejecutes esta plantilla, necesitarás la ruta de acceso de Cloud Storage a la plantilla:

gs://dataflow-templates/VERSION/Stream_DLP_GCS_Text_to_BigQuery

En este ejemplo, debes reemplazar los valores siguientes:

  • Reemplaza YOUR_TEMPLATE_PROJECT_ID por el ID del proyecto de la plantilla.
  • Reemplaza YOUR_DLP_API_PROJECT_ID por el ID del proyecto de la API de Cloud DLP.
  • Reemplaza JOB_NAME por un nombre a elección para el trabajo. El nombre del trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para que sea válido.
  • Reemplaza YOUR_INPUT_DATA por la ruta del archivo de entrada.
  • Reemplaza YOUR_DEIDENTIFY_TEMPLATE por el número de plantilla de Cloud DLPDeidentify.
  • Reemplaza YOUR_DATASET_NAME por el nombre del conjunto de datos de BigQuery.
  • Reemplaza YOUR_INSPECT_TEMPLATE por el número de plantilla de Cloud DLPInspect
  • Reemplaza BATCH_SIZE_VALUE por el tamaño del lote (cantidad de filas por API para csv).
gcloud dataflow jobs run JOB_NAME \
    --gcs-location gs://dataflow-templates/latest/Stream_DLP_GCS_Text_to_BigQuery \
    --parameters \
inputFilePattern=YOUR_INPUT_DATA,\
dlpProjectId=YOUR_DLP_API_PROJECT_ID,\
deidentifyTemplateName=projects/YOUR_TEMPLATE_PROJECT_ID/deidentifyTemplates/YOUR_DEIDENTIFY_TEMPLATE,\
inspectTemplateName=projects/YOUR_TEMPLATE_PROJECT_ID/identifyTemplates/YOUR_IDENTIFY_TEMPLATE,\
datasetName=YOUR_DATASET,\
batchSize=BATCH_SIZE_VALUE

API

Ejecuta desde la API de REST

Cuando ejecutes esta plantilla, necesitarás la ruta de acceso de Cloud Storage a la plantilla:

gs://dataflow-templates/VERSION/Stream_DLP_GCS_Text_to_BigQuery

Para ejecutar esta plantilla con una solicitud a la API de REST, envía una solicitud HTTP POST con tu ID del proyecto. Esta solicitud requiere autorización.

En este ejemplo, debes reemplazar los valores siguientes:

  • Reemplaza YOUR_TEMPLATE_PROJECT_ID por el ID del proyecto de la plantilla.
  • Reemplaza YOUR_DLP_API_PROJECT_ID por el ID del proyecto de la API de Cloud DLP.
  • Reemplaza JOB_NAME por un nombre a elección para el trabajo. El nombre del trabajo debe coincidir con la expresión regular [a-z]([-a-z0-9]{0,38}[a-z0-9])? para que sea válido.
  • Reemplaza YOUR_INPUT_DATA por la ruta del archivo de entrada.
  • Reemplaza YOUR_DEIDENTIFY_TEMPLATE por el número de plantilla de Cloud DLPDeidentify.
  • Reemplaza YOUR_DATASET_NAME por el nombre del conjunto de datos de BigQuery.
  • Reemplaza YOUR_INSPECT_TEMPLATE por el número de plantilla de Cloud DLPInspect
  • Reemplaza BATCH_SIZE_VALUE por el tamaño del lote (cantidad de filas por API para csv).
POST https://dataflow.googleapis.com/v1b3/projects/YOUR_PROJECT_ID/templates:launch?gcsPath=gs://dataflow-templates/latest/Stream_DLP_GCS_Text_to_BigQuery
{
   "jobName": "JOB_NAME",
   "parameters": {
      "inputFilePattern":YOUR_INPUT_DATA,
      "dlpProjectId": "YOUR_DLP_API_PROJECT_ID",
      "deidentifyTemplateName": "projects/YOUR_TEMPLATE_PROJECT_ID/deidentifyTemplates/YOUR_DEIDENTIFY_TEMPLATE".
      "inspectTemplateName": "projects/YOUR_TEMPLATE_PROJECT_ID/identifyTemplates/YOUR_IDENTIFY_TEMPLATE",
      "datasetName": "YOUR_DATASET",
      "batchSize": "BATCH_SIZE_VALUE"
   },
   "environment": { "zone": "us-central1-f" }
}
¿Te sirvió esta página? Envíanos tu opinión:

Enviar comentarios sobre…

¿Necesitas ayuda? Visita nuestra página de asistencia.