Los trabajos híbridos y activadores de trabajos son un conjunto de métodos de API asíncronos que te permiten analizar cargas útiles de datos enviados desde prácticamente cualquier fuente en busca de información sensible y, luego, almacenar los hallazgos en Google Cloud. Los trabajos híbridos te permiten escribir tus propios rastreadores de datos que se comportan y entregan datos de manera similar a los métodos de inspección de almacenamiento de Cloud Data Loss Prevention.
Mediante los trabajos híbridos, puedes transmitir datos desde cualquier fuente a Cloud DLP. Cloud DLP inspecciona los datos en busca de información sensible o PII y, luego, guarda los resultados del análisis de inspección en un recurso de trabajo de Cloud DLP. Puedes examinar los resultados del análisis en la IU o la API de la consola de Cloud DLP, o bien especificar las acciones posteriores al análisis que se ejecutarán, como guardar los datos de los resultados de la inspección en una tabla de BigQuery o emitir un notificación de Pub/Sub.
El flujo de los trabajos híbridos se resume en el siguiente diagrama:
En este tema conceptual, se describen los trabajos híbridos, los activadores de trabajo y su funcionamiento. Para obtener información sobre cómo implementar trabajos híbridos y activadores de trabajo, consulta Inspecciona datos externos mediante trabajos híbridos.
Acerca de los entornos híbridos
Los entornos híbridos son comunes en las organizaciones. Muchas organizaciones almacenan y procesan datos sensibles mediante alguna de las siguientes combinaciones:
- Otros proveedores de servicios en la nube
- Servidores locales y otros repositorios de datos
- Sistemas de almacenamiento no nativos, como los sistemas que se ejecutan dentro de una máquina virtual
- Apps web y para dispositivos móviles
- Soluciones basadas en Google Cloud
Mediante trabajos híbridos, Cloud DLP puede inspeccionar los datos que se le envían desde cualquiera de estas fuentes. A continuación, se muestran algunas situaciones de ejemplo:
- Inspecciona los datos almacenados en Amazon Relational Database Service (RDS), MySQL que se ejecuta dentro de una máquina virtual o en una base de datos local.
- Inspecciona y asigna tokens a los datos a medida que migras de las instalaciones locales a la nube o entre la producción, el desarrollo y el análisis.
- Inspecciona y oculta transacciones desde una aplicación web o para dispositivos móviles antes de almacenar los datos en reposo.
Opciones de inspección
Como se describe con más detalle en Tipos de métodos, cuando quieres inspeccionar contenido en datos sensibles, Cloud DLP proporciona tres opciones predeterminadas:
- Inspección de métodos de contenido: Cuando usas la inspección de contenido, transmites pequeñas cargas útiles de datos a Cloud DLP junto con instrucciones sobre qué inspeccionar. A continuación, Cloud DLP inspecciona los datos en busca de contenido sensible y PII, y, luego, te muestra los resultados de su análisis.
- Inspección de métodos de almacenamiento: Con la inspección de almacenamiento, Cloud DLP inspecciona un repositorio de almacenamiento basado en Google Cloud, como una base de datos de BigQuery, un bucket de Cloud Storage o un tipo de Datastore. Puedes indicarle a Cloud DLP qué inspeccionar y el motivo para hacerlo, y Cloud DLP ejecutar un trabajo que analizará el repositorio. Una vez que se completa el análisis, Cloud DLP guarda un resumen de los resultados en el trabajo. Además, puedes especificar que los resultados se envíen a otro producto de Google Cloud para su análisis, como otra tabla de BigQuery.
- Inspección de trabajos híbridos: Los trabajos híbridos ofrecen los beneficios de los dos métodos anteriores. Te permiten transmitir datos como lo harías con los métodos de contenido y, a su vez, obtener el almacenamiento, la visualización y las acciones de los trabajos de inspección de almacenamiento. Toda la configuración de inspección se administra dentro de Cloud DLP, y no se requiere ninguna configuración adicional del cliente. Los trabajos híbridos pueden ser útiles para analizar sistemas de almacenamiento no nativos, como una base de datos local, que se ejecuta en una máquina virtual (VM) o en otra nube. Los métodos híbridos también pueden ser útiles para inspeccionar sistemas de procesamiento, como cargas de trabajo de migración, o incluso para usar un proxy en la comunicación de servicio a servicio. Si bien los métodos de contenido también pueden hacer esto, los métodos híbridos te proporcionan el backend de almacenamiento de hallazgos que puede ordenar tus datos en varias llamadas a la API para que no tengas que hacerlo por tu cuenta.
Acerca de los trabajos híbridos y los activadores de trabajos
Un trabajo híbrido es una combinación de métodos de contenido y métodos de almacenamiento. El flujo de trabajo básico para los trabajos híbridos y activadores de trabajos es el siguiente:
- Escribes una secuencia de comandos o creas un flujo de trabajo que envía datos a Cloud DLP para su inspección junto con algunos metadatos.
- Configuras y creas un recurso o activador de trabajo híbrido y lo habilitas para que se active cuando recibe datos.
- La secuencia de comandos o el flujo de trabajo se ejecutan en el lado del cliente y envían datos a Cloud DLP en forma de una solicitud
hybridInspect
. Los datos incluyen un mensaje de activación y el identificador del activador de trabajo o del trabajo, que activa la inspección. - Cloud DLP inspecciona los datos según los criterios que estableciste en el trabajo híbrido o el activador.
- Cloud DLP guarda los resultados del análisis en el recurso de trabajo híbrido, junto con los metadatos que proporciones. Puedes examinar los resultados mediante la IU de Cloud DLP en Google Cloud Console.
- De forma opcional, Cloud DLP puede ejecutar acciones posteriores al análisis, como guardar datos de resultados de inspección en una tabla de BigQuery o notificarte por correo electrónico o Pub/Sub.
Un activador de trabajo híbrido te permite crear, activar y detener trabajos para que puedas activar acciones cuando sea necesario. Cuando te aseguras de que tu secuencia de comandos o código envía datos que incluyen el identificador del activador del trabajo híbrido, no necesitas actualizar la secuencia de comandos ni el código cada vez que se inicia un trabajo nuevo.
Situaciones típicas de trabajos híbridos
Los trabajos híbridos son adecuados para objetivos como los siguientes:
- Ejecutar un análisis único de una base de datos fuera de Google Cloud como parte de una verificación trimestral puntual de las bases de datos
- Supervisa todo el contenido nuevo que se agrega a diario en una base de datos que Cloud DLP no admite de forma nativa.
- Analiza los datos que ingresan a una base de datos mientras controlas cómo se particionan los datos.
- Supervisa el tráfico en una red mediante el filtro de Cloud DLP para Envoy (un filtro HTTP de WebAssembly para proxies de sidecar de Envoy) a fin de identificar el movimiento de datos sensibles problemáticos.
Para obtener información sobre cómo abordar estas situaciones, consulta Situaciones de inspección híbrida típicas.
Tipos de metadatos que puedes proporcionar
En esta sección, se describen los tipos de metadatos que puedes adjuntar a los datos externos que deseas inspeccionar o a los resultados.
Puedes establecer metadatos en los siguientes niveles:
Metadatos de un trabajo híbrido o activador de trabajo híbrido
En esta sección, se describen los tipos de metadatos que puedes adjuntar a un trabajo híbrido o activador de trabajo híbrido.
Etiquetas necesarias
En el activador del trabajo híbrido o del trabajo híbrido, puedes especificar una lista de etiquetas obligatorias que deben incluirse en todas las solicitudes de inspección híbrida que envías.
Se rechazan todas las solicitudes de ese trabajo híbrido o activador de trabajo híbrido que no incluya estas etiquetas obligatorias. Para obtener más información, consulta Requerir etiquetas de solicitudes hybridInspect
.
Etiquetas opcionales
Puedes especificar pares clave-valor para adjuntarlos a todos los resultados de un trabajo híbrido o un activador de trabajo híbrido. Por ejemplo, si quieres que todos los resultados de un trabajo híbrido tengan la etiqueta "env"="prod"
, debes especificar este par clave-valor cuando crees el trabajo híbrido.
Opciones de datos tabulares
Puedes especificar cualquier columna que sea identificador de fila (claves primarias) para los objetos de tabla en tus datos. Si las columnas especificadas existen en la tabla, los valores de las columnas dadas se incluyen junto con cada resultado para que puedas rastrear el resultado hasta la fila de la que proviene. Estas opciones tabulares solo se aplican a las solicitudes que envían datos tabulares, como un formato item.table
o byteItem
, como CSV.
Si conoces las claves primarias con anticipación, puedes configurarlas como campos de identificación cuando creas el trabajo híbrido o el activador de trabajo híbrido. Puedes enumerar hasta tres nombres de columna en el campo hybridOptions.tableOptions.identifyingFields
.
Metadatos en una solicitud hybridInspect
En esta sección, se describen los tipos de metadatos que puedes adjuntar a una solicitud hybridInspect
. Los metadatos que envías en una solicitud hybridInspect
solo se aplican a esa solicitud.
Detalles del contenedor
Cada solicitud que envías a un trabajo híbrido o activador de trabajo híbrido puede especificar detalles sobre la fuente de datos, incluidos los elementos como fullPath
, rootPath
, relativePath
, type
, version
y otros. Por ejemplo, si analizas tablas en una base de datos, puedes configurar los campos de la siguiente manera:
{
"hybridItem": {
"item": {...},
"findingDetails": {
"containerDetails": {
"fullPath": "10.0.0.20/database1/table1",
"relativePath": "table1",
"rootPath": "10.0.0.20/database1",
"type": "postgres",
"version": "9.6"
},
"labels": {...}
}
}
}
No puedes configurar los detalles del contenedor a nivel del trabajo híbrido o del activador de trabajo híbrido.
Etiquetas necesarias
Si configuras etiquetas obligatorias cuando creas un trabajo híbrido o un activador de trabajo híbrido, cualquier solicitud hybridInspect
que envíes a ese activador de trabajo híbrido o activador de trabajo híbrido debe incluir esas etiquetas. Para obtener más información, consulta Requerir etiquetas de solicitudes hybridInspect
.
Etiquetas opcionales
En cada solicitud hybridInspect
, puedes especificar pares clave-valor para adjuntarlos a cualquier resultado de esa solicitud. Este método te permite adjuntar diferentes etiquetas con cada solicitud hybridInspect
.
Opciones de datos tabulares
Puedes especificar cualquier columna que sea identificador de fila (claves primarias) para los objetos de tabla en tus datos. Si las columnas especificadas existen en la tabla, los valores de las columnas dadas se incluyen junto con cada resultado para que puedas rastrear el resultado hasta la fila de la que proviene. Estas opciones tabulares solo se aplican a las solicitudes que envían datos tabulares, como un formato item.table
o byteItem
, como CSV.
Si no conoces las claves primarias con anticipación, no es necesario configurarlas a nivel del activador del trabajo híbrido o del trabajo híbrido. Puedes configurarlas en tu solicitud hybridInspect
junto con los datos tabulares que se inspeccionarán. Todos los campos que enumeres a nivel de trabajo híbrido o activador de trabajo híbrido se combinarán con los que incluyas en la solicitud hybridInspect
.
Acciones admitidas
Al igual que otros trabajos de Cloud DLP, los trabajos híbridos admiten acciones. No todas las acciones se aplican a los trabajos híbridos. A continuación, se enumeran las acciones que se admiten en este momento junto con la información sobre su funcionamiento. Ten en cuenta que, con las acciones de Pub/Sub, correo electrónico y Cloud Monitoring, los resultados están disponibles cuando finaliza el trabajo.
- Guardar los resultados en DLP y Guardar los resultados en BigQuery: Los resultados se guardan en un recurso de Cloud DLP o en una tabla de BigQuery, respectivamente. Estas acciones funcionan con trabajos híbridos de manera similar a cómo funcionan en otros tipos de trabajos, con una diferencia importante: en los trabajos híbridos, los resultados están disponibles mientras se ejecuta el trabajo; en otros tipos de trabajos, los resultados están disponibles cuando finaliza el trabajo
- Enviar Pub/Sub: Cuando finaliza un trabajo, se emite un mensaje de Pub/Sub
- Enviar correo electrónico: Cuando se termina un trabajo, se envía un mensaje de correo electrónico
- Publicar en Cloud Monitoring: Cuando se completa un trabajo, sus resultados se publican en Monitoring
Resumen
Estas son algunas características clave y beneficios de usar trabajos híbridos y activadores de trabajos:
- Los trabajos híbridos te permiten transmitir datos a Cloud DLP prácticamente desde cualquier fuente, ya sea en la nube o fuera de ella.
- Los activadores de trabajos híbridos se activan cuando Cloud DLP recibe un flujo de datos que incluye un mensaje de activación y el identificador del activador de trabajo.
- Puedes esperar hasta que se complete el análisis de inspección o puedes detener el trabajo de forma manual. Los resultados de la inspección se guardan en Cloud DLP o BigQuery según si permites que el trabajo finalice o se detenga de forma anticipada.
- Los resultados del análisis de inspección de Cloud DLP de un activador de trabajo híbrido se guardan en un recurso de trabajo híbrido dentro de Cloud DLP.
- Puedes examinar los resultados del análisis de inspección en el recurso activador del trabajo en Cloud DLP.
- También puedes indicarle a Cloud DLP que, mediante una acción, envíe los resultados de trabajos híbridos a una base de datos de BigQuery y que te notifique por correo electrónico o mediante Pub/Sub.
¿Qué sigue?
- Si deseas aprender a usar trabajos híbridos y activadores de trabajos para recibir datos de inspección, consulta Envía datos externos a Cloud DLP mediante trabajos híbridos.