Se usó la API de Cloud Translation para traducir esta página.

Crea y programa trabajos de inspección de la protección de datos sensibles

En este tema, se describe en detalle cómo crear un trabajo de inspección de la protección de datos sensibles y cómo programar trabajos de inspección recurrentes mediante la creación de un activador de trabajo. Para obtener una explicación rápida sobre cómo crear un nuevo activador de trabajo con la IU de protección de datos sensibles, consulta la Guía de inicio rápido: Crea un activador de trabajo de protección de datos sensibles.

Acerca de los trabajos de inspección y activadores de trabajos

Cuando la Protección de datos sensibles realiza un análisis de inspección para identificar datos sensibles, cada análisis se ejecuta como un trabajo. La protección de datos sensibles crea y ejecuta un recurso de trabajo cada vez que le indicas que inspeccione tus repositorios de almacenamiento de Google Cloud, incluidos los buckets de Cloud Storage, las tablas de BigQuery, los tipos de Datastore y los datos externos.

Para programar trabajos de análisis de inspección de la protección de datos sensibles, crea activadores de trabajo. Un activador de trabajo automatiza la creación de trabajos de protección de datos sensibles de forma periódica y también se puede ejecutar a pedido.

Para obtener más información sobre los trabajos y los activadores de trabajo en la protección de datos sensibles, consulta la página conceptual Trabajos y activadores de trabajo.

Crea un trabajo de inspección nuevo

Para crear un nuevo trabajo de inspección de la protección de datos sensibles, haz lo siguiente:

Console

En la sección Protección de datos sensibles de la consola de Google Cloud, ve a la página Crear trabajo o activador de trabajo.

Ir a Crear trabajo o activador de trabajo

La página Crear trabajo o activador de trabajo contiene las siguientes secciones:

Elige los datos de entrada
Configurar detección
Agrega acciones
Repaso

Elige los datos de entrada

Nombre

Ingresa un nombre para el trabajo. Puedes usar letras, números y guiones. Asignar un nombre a tu trabajo es opcional. Si no ingresas un nombre, la Protección de datos sensibles le asignará un identificador de número único al trabajo.

Ubicación

En el menú Tipo de almacenamiento, elige el tipo de repositorio que almacena los datos que deseas analizar:

Cloud Storage: ingresa la URL del bucket que deseas analizar o selecciona Incluir/excluir en el menú Tipo de ubicación y, luego, haz clic en Examinar para navegar al bucket o subcarpeta que deseas analizar. Selecciona la casilla de verificación Analizar carpeta de forma recurrente para analizar el directorio especificado y todos los directorios contenidos. Déjalo sin seleccionar para analizar solo el directorio especificado y nada más.
BigQuery: ingresa los identificadores del proyecto, el conjunto de datos y la tabla que deseas analizar.
Datastore: ingresa los identificadores para el proyecto, el espacio de nombres (opcional) y el tipo que deseas analizar.
Híbrido: Puedes agregar etiquetas obligatorias, opcionales y opciones para controlar datos tabulares. Para obtener más información, consulta Tipos de metadatos que puedes proporcionar.

Muestreo

El muestreo es una forma opcional de ahorrar recursos si tienes una gran cantidad de datos.

En Muestreo, puedes elegir si deseas analizar todos los datos seleccionados o tomar muestras de un porcentaje determinado. El muestreo funciona de manera diferente según el tipo de repositorio de almacenamiento que analices:

Para BigQuery, puedes muestrear un subconjunto del total de filas seleccionadas, que corresponde al porcentaje de archivos que especificas en el análisis.
En el caso de Cloud Storage, si algún archivo supera el tamaño especificado en el tamaño máximo de bytes para analizar por archivo, la Protección de datos sensibles lo analiza hasta ese tamaño máximo y, luego, pasa al siguiente archivo.

Para activar el muestreo, elige una de las siguientes opciones del primer menú:

Iniciar el muestreo desde la parte superior: La protección de datos sensibles inicia el análisis parcial al principio de los datos. Para BigQuery, esto inicia el análisis en la primera fila. En Cloud Storage, esto inicia el análisis al comienzo de cada archivo y se detiene una vez que la protección de datos sensibles analiza hasta un tamaño de archivo máximo especificado.
Iniciar el muestreo desde el inicio aleatorio: La protección de datos sensibles inicia el análisis parcial en una ubicación aleatoria dentro de los datos. Para BigQuery, esto inicia el análisis en una fila aleatoria. Para Cloud Storage, esta configuración solo se aplica a los archivos que superan cualquier tamaño máximo especificado. La protección de datos sensibles analiza los archivos por debajo del tamaño máximo en su totalidad y los archivos por encima del tamaño máximo hasta el máximo.

Para realizar un análisis parcial, también debes elegir qué porcentaje de los datos deseas analizar. Usa el control deslizante para establecer el porcentaje.

También puedes acotar los archivos o registros para analizarlos por fecha. Para obtener información sobre cómo hacerlo, consulta Programa más adelante en este tema.

Configuración avanzada

Cuando creas un trabajo para un análisis de depósitos de Cloud Storage o tablas de BigQuery, puedes limitar tu búsqueda si especificas una configuración avanzada. Específicamente, puedes configurar lo siguiente:

Archivos (solo Cloud Storage): los tipos de archivo que se deben analizar, incluidos los archivos de texto, binarios e imágenes.
Campos de identificación (solo BigQuery): identificadores de fila únicos dentro de la tabla.
En el caso de Cloud Storage, si algún archivo supera el tamaño especificado en el tamaño máximo de bytes para analizar por archivo, la Protección de datos sensibles lo analiza hasta ese tamaño máximo y, luego, pasa al siguiente archivo.

Para activar el muestreo, elige el porcentaje de datos que deseas analizar. Usa el control deslizante para establecer el porcentaje. Luego, elige una de las siguientes opciones del primer menú:

Iniciar el muestreo desde la parte superior: La protección de datos sensibles inicia el análisis parcial al principio de los datos. Para BigQuery, esto inicia el análisis en la primera fila. En Cloud Storage, esto inicia el análisis al comienzo de cada archivo y se detiene una vez que la protección de datos sensibles analiza hasta un tamaño de archivo máximo especificado (consulta la sección anterior).
Iniciar el muestreo desde el inicio aleatorio: La protección de datos sensibles inicia el análisis parcial en una ubicación aleatoria dentro de los datos. Para BigQuery, esto inicia el análisis en una fila aleatoria. Para Cloud Storage, esta configuración solo se aplica a los archivos que superan cualquier tamaño máximo especificado. La protección de datos sensibles analiza los archivos por debajo del tamaño máximo en su totalidad y los archivos por encima del tamaño máximo hasta el máximo.

Archivos

Para los archivos almacenados en Cloud Storage, puedes especificar los tipos que se incluirán en tu análisis en Archivos.

Puedes elegir entre archivos binarios, de texto, de imagen, CSV, TSV, Microsoft Word, Microsoft Excel, Microsoft Powerpoint, PDF y Apache Avro. Para ver una lista completa de las extensiones de archivo que la protección de datos sensibles puede analizar en los buckets de Cloud Storage, consulta FileType. Si eliges Binario, la protección de datos sensibles analiza archivos de tipos que no se reconocen.

Campos de identificación

Para las tablas en BigQuery, en el campo Identificación de campos, puedes indicar la protección de datos sensibles para que incluya los valores de las columnas de clave primaria de la tabla en los resultados. Esto te permite vincular los resultados a las filas de la tabla que los contienen.

Ingresa los nombres de las columnas que identifican de manera única cada fila dentro de la tabla. Si es necesario, usa la notación de puntos para especificar campos anidados. Puedes agregar todos los campos que desees.

También debes activar la acción Guardar en BigQuery para exportar los resultados a BigQuery. Cuando los resultados se exportan a BigQuery, cada uno de ellos contiene los valores respectivos de los campos de identificación. Para obtener más información, consulta identifyingFields.

Configura la detección

En la sección Configura la detección especificas los tipos de datos sensibles que deseas analizar. Completar esta sección es opcional. Si omites esta sección, la Protección de datos sensibles analizará tus datos en busca de un conjunto predeterminado de infoTypes.

Plantilla

De forma opcional, puedes usar una plantilla de protección de datos sensibles para reutilizar la información de configuración que especificaste anteriormente.

Si ya creaste una plantilla que deseas usar, haz clic en el campo Nombre de la plantilla para ver una lista de las plantillas de inspección existentes. Elige o escribe el nombre de la plantilla que deseas usar.

Para obtener más información sobre la creación de plantillas, consulta Crea plantillas de inspección de la protección de datos sensibles.

InfoTypes

Los detectores de Infotipo encuentran datos sensibles de un tipo determinado. Por ejemplo, el detector de Infotipo integrado de protección de datos sensibles US_SOCIAL_SECURITY_NUMBER busca números de seguridad social de EE.UU. Además de los detectores de Infotipo integrados, puedes crear tus propios detectores de Infotipo personalizados.

En InfoTypes, elige el detector de Infotipo que corresponda al tipo de datos que deseas analizar. No recomendamos dejar esta sección en blanco. Si lo haces, la Protección de datos sensibles analiza tus datos con un conjunto predeterminado de Infotipos, que pueden incluir Infotipos que no necesitas. Para obtener más información sobre cada detector, consulta Referencia del detector de Infotipos.

Si quieres obtener más información para administrar Infotipos integrados y personalizados en esta sección, consulta Administra Infotipos a través de la consola de Google Cloud.

Conjuntos de reglas de inspección

Umbral de confianza

Cada vez que la Protección de datos sensibles detecta una posible coincidencia con datos sensibles, le asigna un valor de probabilidad en una escala de “Muy improbable” a “Muy probable”. Cuando configuras un valor de probabilidad aquí, le indicas a la protección de datos sensibles que solo coincida con los datos que corresponden a ese valor de probabilidad o uno superior.

El valor predeterminado de “Posible” es suficiente para la mayoría de los propósitos. Si habitualmente obtienes coincidencias demasiado amplias, mueve el control deslizante hacia arriba. Si tienes muy pocas coincidencias, mueve el control deslizante hacia abajo.

Cuando finalices, haz clic en Continuar.

Agrega acciones

En el paso Agregar acciones, selecciona una o más acciones que deseas que la protección de datos sensibles realice después de que se complete el trabajo.

Puedes configurar las siguientes acciones:

Guardar en BigQuery: Guarda los resultados del trabajo de protección de datos sensibles en una tabla de BigQuery. Antes de ver o analizar los resultados, asegúrate de que el trabajo se haya completado.

Cada vez que se ejecuta un análisis, la protección de datos sensibles guarda los resultados del análisis en la tabla de BigQuery que especifiques. Los resultados exportados contienen detalles sobre la ubicación de cada resultado y la probabilidad de coincidencia. Si deseas que cada resultado incluya la string que coincidió con el detector de Infotipo, habilita la opción Incluir comillas.

Si no especificas un ID de tabla, BigQuery asigna un nombre predeterminado a una tabla nueva la primera vez que se ejecuta el análisis. Si especificas una tabla existente, Protección de datos sensibles le adjunta los resultados del análisis.

Si no guardas los resultados en BigQuery, estos solo contendrán estadísticas sobre la cantidad y los infotipos de los resultados.

Cuando los datos se escriben en una tabla de BigQuery, el uso de la facturación y las cuotas se aplican al proyecto que contiene la tabla de destino.
Publicar en Pub/Sub: publica una notificación que contenga el nombre del trabajo de protección de datos sensibles como un atributo en un canal de Pub/Sub. Puedes especificar uno o más temas a los que enviar el mensaje de notificación. Asegúrate de que la cuenta de servicio de protección de datos sensibles que ejecuta el trabajo de análisis tenga acceso de publicación sobre el tema.

Nota: Si hay problemas de configuración o permisos con el tema de Pub/Sub, la protección de datos sensibles vuelve a intentar enviar la notificación de Pub/Sub durante un máximo de dos semanas. Después de dos semanas, la notificación se descarta.
Publicar en Security Command Center: Publica un resumen de los resultados del trabajo en Security Command Center. Para obtener más información, consulta Envía los resultados del análisis de la protección de datos sensibles a Security Command Center.
Publicar en Dataplex: Envía los resultados de los trabajos a Dataplex, el servicio de administración de metadatos de Google Cloud.
Notificar por correo electrónico: Se envía un correo electrónico cuando se completa el trabajo. El correo electrónico va a los propietarios de proyectos de IAM y a los contactos esenciales técnicos.
Publicar en Cloud Monitoring: Envía los resultados de la inspección a Cloud Monitoring en Google Cloud's operations suite.
Haz una copia desidentificada: Desidentifica los resultados en los datos inspeccionados y escribe el contenido desidentificado en un archivo nuevo. Luego, puedes usar la copia desidentificada en tus procesos empresariales, en lugar de datos que contengan información sensible. Para obtener más información, consulta Crea una copia desidentificada de los datos de Cloud Storage mediante la protección de datos sensibles en la consola de Google Cloud.

Para obtener más información, consulta Acciones.

Cuando finalices de seleccionar las acciones, haz clic en Continuar.

Repaso

La sección Revisa contiene un resumen con formato JSON de la configuración del trabajo que acabas de especificar.

Haz clic en Crear para crear el trabajo (si no especificaste un programa) y ejecutar el trabajo una vez. Aparecerá la página de información del trabajo, que contiene el estado y otra información. Si el trabajo se encuentra en ejecución, puedes hacer clic en el botón Cancelar para detenerlo. También puedes borrar el trabajo si haces clic en Borrar.

Para volver a la página principal de Protección de datos sensibles, haz clic en la flecha Atrás en la consola de Google Cloud.

C#

Para obtener información sobre cómo instalar y usar la biblioteca cliente de la protección de datos sensibles, consulta Bibliotecas cliente de la protección de datos sensibles.

Para autenticarte en la protección de datos sensibles, configura las credenciales predeterminadas de la aplicación. Si deseas obtener más información, consulta Configura la autenticación para un entorno de desarrollo local.

Crea y programa trabajos de inspección de la protección de datos sensibles

Acerca de los trabajos de inspección y activadores de trabajos

Crea un trabajo de inspección nuevo

Console

Elige los datos de entrada

Nombre

Ubicación

Muestreo

Configuración avanzada

Archivos

Campos de identificación

Configura la detección

Plantilla

InfoTypes

Conjuntos de reglas de inspección

Umbral de confianza

Agrega acciones

Repaso

C#

Go

Java

Node.js

PHP

Python

REST

Crea un activador de trabajo nuevo

Console

Elige los datos de entrada

Nombre

Ubicación

Muestreo

Configuración avanzada

Archivos

Campos de identificación

Configura la detección

Plantilla

InfoTypes

Infotipos personalizados

Conjuntos de reglas de inspección

Umbral de confianza

Agrega acciones

Programa

Revisa

C#

Go

Java

Node.js

PHP

Python

REST

Enumera todos los trabajos

Console

C#

Go

Java

Node.js

PHP

Python

REST

Enumera todos los activadores de trabajo

Console

C#

Go

Java

Node.js

PHP

Python

REST

Borra un trabajo

Console

C#

Go

Java

Node.js

PHP

Python

REST

Borra un activador de trabajo

Console

C#