Descubrir e inspeccionar tus datos

En esta página se describen y comparan dos servicios de Protección de Datos Sensibles que le ayudan a comprender sus datos y a habilitar flujos de trabajo de gobernanza de datos: el servicio de descubrimiento y el servicio de inspección.

Descubrimiento de datos sensibles

El servicio de descubrimiento monitoriza los datos de toda tu organización. Este servicio se ejecuta de forma continua y descubre, clasifica y crea perfiles de datos automáticamente. Discovery puede ayudarte a conocer la ubicación y la naturaleza de los datos que almacenas, incluidos los recursos de datos que quizás no conozcas. Los datos desconocidos (a veces denominados datos ocultos) no suelen someterse al mismo nivel de gobierno de datos y gestión de riesgos que los datos conocidos.

Puedes configurar el descubrimiento en varios ámbitos. Puedes definir diferentes programaciones de creación de perfiles para distintos subconjuntos de datos. También puedes excluir subconjuntos de datos que no necesites crear perfiles.

Resultados del análisis de descubrimiento: perfiles de datos

El resultado de un análisis de detección es un conjunto de perfiles de datos de cada recurso de datos incluido en el ámbito. Por ejemplo, un análisis de descubrimiento de datos de BigQuery o Cloud SQL genera perfiles de datos a nivel de proyecto, tabla y columna.

Un perfil de datos contiene métricas y estadísticas sobre el recurso perfilado. Incluye las clasificaciones de datos (o infoTypes), los niveles de sensibilidad, los niveles de riesgo de los datos, el tamaño de los datos, la forma de los datos y otros elementos que describen la naturaleza de los datos y su postura de seguridad de los datos (el grado de seguridad de los datos). Puedes usar perfiles de datos para tomar decisiones fundamentadas sobre cómo proteger tus datos, por ejemplo, configurando políticas de acceso en la tabla.

Supongamos que hay una columna de BigQuery llamada ccn, en la que cada fila contiene un número de tarjeta de crédito único y no hay valores nulos. El perfil de datos a nivel de columna generado tendrá los siguientes detalles:

Nombre visible Valor
Field ID ccn
Data risk High
Sensitivity High
Data type TYPE_STRING
Policy tags No
Free text score 0
Estimated uniqueness High
Estimated null proportion Very low
Last profile generated DATE_TIME
Predicted infoType CREDIT_CARD_NUMBER

Además, este perfil a nivel de columna forma parte de un perfil a nivel de tabla, que proporciona información valiosa como la ubicación de los datos, el estado del cifrado y si la tabla se ha compartido públicamente. En la consola de Google Cloud , también puedes ver las entradas de Cloud Logging de la tabla y las entidades de IAM con roles para la tabla.

Un perfil de datos a nivel de tabla que muestra métricas y estadísticas sobre la tabla, y que te permite verla en Logging, IAM y Dataplex Universal Catalog.

Para ver una lista completa de las métricas y las estadísticas disponibles en los perfiles de datos, consulte la referencia de métricas.

Cuándo usar el descubrimiento

Cuando planifiques tu estrategia de gestión de riesgos de datos, te recomendamos que empieces por la detección. El servicio de descubrimiento le ayuda a obtener una visión general de sus datos y a habilitar las alertas, los informes y la corrección de problemas.

Además, el servicio de detección puede ayudarle a identificar los recursos en los que pueden residir datos no estructurados. Estos recursos pueden requerir una inspección exhaustiva. Los datos no estructurados se especifican mediante una puntuación de texto libre alta en una escala del 0 al 1.

Inspección de datos sensibles

El servicio de inspección realiza un análisis exhaustivo de un solo recurso para localizar cada instancia de datos sensibles. Una inspección genera un resultado por cada instancia detectada.

Las tareas de inspección ofrecen un amplio conjunto de opciones de configuración que te ayudan a identificar los datos que quieres inspeccionar. Por ejemplo, puede activar el muestreo para limitar los datos que se van a inspeccionar a un número determinado de filas (en el caso de los datos de BigQuery) o a determinados tipos de archivo (en el caso de los datos de Cloud Storage). También puedes segmentar por un periodo específico en el que se crearon o modificaron los datos.

A diferencia de la detección, que monitoriza continuamente sus datos, una inspección es una operación bajo demanda. Sin embargo, puedes programar tareas de inspección periódicas llamadas activadores de tareas.

Resultados del análisis de inspección: hallazgos

Cada resultado incluye detalles como la ubicación de la instancia detectada, su posible infoType y la certeza (también llamada probabilidad) de que el resultado coincida con el infoType. En función de tu configuración, también puedes obtener la cadena real a la que se refiere el resultado. Esta cadena se denomina cita en Protección de Datos Sensibles.

Para ver la lista completa de los detalles que se incluyen en una observación de la inspección, consulta Finding.

Cuándo usar la inspección

Las inspecciones son útiles cuando necesitas investigar datos no estructurados (como comentarios o reseñas creados por usuarios) e identificar cada instancia de información personal identificable (IPI). Si una exploración de detección identifica algún recurso que contenga datos no estructurados, te recomendamos que ejecutes una exploración de inspección en esos recursos para obtener información sobre cada resultado.

Cuándo no usar la inspección

Inspeccionar un recurso no es útil si se cumplen las dos condiciones siguientes. Un análisis de detección puede ayudarte a decidir si es necesario realizar un análisis de inspección.

  • El recurso solo contiene datos estructurados. Es decir, no hay columnas de datos de formato libre, como comentarios o reseñas de usuarios.
  • Ya conoces los infoTypes almacenados en ese recurso.

Por ejemplo, supongamos que los perfiles de datos de un análisis de descubrimiento indican que una tabla de BigQuery no tiene columnas con datos no estructurados, pero sí una columna de números de tarjetas de crédito únicos. En este caso, no es útil inspeccionar la tabla para buscar números de tarjetas de crédito. Una inspección generará un resultado por cada elemento de la columna. Si tienes 1 millón de filas y cada una de ellas contiene 1 número de tarjeta de crédito, un trabajo de inspección generará 1 millón de resultados para el infoType CREDIT_CARD_NUMBER. En este ejemplo, no es necesario realizar una inspección porque el análisis de descubrimiento ya indica que la columna contiene números de tarjetas de crédito únicos.

Residencia, tratamiento y almacenamiento de datos

Tanto la detección como la inspección admiten los requisitos de residencia de datos:

  • El servicio de descubrimiento trata tus datos en el lugar donde residen y almacena los perfiles de datos generados en la misma región o multirregión que los datos perfilados. Para obtener más información, consulta las consideraciones sobre la residencia de los datos.
  • Cuando se inspeccionan datos en un Google Cloud sistema de almacenamiento, el servicio de inspección procesa los datos en la misma región en la que se encuentran y almacena el trabajo de inspección en esa región. Cuando inspeccionas datos mediante una tarea híbrida o un método content, el servicio de inspección te permite especificar dónde debe procesar tus datos. Para obtener más información, consulta Cómo se almacenan los datos.

Resumen de la comparación: servicios de descubrimiento e inspección

Discovery Inspección
Ventajas
  • Visibilidad continua en una organización, una carpeta o un proyecto.
  • Ayuda a identificar los recursos que contienen datos sensibles, de alto riesgo y no estructurados. Para ver una lista completa de las estadísticas, consulte la referencia de métricas.
  • Ayuda a descubrir datos desconocidos (o datos ocultos).
  • Inspección bajo demanda de un único recurso.
  • Identifica cada instancia de datos sensibles en el recurso inspeccionado.
Coste
  • Hacer una estimación de costes: gratis
  • Modelo de consumo: 0, 03 USD por GB o el precio de 3 TB (la cantidad que sea más baja entre esas dos)
  • Modelo de suscripción (capacidad reservada): 2500 USD por unidad de suscripción

10 TB cuestan aproximadamente 300 USD al mes en el modo de consumo.
  • Hasta 1 GB: gratis
  • De 1 GB a 50 TB: 1 USD por GB
  • De 50 a 500 TB: 0,75 USD por GB
  • Más de 500 TB: 0,60 USD por GB

10 TB cuestan aproximadamente 10.000 USD por análisis.
Fuentes de datos admitidas BigLake
BigQuery
Variables de entorno de funciones de Cloud Run
Variables de entorno de revisión de servicios de Cloud Run
Cloud SQL
Cloud Storage
Vertex AI
Amazon S3
Azure Blob Storage
BigQuery
Cloud Storage
Datastore
Híbrido (cualquier fuente)1
Alcances admitidos
  • Una Google Cloud organización, carpeta, proyecto o recurso de datos
  • Todos los recursos admitidos disponibles para el conector de AWS, la cuenta o el bucket de S3
  • Todos los recursos admitidos disponibles para el conector, la suscripción o el contenedor de Azure Blob Storage de Azure
Una sola tabla de BigQuery, un segmento de Cloud Storage o un tipo de Datastore.
Plantillas de inspección integradas
InfoTypes integrados y personalizados
Resultados del análisis Resumen general (perfiles de datos) de todos los datos admitidos. Resultados concretos de los datos sensibles del recurso inspeccionado.
Guardar resultados en BigQuery
Enviar a Dataplex Universal Catalog en formato de etiqueta (obsoleto)
Enviar a Dataplex Universal Catalog como aspectos No
Publicar resultados en Security Command Center
Publicar resultados en Google Security Operations para la detección a nivel de organización y de carpeta No
Publicar en Pub/Sub
Asistencia para la residencia de datos

1 La inspección híbrida tiene un modelo de precios diferente. Para obtener más información, consulta el artículo Inspección de datos de cualquier fuente .

Siguientes pasos