Problemas conocidos

En esta página, se enumeran los problemas conocidos de la protección de datos sensibles, junto con las maneras en que puedes evitarlos o solucionarlos.

Problemas generales

Cómo almacenar resultados en BigQuery

Cuando un trabajo o análisis de descubrimiento almacena resultados en BigQuery, aparece un error Already exists en los registros. El error no indica que hay un problema; los resultados se almacenarán como se espera.

Análisis de BigQuery

En esta sección, se describen los problemas que puedes encontrar cuando inspecting o generas perfiles de datos de BigQuery.

Problemas comunes de las operaciones de inspección y creación de perfiles

Los siguientes problemas se aplican a las operaciones de inspección y generación de perfiles de BigQuery.

Los siguientes problemas también se aplican a las operaciones de desidentificación en BigQuery (en versión preliminar).

No se pueden analizar las filas con seguridad a nivel de fila

Las políticas de seguridad a nivel de fila pueden evitar que la protección de datos sensibles inspeccione las tablas protegidas de BigQuery y genere perfiles de ellas. Si tienes políticas de seguridad a nivel de fila aplicadas a tus tablas de BigQuery, te recomendamos establecer un filtro VERDADERO y, luego, incluir el agente de servicio en la lista de beneficiarios:

Filas duplicadas

Cuando se escriben datos en una tabla de BigQuery, la protección de datos sensibles podría escribir filas duplicadas.

Datos transmitidos recientemente

La Protección de datos sensibles no analiza los datos transmitidos recientemente (antes conocidos como búfer de transmisión). Para obtener más información, consulta la disponibilidad de datos de transmisión en la documentación de BigQuery.

Problemas de inspección de BigQuery

Los siguientes problemas solo se aplican a las operaciones de inspección en datos de BigQuery. No afectan a los perfiles de datos.

Los resultados exportados no tienen valores para el campo row_number

Cuando configuras la protección de datos sensibles para guardar los resultados en BigQuery, se infiere el campo location.content_locations.record_location.record_key.big_query_key.row_number de la tabla de BigQuery generada en el momento en que se analiza la tabla de entrada. Su valor no es determinista, no se puede consultar y puede ser nulo para los trabajos de inspección.

Si necesitas identificar filas específicas donde se encuentran los resultados, especifica inspectJob.storageConfig.bigQueryOptions.identifyingFields en el momento de la creación del trabajo.

Los campos de identificación se pueden encontrar en la tabla de BigQuery que se generó en el campo location.content_locations.record_location.record_key.id_values.

Limita los análisis a contenido nuevo de BigQuery

Este problema también se aplica a las operaciones de desidentificación en BigQuery (en versión preliminar).

Si limitas los análisis solo a contenido nuevo y usas la API de BigQuery Storage Write para propagar la tabla de entrada, la protección de datos sensibles podría omitir el análisis de algunas filas.

Para mitigar este problema, en tu trabajo de inspección, asegúrate de que el timestampField del objeto TimespanConfig sea una marca de tiempo de confirmación que BigQuery genera de forma automática. Sin embargo, no hay garantía de que no se omita ninguna fila, ya que la protección de datos sensibles no lee los datos transmitidos recientemente.

Si deseas generar automáticamente marcas de tiempo de confirmación para una columna y usas la API de transmisión heredada a fin de propagar tu tabla de entrada, haz lo siguiente:

  1. En el esquema de la tabla de entrada, asegúrate de que la columna de marca de tiempo sea del tipo TIMESTAMP.

    Esquema de ejemplo

    En el siguiente ejemplo, se define el campo commit_time_stamp y se establece su tipo en TIMESTAMP:

    ...
    {
     "name": "commit_time_stamp",
     "type": "TIMESTAMP"
    }
    ...
    
  2. En el campo rows[].json del método tabledata.insertAll, asegúrate de que los valores de la columna de marca de tiempo estén configurados en AUTO.

    Ejemplo de JSON

    En el siguiente ejemplo, se establece el valor del campo commit_time_stamp en AUTO:

    {
      ...
      "commit_time_stamp": "AUTO",
      ...
    }
    
Obtén información para quitar los duplicados de forma manual.

Cómo limitar los análisis estableciendo un porcentaje o filas máximos

Cuando estableces un límite de muestreo basado en un porcentaje de la cantidad total de filas de la tabla (rowsLimitPercent), la protección de datos sensibles puede inspeccionar más filas de las esperadas. Si necesitas establecer un límite estricto en la cantidad de filas que se analizarán, te recomendamos que establezcas una cantidad máxima de filas (rowsLimit).

Problemas con la creación de perfiles de BigQuery

Los siguientes problemas solo se aplican a las operaciones de generación de perfiles en datos de BigQuery. Si deseas obtener más información, consulta Perfiles de datos para datos de BigQuery.

Organizaciones o proyectos con más de 500 millones de tablas

La protección de datos sensibles muestra un error si intentas generar el perfil de una organización o un proyecto que tiene más de 500 millones de tablas. Si encuentras este error, puedes enviar tus comentarios por correo electrónico a cloud-dlp-feedback@google.com.

Si el recuento de tablas de tu organización tiene más de 500 millones de tablas y tienes un proyecto con un recuento de tablas más bajo, prueba realizar un análisis a nivel de proyecto.

Para obtener información sobre los límites de tablas y columnas, consulta Límites de generación de perfiles de datos.

Plantillas de inspección

La plantilla de inspección debe estar en la misma región que los datos para los que se generarán perfiles. Si tienes datos en varias regiones, usa varias plantillas de inspección: una para cada región en la que tengas datos. También puedes usar una plantilla de inspección que se almacena en la región global. Si incluyes una plantilla en la región global, la protección de datos sensibles la usará para los datos que no tengan una plantilla específica de la región. Para obtener más información, consulta Consideraciones sobre la residencia de los datos.

Infotipos almacenados

Un Infotipo almacenado (también conocido como detector de diccionario personalizado almacenado) al que se hace referencia en tu plantilla de inspección debe almacenarse en cualquiera de las siguientes ubicaciones:

  • La región global.
  • Es la misma región que la plantilla de inspección.

De lo contrario, la operación de generación de perfiles falla con el error Resource not found.

Controles del servicio de VPC

Usar esta función con zonas de Controles del servicio de VPC no se admite de manera oficial. Si intentas analizar datos dentro de una zona de Controles del servicio de VPC, envía un correo electrónico a cloud-dlp-feedback@google.com para informarnos qué problemas tienes.

Análisis de Cloud Storage

En esta sección, se describen los problemas que puedes encontrar cuando inspecting o desidentificas datos.

Inspección de archivos XLSX con detectores de diccionarios personalizados grandes

Cuando usas un detector de diccionario personalizado grande (también conocido como detector de diccionario personalizado almacenado) para inspeccionar un archivo .xlsx de Microsoft Excel, el trabajo de inspección puede ejecutarse con lentitud, parecer bloqueado e incurrir en una gran cantidad de operaciones de clase B de Cloud Storage. Esto se debe a que la protección de datos sensibles podría leer la lista de términos de origen del diccionario personalizado grande una vez por cada celda en el archivo .xlsx. El volumen de las operaciones de lectura puede hacer que el trabajo de inspección de la protección de datos sensibles muestre poco progreso y parezca bloqueado.

Para obtener más información sobre los cargos de facturación de Cloud Storage relevantes, consulta los cargos de las operaciones de clase B en Cargos de operaciones.

Archivos estructurados que se analizan en modo binario

En algunos casos, los archivos que se suelen analizar en el modo de análisis estructurado pueden analizarse en modo binario, que no incluye las mejoras del modo de análisis estructurado. Para obtener más información, consulta Cómo analizar archivos estructurados en modo de análisis estructurado.

Análisis inteligente de documentos

Esta sección contiene problemas conocidos relacionados con el análisis de documentos.

El objeto DocumentLocation no se propaga

El campo location.content_locations.document_location.file_offset no se propaga para el modo de Análisis inteligente de documentos.

Detección

Las palabras del diccionario que contienen caracteres en el plano multilingüe complementario del estándar Unicode pueden generar resultados inesperados. Algunos ejemplos de estos caracteres son el chino, el japonés, el coreano y los emojis.