Cette page répertorie les problèmes connus liés à la protection des données sensibles et vous explique comment les éviter ou les résoudre.
Problèmes d'ordre général
Stocker les résultats dans BigQuery
Lorsqu'une tâche ou une analyse de découverte stocke les résultats dans BigQuery, une erreur Already exists
apparaît dans les journaux. L'erreur n'indique pas l'existence d'un problème ; vos résultats seront stockés comme prévu.
Analyse BigQuery
Cette section décrit les problèmes que vous pouvez rencontrer lors de l'inspecting ou du profilage des données BigQuery.
Problèmes courants avec les opérations d'inspection et de profilage
Les problèmes suivants sont applicables à la fois aux opérations d'inspection et de profilage de BigQuery.
Les problèmes suivants sont également applicables aux opérations d'anonymisation dans BigQuery (en version preview).Impossible d'analyser les lignes protégées par un niveau de sécurité au niveau des lignes
Les règles de sécurité au niveau des lignes peuvent empêcher la protection des données sensibles d'inspecter et de profiler les tables BigQuery protégées. Si des règles de sécurité au niveau des lignes sont appliquées à vos tables BigQuery, nous vous recommandons de définir un filtre VRAI et d'inclure l'agent de service dans la liste des bénéficiaires:
- Si vous profilez des données au niveau de l'organisation ou d'un dossier, incluez l'agent de service du projet de conteneur dans la liste des bénéficiaires.
- Si vous profilez des données au niveau du projet ou exécutez une tâche d'inspection sur une table, incluez l'agent de service du projet dans la liste des bénéficiaires.
Lignes en double
Lors de l'écriture de données dans une table BigQuery, la protection des données sensibles peut écrire des lignes en double.
Données diffusées récemment
La protection des données sensibles n'analyse pas les données diffusées récemment (anciennement tampon de streaming). Pour en savoir plus, consultez la section Disponibilité des flux de données dans la documentation BigQuery.
Problèmes d'inspection BigQuery
Les problèmes suivants ne concernent que les opérations d'inspection des données BigQuery. Ils n'affectent pas les profils de données.
Les résultats exportés ne comportent pas de valeurs pour le champ "row_number"
Lorsque vous configurez la protection des données sensibles pour enregistrer les résultats dans BigQuery, le champ location.content_locations.record_location.record_key.big_query_key.row_number
de la table BigQuery générée est déduit au moment où la table d'entrée est analysée. Sa valeur est non déterministe, ne peut pas être interrogée et peut être nulle pour les tâches d'inspection.
Si vous devez identifier des lignes spécifiques où des résultats sont présents, spécifiez
inspectJob.storageConfig.bigQueryOptions.identifyingFields
au moment de la création
de la tâche.
Les champs d'identification se trouvent dans le champ location.content_locations.record_location.record_key.id_values
de la table BigQuery générée.
Limiter les analyses au nouveau contenu BigQuery
Ce problème s'applique également aux opérations d'anonymisation dans BigQuery (en version preview).Si vous limitez les analyses aux nouveaux contenus uniquement et que vous utilisez l'API BigQuery Storage Write pour renseigner la table d'entrée, la protection des données sensibles peut ignorer l'analyse de certaines lignes.
Pour atténuer ce problème, assurez-vous dans votre tâche d'inspection que la valeur timestampField
de l'objet TimespanConfig
est un horodatage de commit généré automatiquement par BigQuery.
Toutefois, rien ne garantit qu'aucune ligne n'est ignorée, car la protection des données sensibles ne lit pas les données récemment diffusées.
Si vous souhaitez générer automatiquement des horodatages de commit pour une colonne et que vous utilisez l'ancienne API de streaming pour remplir votre table d'entrée, procédez comme suit:
Dans le schéma de la table d'entrée, assurez-vous que la colonne d'horodatage est de type
TIMESTAMP
.Exemple de schéma
L'exemple suivant définit le champ
commit_time_stamp
et définit son type surTIMESTAMP
:... { "name": "commit_time_stamp", "type": "TIMESTAMP" } ...
Dans le champ
rows[].json
de la méthodetabledata.insertAll
, assurez-vous que les valeurs de la colonne d'horodatage sont définies surAUTO
.Exemple de code JSON
L'exemple suivant définit la valeur du champ
commit_time_stamp
surAUTO
:{ ... "commit_time_stamp": "AUTO", ... }
Limiter les analyses en définissant un pourcentage ou un nombre maximal de lignes
Lorsque vous définissez une limite d'échantillonnage basée sur un pourcentage du nombre total de lignes de la table (rowsLimitPercent
), la protection des données sensibles peut inspecter plus de lignes que prévu. Si vous devez fixer une limite stricte au nombre de lignes à analyser, nous vous recommandons plutôt de définir un nombre maximal de lignes (rowsLimit
).
Problèmes de profilage BigQuery
Les problèmes suivants ne concernent que les opérations de profilage sur les données BigQuery. Pour en savoir plus, consultez la page Profils de données pour BigQuery.
Organisations ou projets contenant plus de 500 millions de tables
La protection des données sensibles renvoie une erreur si vous tentez de profiler une organisation ou un projet comportant plus de 500 millions de tables. Si vous rencontrez cette erreur, vous pouvez envoyer vos commentaires par e-mail à l'adresse cloud-dlp-feedback@google.com.
Si votre organisation compte plus de 500 millions de tables et que votre projet comporte un nombre de tables inférieur, essayez plutôt d'effectuer une analyse au niveau du projet.
Pour en savoir plus sur les limites applicables aux tables et aux colonnes, consultez Limites du profilage des données.
Modèles d'inspection
Le modèle d'inspection doit se trouver dans la même région que les données à profiler. Si vous disposez de données dans plusieurs régions, utilisez plusieurs modèles d'inspection (un pour chaque région concernée).
Vous pouvez également utiliser un modèle d'inspection stocké dans la région global
.
Si vous incluez un modèle dans la région global
, la protection des données sensibles l'utilise pour toutes les données qui n'ont pas de modèle spécifique à la région. Pour en savoir plus, consultez la section Considérations concernant la résidence des données.
InfoTypes stockés
Un infoType stocké (également appelé détecteur de dictionnaire personnalisé stocké) référencé dans votre modèle d'inspection doit être stocké dans l'un des éléments suivants:
- Région
global
- Même région que le modèle d'inspection.
Sinon, l'opération de profilage échoue et l'erreur Resource not found
est renvoyée.
VPC Service Controls
L'utilisation de cette fonctionnalité avec des zones VPC Service Controls n'est pas officiellement acceptée. Si vous essayez d'analyser des données dans une zone VPC Service Controls, envoyez-nous un e-mail à l'adresse cloud-dlp-feedback@google.com pour signaler les problèmes que vous rencontrez.
Analyse Cloud Storage
Cette section décrit les problèmes que vous pouvez rencontrer lors de l'inspecting ou de l'anonymisation des données.
Inspection des fichiers XLSX avec des détecteurs de dictionnaires personnalisés volumineux
Lorsque vous inspectez un fichier Microsoft Excel .xlsx
à l'aide d'un détecteur de dictionnaire personnalisé volumineux (également appelé détecteur de dictionnaire personnalisé stocké) pour inspecter un fichier Microsoft Excel .xlsx
, le job d'inspection peut s'exécuter lentement, sembler bloqué et entraîner un grand nombre d'opérations de classe B de Cloud Storage.
En effet, la protection des données sensibles peut lire la liste de termes source du grand dictionnaire personnalisé une fois pour chaque cellule du fichier .xlsx
. En raison du volume d'opérations de lecture, le job d'inspection de la protection des données sensibles peut indiquer peu de progrès et sembler bloqué.
Pour en savoir plus sur les frais de facturation Cloud Storage pertinents, consultez les frais liés aux opérations de classe B dans la section Frais d'exploitation.
Fichiers structurés analysés en mode binaire
Dans certains cas, les fichiers généralement analysés en mode d'analyse structurée peuvent être analysés en mode binaire, qui n'inclut pas les améliorations du mode d'analyse structurée. Pour en savoir plus, consultez la section Analyser des fichiers structurés en mode d'analyse structurée.
Analyse intelligente des documents
Cette section présente les problèmes connus liés à l'analyse de documents.
L'objet DocumentLocation
n'est pas renseigné
Le champ location.content_locations.document_location.file_offset
n'est pas renseigné pour le mode d'analyse de document intelligent.
Détection
Les mots du dictionnaire contenant des caractères du plan multilingue supplémentaire de la norme Unicode peuvent produire des résultats inattendus. comme le chinois, le japonais, le coréen ou les emoji.