In questa pagina sono elencati i problemi noti di Sensitive Data Protection, oltre ai modi per evitare o risolvere i problemi indicati di seguito.
Problemi generici
Archiviazione dei risultati in BigQuery
Quando i risultati di una scansione di job o rilevamento vengono memorizzati in BigQuery, nei log viene visualizzato un errore Already exists
. L'errore non indica la presenza di un problema; i risultati verranno archiviati come previsto.
Scansione BigQuery
Questa sezione descrive i problemi che potresti riscontrare durante l'inspecting o la profilazione dei dati BigQuery.
Problemi comuni alle operazioni di ispezione e profilazione
I seguenti problemi si applicano alle operazioni di ispezione e profilazione di BigQuery.
I seguenti problemi si applicano anche alle operazioni di anonimizzazione in BigQuery (in anteprima).Impossibile scansionare le righe con sicurezza a livello di riga
I criteri di sicurezza a livello di riga possono impedire a Sensitive Data Protection di ispezionare e profilare le tabelle BigQuery protette. Se alle tabelle BigQuery sono stati applicati criteri di sicurezza a livello di riga, ti consigliamo di impostare un filtro TRUE e includere l'agente di servizio nell'elenco dei beneficiari:
- Se profila i dati a livello di organizzazione o cartella, includi l'agente di servizio del progetto container nell'elenco dei beneficiari.
- Se profila i dati a livello di progetto o esegui un job di ispezione su una tabella, includi l'agente di servizio del progetto nell'elenco dei beneficiari.
Righe duplicate
Quando scrivi dati in una tabella BigQuery, Sensitive Data Protection potrebbe scrivere righe duplicate.
Dati trasmessi di recente
Sensitive Data Protection non analizza i dati trasmessi di recente in streaming (precedentemente noto come buffer di flusso). Per ulteriori informazioni, consulta Disponibilità dei flussi di dati nella documentazione di BigQuery.
Problemi di ispezione BigQuery
I seguenti problemi si applicano solo alle operazioni di ispezione sui dati di BigQuery. Non influiscono sui profili di dati.
I risultati esportati non hanno valori per il campo row_number
Quando configuri Sensitive Data Protection in modo da salvare i risultati in BigQuery, il campo location.content_locations.record_location.record_key.big_query_key.row_number
nella tabella BigQuery generata viene dedotto al momento dell'analisi della tabella di input. Il suo valore non è deterministico, non è possibile eseguire query e può essere nullo per i job di ispezione.
Se devi identificare righe specifiche in cui sono presenti risultati, specifica inspectJob.storageConfig.bigQueryOptions.identifyingFields
al momento della creazione del job.
I campi identificativi sono disponibili nella tabella BigQuery generata, nel campo location.content_locations.record_location.record_key.id_values
.
Limitazione delle analisi ai nuovi contenuti BigQuery
Questo problema si applica anche alle operazioni di anonimizzazione in BigQuery (in anteprima).Se limiti le analisi solo ai nuovi contenuti e utilizzi l'API BigQuery Storage Write per completare la tabella di input, Sensitive Data Protection potrebbe saltare l'analisi di alcune righe.
Per mitigare questo problema, nel job di ispezione assicurati che timestampField
dell'oggetto TimespanConfig
sia un timestamp di commit generato automaticamente da BigQuery.
Tuttavia, non è ancora possibile garantire che nessuna riga venga ignorata, perché la protezione dei dati sensibili non legge dai dati trasmessi di recente.
Se vuoi generare automaticamente timestamp di commit per una colonna e utilizzi l'API per i flussi di dati legacy per completare la tabella di input, procedi nel seguente modo:
Nello schema della tabella di input, assicurati che la colonna del timestamp sia di tipo
TIMESTAMP
.Schema di esempio
L'esempio seguente definisce il campo
commit_time_stamp
e ne imposta il tipo suTIMESTAMP
:... { "name": "commit_time_stamp", "type": "TIMESTAMP" } ...
Nel campo
rows[].json
del metodotabledata.insertAll
, assicurati che i valori nella colonna timestamp siano impostati suAUTO
.JSON di esempio
Nell'esempio seguente il valore del campo
commit_time_stamp
viene impostato suAUTO
:{ ... "commit_time_stamp": "AUTO", ... }
Limitazione delle scansioni mediante l'impostazione di una percentuale massima o di righe
Quando imposti un limite di campionamento in base a una percentuale del numero totale di righe della tabella (rowsLimitPercent
), la protezione dei dati sensibili può esaminare più righe del previsto. Se devi applicare un limite fisso al numero di righe da analizzare, ti consigliamo di impostare un numero massimo di righe (rowsLimit
).
Problemi di profilazione BigQuery
I seguenti problemi si applicano solo alle operazioni di profilazione sui dati BigQuery. Per saperne di più, vedi Profili di dati per i dati BigQuery.
Organizzazioni o progetti con più di 500 milioni di tabelle
Sensitive Data Protection restituisce un errore se tenti di profilare un'organizzazione o un progetto con più di 500 milioni di tabelle. Se riscontri questo errore, puoi inviare il tuo feedback via email all'indirizzo cloud-dlp-feedback@google.com.
Se il conteggio delle tabelle della tua organizzazione ha più di 500 milioni di tabelle e hai un progetto con un numero di tabelle inferiore, prova a eseguire un'analisi a livello di progetto.
Per informazioni sui limiti di tabelle e colonne, consulta Limiti per la profilazione dei dati.
Modelli di ispezione
Il modello di ispezione deve trovarsi nella stessa regione dei dati da profilare. Se disponi di dati in più regioni, utilizza più modelli di ispezione, uno per ogni regione in cui esistono dati.
Puoi anche utilizzare un modello di ispezione archiviato nella regione global
.
Se includi un modello nella regione global
, Sensitive Data Protection lo utilizza per tutti i dati che non hanno un modello specifico per regione. Per ulteriori informazioni, consulta Considerazioni sulla residenza dei dati.
InfoType archiviati
Un infoType archiviato (noto anche come rilevatore di dizionario personalizzato archiviato) a cui viene fatto riferimento nel modello di ispezione deve essere archiviato in uno dei seguenti elementi:
- La regione
global
. - La stessa regione del modello di ispezione.
In caso contrario, l'operazione di profilazione non va a buon fine e genera l'errore Resource not found
.
Controlli di servizio VPC
L'utilizzo di questa funzionalità con le zone dei Controlli di servizio VPC non è ufficialmente supportato. Se provi ad analizzare i dati all'interno di una zona dei Controlli di servizio VPC, comunicaci i problemi riscontrati inviando un'email all'indirizzo cloud-dlp-feedback@google.com.
Analisi di Cloud Storage
Questa sezione descrive i problemi che potresti riscontrare durante l'inspecting o l'anonimizzazione dei dati.
Ispezione di file XLSX con rilevatori di dizionari personalizzati di grandi dimensioni
Quando utilizzi un rilevatore di dizionari personalizzati di grandi dimensioni (noto anche come rilevatore di dizionari personalizzato archiviato) per ispezionare un file di Microsoft Excel .xlsx
, il job di ispezione può essere eseguito lentamente, apparire bloccato e comportare una grande quantità di operazioni di classe B di Cloud Storage.
Questo perché Sensitive Data Protection potrebbe leggere l'elenco dei termini di origine del
dizionario personalizzato grande una volta per ogni cella del file .xlsx
. A causa del volume delle operazioni di lettura, il job di ispezione di Sensitive Data Protection potrebbe mostrare pochi progressi e sembrare bloccato.
Per ulteriori informazioni sui costi pertinenti di fatturazione di Cloud Storage, consulta i costi per le operazioni di classe B in Costi operativi.
Scansione dei file strutturati in modalità binaria
In alcuni casi, i file generalmente analizzati in modalità di analisi strutturata potrebbero essere analizzati in modalità binaria, che non include i miglioramenti apportati a questa modalità. Per ulteriori informazioni, consulta la pagina Scansione dei file strutturati in modalità di analisi strutturata.
Analisi intelligente dei documenti
Questa sezione contiene i problemi noti relativi all'analisi dei documenti.
L'oggetto DocumentLocation
non viene compilato
Il campo location.content_locations.document_location.file_offset
non viene compilato per la modalità di scansione di analisi intelligente dei documenti.
Rilevamento
Le parole del dizionario contenenti caratteri nel piano multilingue supplementare dello standard Unicode possono generare risultati imprevisti. Esempi di tali caratteri sono cinese, giapponese, coreano ed emoji.