Problemi noti

In questa pagina sono elencati i problemi noti di Sensitive Data Protection, oltre ai modi per evitare o risolvere i problemi indicati di seguito.

Problemi generici

Archiviazione dei risultati in BigQuery

Quando i risultati di una scansione di job o rilevamento vengono memorizzati in BigQuery, nei log viene visualizzato un errore Already exists. L'errore non indica la presenza di un problema; i risultati verranno archiviati come previsto.

Scansione BigQuery

Questa sezione descrive i problemi che potresti riscontrare durante l'inspecting o la profilazione dei dati BigQuery.

Problemi comuni alle operazioni di ispezione e profilazione

I seguenti problemi si applicano alle operazioni di ispezione e profilazione di BigQuery.

I seguenti problemi si applicano anche alle operazioni di anonimizzazione in BigQuery (in anteprima).

Impossibile scansionare le righe con sicurezza a livello di riga

I criteri di sicurezza a livello di riga possono impedire a Sensitive Data Protection di ispezionare e profilare le tabelle BigQuery protette. Se alle tabelle BigQuery sono stati applicati criteri di sicurezza a livello di riga, ti consigliamo di impostare un filtro TRUE e includere l'agente di servizio nell'elenco dei beneficiari:

Righe duplicate

Quando scrivi dati in una tabella BigQuery, Sensitive Data Protection potrebbe scrivere righe duplicate.

Dati trasmessi di recente

Sensitive Data Protection non analizza i dati trasmessi di recente in streaming (precedentemente noto come buffer di flusso). Per ulteriori informazioni, consulta Disponibilità dei flussi di dati nella documentazione di BigQuery.

Problemi di ispezione BigQuery

I seguenti problemi si applicano solo alle operazioni di ispezione sui dati di BigQuery. Non influiscono sui profili di dati.

I risultati esportati non hanno valori per il campo row_number

Quando configuri Sensitive Data Protection in modo da salvare i risultati in BigQuery, il campo location.content_locations.record_location.record_key.big_query_key.row_number nella tabella BigQuery generata viene dedotto al momento dell'analisi della tabella di input. Il suo valore non è deterministico, non è possibile eseguire query e può essere nullo per i job di ispezione.

Se devi identificare righe specifiche in cui sono presenti risultati, specifica inspectJob.storageConfig.bigQueryOptions.identifyingFields al momento della creazione del job.

I campi identificativi sono disponibili nella tabella BigQuery generata, nel campo location.content_locations.record_location.record_key.id_values.

Limitazione delle analisi ai nuovi contenuti BigQuery

Questo problema si applica anche alle operazioni di anonimizzazione in BigQuery (in anteprima).

Se limiti le analisi solo ai nuovi contenuti e utilizzi l'API BigQuery Storage Write per completare la tabella di input, Sensitive Data Protection potrebbe saltare l'analisi di alcune righe.

Per mitigare questo problema, nel job di ispezione assicurati che timestampField dell'oggetto TimespanConfig sia un timestamp di commit generato automaticamente da BigQuery. Tuttavia, non è ancora possibile garantire che nessuna riga venga ignorata, perché la protezione dei dati sensibili non legge dai dati trasmessi di recente.

Se vuoi generare automaticamente timestamp di commit per una colonna e utilizzi l'API per i flussi di dati legacy per completare la tabella di input, procedi nel seguente modo:

  1. Nello schema della tabella di input, assicurati che la colonna del timestamp sia di tipo TIMESTAMP.

    Schema di esempio

    L'esempio seguente definisce il campo commit_time_stamp e ne imposta il tipo su TIMESTAMP:

    ...
    {
     "name": "commit_time_stamp",
     "type": "TIMESTAMP"
    }
    ...
    
  2. Nel campo rows[].json del metodo tabledata.insertAll, assicurati che i valori nella colonna timestamp siano impostati su AUTO.

    JSON di esempio

    Nell'esempio seguente il valore del campo commit_time_stamp viene impostato su AUTO:

    {
      ...
      "commit_time_stamp": "AUTO",
      ...
    }
    
Scopri come rimuovere manualmente i duplicati.

Limitazione delle scansioni mediante l'impostazione di una percentuale massima o di righe

Quando imposti un limite di campionamento in base a una percentuale del numero totale di righe della tabella (rowsLimitPercent), la protezione dei dati sensibili può esaminare più righe del previsto. Se devi applicare un limite fisso al numero di righe da analizzare, ti consigliamo di impostare un numero massimo di righe (rowsLimit).

Problemi di profilazione BigQuery

I seguenti problemi si applicano solo alle operazioni di profilazione sui dati BigQuery. Per saperne di più, vedi Profili di dati per i dati BigQuery.

Organizzazioni o progetti con più di 500 milioni di tabelle

Sensitive Data Protection restituisce un errore se tenti di profilare un'organizzazione o un progetto con più di 500 milioni di tabelle. Se riscontri questo errore, puoi inviare il tuo feedback via email all'indirizzo cloud-dlp-feedback@google.com.

Se il conteggio delle tabelle della tua organizzazione ha più di 500 milioni di tabelle e hai un progetto con un numero di tabelle inferiore, prova a eseguire un'analisi a livello di progetto.

Per informazioni sui limiti di tabelle e colonne, consulta Limiti per la profilazione dei dati.

Modelli di ispezione

Il modello di ispezione deve trovarsi nella stessa regione dei dati da profilare. Se disponi di dati in più regioni, utilizza più modelli di ispezione, uno per ogni regione in cui esistono dati. Puoi anche utilizzare un modello di ispezione archiviato nella regione global. Se includi un modello nella regione global, Sensitive Data Protection lo utilizza per tutti i dati che non hanno un modello specifico per regione. Per ulteriori informazioni, consulta Considerazioni sulla residenza dei dati.

InfoType archiviati

Un infoType archiviato (noto anche come rilevatore di dizionario personalizzato archiviato) a cui viene fatto riferimento nel modello di ispezione deve essere archiviato in uno dei seguenti elementi:

  • La regione global.
  • La stessa regione del modello di ispezione.

In caso contrario, l'operazione di profilazione non va a buon fine e genera l'errore Resource not found.

Controlli di servizio VPC

L'utilizzo di questa funzionalità con le zone dei Controlli di servizio VPC non è ufficialmente supportato. Se provi ad analizzare i dati all'interno di una zona dei Controlli di servizio VPC, comunicaci i problemi riscontrati inviando un'email all'indirizzo cloud-dlp-feedback@google.com.

Analisi di Cloud Storage

Questa sezione descrive i problemi che potresti riscontrare durante l'inspecting o l'anonimizzazione dei dati.

Ispezione di file XLSX con rilevatori di dizionari personalizzati di grandi dimensioni

Quando utilizzi un rilevatore di dizionari personalizzati di grandi dimensioni (noto anche come rilevatore di dizionari personalizzato archiviato) per ispezionare un file di Microsoft Excel .xlsx, il job di ispezione può essere eseguito lentamente, apparire bloccato e comportare una grande quantità di operazioni di classe B di Cloud Storage. Questo perché Sensitive Data Protection potrebbe leggere l'elenco dei termini di origine del dizionario personalizzato grande una volta per ogni cella del file .xlsx. A causa del volume delle operazioni di lettura, il job di ispezione di Sensitive Data Protection potrebbe mostrare pochi progressi e sembrare bloccato.

Per ulteriori informazioni sui costi pertinenti di fatturazione di Cloud Storage, consulta i costi per le operazioni di classe B in Costi operativi.

Scansione dei file strutturati in modalità binaria

In alcuni casi, i file generalmente analizzati in modalità di analisi strutturata potrebbero essere analizzati in modalità binaria, che non include i miglioramenti apportati a questa modalità. Per ulteriori informazioni, consulta la pagina Scansione dei file strutturati in modalità di analisi strutturata.

Analisi intelligente dei documenti

Questa sezione contiene i problemi noti relativi all'analisi dei documenti.

L'oggetto DocumentLocation non viene compilato

Il campo location.content_locations.document_location.file_offset non viene compilato per la modalità di scansione di analisi intelligente dei documenti.

Rilevamento

Le parole del dizionario contenenti caratteri nel piano multilingue supplementare dello standard Unicode possono generare risultati imprevisti. Esempi di tali caratteri sono cinese, giapponese, coreano ed emoji.