Analizzare i profili di dati

Se hai configurato il servizio di rilevamento di dati sensibili per l'invio a BigQuery di tutti i profili di dati generati correttamente, puoi eseguire query su tali profili per ottenere insight sui tuoi dati. Puoi anche usare strumenti di visualizzazione come Looker Studio per creare report personalizzati su misura per le tue esigenze aziendali. In alternativa, puoi utilizzare un report predefinito fornito da Sensitive Data Protection, ottimizzarlo e condividerlo in base alle esigenze.

Questa pagina fornisce query SQL di esempio che puoi utilizzare per scoprire di più sui profili di dati. Mostra inoltre come visualizzare i profili di dati in Looker Studio.

Per ulteriori informazioni sui profili di dati, consulta Profili dati.

Prima di iniziare

Questa pagina presuppone che tu abbia configurato la profilazione a livello di organizzazione, cartella o progetto. Nella tua configurazione, assicurati di attivare l'esportazione del profilo dati facendo clic sul pulsante di attivazione/disattivazione Salva le copie del profilo dati in BigQuery.

In questo documento, la tabella che contiene i profili dei dati esportati è denominata tabella di output.

Assicurati di avere facilmente a disposizione l'ID progetto, l'ID del set di dati e l'ID tabella della tabella di output. Ti serviranno per eseguire le procedure in questa pagina.

La visualizzazione latest

Quando Sensitive Data Protection esporta i profili di dati nella tabella di output, crea anche la vista latest. Questa vista è una tabella virtuale prefiltrata che include solo gli snapshot più recenti dei profili dati. La vista latest ha lo stesso schema della tabella di output, perciò puoi utilizzare le due opzioni in modo intercambiabile nelle query SQL e nei report di Looker Studio. I risultati possono essere diversi perché la tabella di output contiene snapshot meno recenti dei profili di dati.

La vista latest è archiviata nella stessa posizione della tabella di output. Il nome ha il seguente formato:

OUTPUT_TABLE_latest_VERSION

Sostituisci quanto segue:

  • OUTPUT_TABLE: l'ID della tabella che contiene i profili dei dati esportati.
  • VERSION: il numero della versione della visualizzazione.

Ad esempio, se il nome della tabella di output è table-profile, la vista latest ha un nome simile a table-profile_latest_v1.

Visualizzazione più recente

Quando utilizzi la vista latest nelle query SQL, utilizza il nome completo della vista, che include l'ID progetto, l'ID del set di dati, l'ID tabella e il suffisso, ad esempio myproject.mydataset.table-profile_latest_v1.

PROJECT_ID.DATASET_ID.OUTPUT_TABLE_latest_VERSION

Scegli tra la tabella di output e la visualizzazione latest

La visualizzazione latest include solo gli snapshot del profilo dati più recenti, mentre la tabella di output contiene tutti gli snapshot del profilo dati, inclusi quelli obsoleti. Ad esempio, una query nella tabella di output può restituire più profili di dati di colonna per la stessa colonna, uno per ogni volta che la colonna è stata profilata.

Quando scegli tra l'utilizzo della tabella di output e della vista latest nelle query SQL o nei report di Looker Studio, considera quanto segue:

  • La visualizzazione latest è utile se disponi di tabelle che sono state riprofilate e vuoi vedere solo i profili più recenti, non le versioni precedenti. In altre parole, vuoi visualizzare lo stato attuale dei dati profilati.

  • La tabella di output è utile se vuoi ottenere una visualizzazione cronologica dei dati profilati. Ad esempio, stai cercando di determinare se la tua organizzazione ha mai archiviato un particolare infoType o vuoi visualizzare le modifiche apportate a un determinato profilo dati.

Esempi di query SQL

Questa sezione fornisce query di esempio che puoi utilizzare durante l'analisi dei profili di dati. Per eseguire queste query, consulta Esecuzione di query interattive.

Negli esempi seguenti, sostituisci TABLE_OR_VIEW con una delle seguenti:

  • Il nome della tabella di output, ovvero quella che contiene i profili di dati esportati, ad esempio myproject.mydataset.table-profile.
  • Il nome della vista latest della tabella di output, ad esempio myproject.mydataset.table-profile_latest_v1.

In entrambi i casi, devi includere l'ID progetto e l'ID del set di dati.

Per maggiori informazioni, consulta Scegliere tra la tabella di output e la visualizzazione latest in questa pagina.

Per risolvere eventuali errori riscontrati, consulta la sezione Messaggi di errore.

Elenca tutte le colonne con un alto punteggio di testo libero e prove di altre corrispondenze infoType

SELECT
  column_profile.table_full_resource,
  column_profile.COLUMN,
  other_matches.info_type.name,
  column_profile.profile_last_generated
FROM
   `TABLE_OR_VIEW`,
  UNNEST(column_profile.other_matches) AS other_matches
WHERE
  column_profile.free_text_score = 1
  AND ( column_profile.column_info_type.info_type.name>""
    OR ARRAY_LENGTH(column_profile.other_matches)>0 )

Per informazioni su come risolvere questi risultati, consulta Punteggio di testo libero elevato.

Per ulteriori informazioni sulle metriche Punteggio testo libero e Altri infoType, consulta Profili dati delle colonne.

Elenco di tutte le tabelle contenenti una colonna di numeri di carte di credito

SELECT
  column_profile.table_full_resource,
  column_profile.profile_last_generated
FROM
  `TABLE_OR_VIEW`
WHERE
  column_profile.column_info_type.info_type.name="CREDIT_CARD_NUMBER"

CREDIT_CARD_NUMBER è un infoType integrato che rappresenta un numero di carta di credito.

Per informazioni su come risolvere questi risultati, consulta Rischio elevato dei dati.

Elenca i profili della tabella che contengono colonne di numeri di carte di credito, codici fiscali e nomi di persone

SELECT
  table_full_resource,
  COUNT(*) AS count_findings
FROM (
  SELECT
    DISTINCT column_profile.table_full_resource,
    column_profile.column_info_type.info_type.name
  FROM
    `TABLE_OR_VIEW`
  WHERE
    column_profile.column_info_type.info_type.name IN ('PERSON_NAME',
      'CREDIT_CARD_NUMBER',
      'US_SOCIAL_SECURITY_NUMBER')
  ORDER BY
    column_profile.table_full_resource ) ot1
GROUP BY
  table_full_resource
  #increase this number to match the total distinct infoTypes that must be present
HAVING
  count_findings>=3

Questa query utilizza i seguenti infoType integrati:

  • CREDIT_CARD_NUMBER: rappresenta il numero di una carta di credito.
  • PERSON_NAME: rappresenta il nome completo di una persona
  • US_SOCIAL_SECURITY_NUMBER rappresenta un numero di previdenza sociale degli Stati Uniti

Per informazioni su come risolvere questi risultati, consulta Rischio elevato dei dati.

Utilizzare i profili di dati in Looker Studio

Per visualizzare i profili di dati in Looker Studio, puoi utilizzare un report predefinito o crearne uno personalizzato.

Utilizzare un report predefinito

Sensitive Data Protection fornisce un report Looker Studio predefinito che evidenzia le informazioni dettagliate dei profili di dati. La dashboard per la protezione dei dati sensibili è un report di più pagine che offre una rapida panoramica ad alto livello dei profili dei dati, incluse le suddivisioni per rischio, infoType e località. Esplora le altre schede per vedere le visualizzazioni per area geografica e rischio di postura, oppure per visualizzare in dettaglio metriche specifiche. Puoi usare il report predefinito così com'è o personalizzarlo in base alle tue esigenze. Questa è la versione consigliata del report predefinito.

Per visualizzare il report predefinito con i tuoi dati, inserisci i valori obbligatori nel seguente URL. Poi, copia l'URL risultante nel browser.

https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=c9826374-e016-4c96-a495-7281328375c6&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false

Sostituisci quanto segue:

  • PROJECT_ID: il progetto che contiene la tabella di output.
  • DATASET_ID: il set di dati che contiene la tabella di output.
  • TABLE_OR_VIEW: uno dei seguenti valori:

    • Il nome della tabella di output, ovvero quella che contiene i profili di dati esportati,ad esempio myproject.mydataset.table-profile.
    • Il nome della vista latest della tabella di output, ad esempio myproject.mydataset.table-profile_latest_v1.

    Per maggiori informazioni, consulta Scegliere tra la tabella di output e la visualizzazione latest in questa pagina.

Looker Studio può richiedere alcuni minuti per caricare il report con i tuoi dati.

Nell'esempio seguente, la dashboard mostra che i dati relativi a bassa e alta sensibilità sono presenti in più paesi in tutto il mondo.

Report predefinito

Versione precedente del report predefinito

La prima versione del report predefinito è ancora disponibile al seguente indirizzo:

https://lookerstudio.google.com/c/u/0/reporting/create?c.reportId=907a2b73-ffe4-40b2-b9a1-c2aa0bbd69fd&ds.connector=BIG_QUERY&ds.projectId=PROJECT_ID&ds.datasetId=DATASET_ID&ds.tableId=TABLE_OR_VIEW&ds.type=TABLE&ds.useFreshSchema=false

Crea un rapporto

Looker Studio consente di creare report interattivi. In questa sezione creerai un semplice report tabella in Looker Studio basato sui profili di dati esportati nella tabella di output in BigQuery.

Assicurati di avere immediatamente a disposizione l'ID progetto, l'ID set di dati e l'ID tabella della tabella di output o della vista latest. Ti serviranno per eseguire questa procedura.

Questo esempio mostra come creare un report contenente una tabella che mostra ogni infoType riportato nei profili di dati e la frequenza corrispondente.

In generale, quando accedi a BigQuery tramite Looker Studio, sono previsti costi di utilizzo di BigQuery. Per ulteriori informazioni, consulta Visualizzare i dati di BigQuery utilizzando Looker Studio.

Per creare un report:

  1. Apri Looker Studio e accedi.
  2. Fai clic su Report vuoto.
  3. Nella scheda Connessione ai dati, fai clic sulla scheda BigQuery.
  4. Se richiesto, autorizza Looker Studio ad accedere ai tuoi progetti BigQuery.
  5. Connettiti ai tuoi dati BigQuery:

    1. Per Progetto, seleziona il progetto che contiene la tabella di output. Puoi cercare il progetto nelle schede Progetti recenti, I miei progetti e Progetti condivisi.
    2. Per Set di dati, seleziona il set di dati contenente la tabella di output.
    3. Per Tabella, seleziona la tabella di output o la vista latest della tabella di output.

      Per maggiori informazioni, consulta Scegliere tra la tabella di output e la visualizzazione latest in questa pagina.

    4. Fai clic su Aggiungi.

    5. Nella finestra di dialogo visualizzata, fai clic su Aggiungi a report.

      Viene creato un report. Viene visualizzata una tabella contenente i profili di dati della tabella e i conteggi di record corrispondenti.

  6. Per aggiungere una tabella che mostri ogni infoType segnalato e la frequenza corrispondente (conteggio record), segui questi passaggi:

    1. Fai clic su Aggiungi un grafico.
    2. Seleziona uno stile di tabella.
    3. Fai clic sull'area in cui vuoi posizionare il grafico.

      Il grafico viene visualizzato in formato tabella.

    4. Ridimensiona la tabella in base alle tue esigenze.

      Finché la tabella è selezionata, le sue proprietà vengono visualizzate nel riquadro Grafico > Tabella.

    5. Nel riquadro Grafico > Tabella, nel campo Dimensione della scheda Dati, rimuovi la dimensione esistente.

    6. Fai clic su Aggiungi dimensione.

    7. Cerca column_profile.column_info_type.info_type.name e selezionalo.

    La tabella risultante è simile alla seguente:

    Una tabella che mostra gli infoType rilevati e le frequenze corrispondenti

Scopri di più sulle tabelle in Looker Studio.

Passaggi successivi

Scopri le azioni che puoi intraprendere per remediate i risultati del profilo dati.