Genera insight sul profilo dati con le scansioni

Questo documento spiega come utilizzare BigQuery e Dataplex per comprendere meglio i dati. BigQuery utilizza Dataplex per analizzare le caratteristiche statistiche dei dati, come valori medi, valori unici e valori massimi. Dataplex utilizza queste informazioni anche per consigliare le regole per i controlli di qualità dei dati.

Per saperne di più sulla profilazione dei dati, consulta Informazioni sulla profilazione dei dati.

Prima di iniziare

Ruoli obbligatori

Chiedi all'amministratore di concedere i seguenti ruoli alle entità account appropriate in base ai casi d'uso a cui devono accedere. Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso.

Ruoli BigQuery

  • Visualizzatore dati BigQuery su una tabella per creare una scansione su quella tabella senza pubblicare i risultati.
  • Editor dati BigQuery su una tabella per creare una scansione su quella tabella con la pubblicazione.
  • Se la tabella BigQuery e l'analisi del profilo dati si trovano in progetti diversi, devi concedere all'entità o all'account di servizio Dataplex associato l'autorizzazione di lettura bigquery.tables.getData (o il ruolo Visualizzatore dati BigQuery) nella tabella BigQuery corrispondente. Per ottenere l'identità di servizio per un account di servizio, vedi Prima di iniziare.
  • Se stai analizzando una tabella esterna BigQuery da Cloud Storage, assegna il ruolo Cloud Storage (roles/storage.objectViewer) all'account di servizio Dataplex.

Ruoli Dataplex

  • Amministratore Dataplex DataScan a livello di progetto per creare scansioni.
  • Editor Dataplex DataScan su una scansione: per modificare le proprietà di una scansione (tranne le autorizzazioni), eseguire la scansione ed eliminarla.
  • Dataplex DataScan DataViewer su una scansione per visualizzare i risultati di una scansione.

Questi ruoli contengono le autorizzazioni necessarie per i casi d'uso precedenti. Per visualizzare le autorizzazioni necessarie, espandi la sezione Autorizzazioni richieste.

Autorizzazioni obbligatorie

Per utilizzare i vari aspetti delle analisi del profilo dati sono necessarie le seguenti autorizzazioni:

  • Per modificare la configurazione di una scansione dei dati: dataplex.datascans.update - sulla risorsa Datascan
  • Per modificare il criterio di una scansione dei dati: dataplex.datascans.setIamPolicy - sulla risorsa Datascan
  • Per creare un'analisi dei dati su una tabella BigQuery: bigquery.tables.getData - la tabella da analizzare
  • Per creare analisi dei dati in un progetto: dataplex.datascans.create - nel progetto
  • Per eliminare una scansione dei dati: dataplex.datascans.delete nella risorsa Datascan
  • Per esportare i risultati della scansione dei dati in un set di dati BigQuery: bigquery.datasets.get, bigquery.tables.create, bigquery.tables.get, bigquery.tables.update, bigquery.tables.updateData - il set di dati di destinazione
  • Per pubblicare i risultati di un'analisi dei dati in una tabella: bigquery.tables.update - la tabella di destinazione
  • Per eseguire una scansione dei dati: dataplex.datascans.run sulla risorsa Datascan
  • Per eseguire la scansione di una tabella esterna da Cloud Storage: storage.buckets.get, storage.objects.get: il bucket che contiene le tabelle da scansionare
  • Per visualizzare i risultati di un'analisi dei dati: dataplex.datascans.getData - sulla risorsa di analisi dei dati
  • Per visualizzare i risultati di una scansione dei dati: dataplex.datascans.get - nella risorsa Datascan
  • Per visualizzare i risultati di una scansione dei dati: dataplex.datascans.list - sulla risorsa Datascan

Potresti anche essere in grado di ottenere queste autorizzazioni con ruoli personalizzati o altri ruoli predefiniti.

Crea una scansione del profilo di dati

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Spazio di esplorazione, fai clic su una tabella per la scansione del profilo dati.

  3. Fai clic sulla scheda Profilo dati.

  4. Fai clic su Scansione del profilo di dati > Crea nuova analisi.

  5. (Facoltativo) Modifica i seguenti valori:

    • Nome visualizzato:il nome modificabile della risorsa nella console.
    • ID:un identificatore univoco per la scansione. Non può essere modificato dopo la creazione della scansione.
    • Descrizione: una descrizione della scansione.
    • Regione:definisce la regione in cui viene elaborata la scansione dei dati.
    • Ambito: l'intervallo di dati disponibili per la scansione. Seleziona Incremento o Dati completi. Se scegli Incrementale, ti consigliamo di includere una colonna DATE o TIMESTAMP che aumenti in modo lineare. Questa colonna può essere utilizzata per identificare nuovi record. Per le tabelle partizionate in colonne di tipo DATE o TIMESTAMP, ti consigliamo di utilizzare la colonna di partizione come campo del timestamp.
    • Filtri:i filtri da applicare ai dati prima dell'esecuzione della scansione. Puoi selezionare Filtra righe, Filtra colonne o entrambe le opzioni.
      • Per filtrare le righe, seleziona la casella di controllo Filtra righe e inserisci un'espressione SQL valida nel campo di input di testo. L'espressione deve avere la sintassi SQL standard di BigQuery e può essere utilizzata in una clausola WHERE.
      • Per filtrare le colonne, seleziona la casella di controllo Filtra colonne e compila i campi Includi colonne, Escludi colonne o entrambi.
    • Dimensioni campionamento: la percentuale di dati che vuoi campionare. Per le scansioni di dati incrementali, viene campionato solo l'ultimo incremento.
    • Pubblica i risultati nell'interfaccia utente del catalogo BigQuery e Dataplex: questa opzione rende disponibili gli ultimi risultati dell'analisi della profilazione dei dati nell'interfaccia utente di BigQuery, nella scheda Profilo dati della tabella di origine. Se una scansione è in esecuzione e impostata per la pubblicazione, questa opzione potrebbe non essere disponibile.
    • Programmazione:On demand (impostazione predefinita) o Ripeti. Se selezioni Ripeti, specifica la frequenza della scansione pianificata con Ogni giorno, Settimanale, Mensile o Personalizzata. L'opzione Personalizzata utilizza il formato orario cron per specificare la pianificazione. Ad esempio, una scansione impostata per essere eseguita il secondo martedì del mese alle ore 01:00 avrebbe il seguente aspetto: 0 1 8-14 * 2.
  6. (Facoltativo) Per avanzare nel riquadro e visualizzare altre impostazioni facoltative, fai clic su Continua e modifica i seguenti valori:

    • Esporta i risultati della scansione nella tabella BigQuery: seleziona un set di dati BigQuery e una tabella per salvare i risultati della scansione del profilo. Se è stato definito un set di dati, ma non è stata definita alcuna tabella, Dataplex crea una tabella per te. Le tabelle create in questo modo potrebbero comportare costi di archiviazione.
    • Etichette: aggiungi un'etichetta alla scansione.
  7. Fai clic su uno dei seguenti pulsanti in base alle tue esigenze:

    • Per salvare le impostazioni dell'analisi, fai clic su Crea.
    • Per salvare ed eseguire la scansione, fai clic su Esegui.

Gestisci le autorizzazioni di scansione del profilo di dati

Per modificare le autorizzazioni di accesso delle scansioni del profilo esistenti:

  1. Vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Spazio di esplorazione, seleziona una tabella per la scansione del profilo dati.

  3. Fai clic sulla scheda Profilo dati.

  4. Fai clic su Scansione del profilo di dati > Gestisci autorizzazioni di scansione. Dataplex si apre in una nuova scheda.

  5. Fai clic sulla scheda Autorizzazioni.

    • Per concedere l'accesso a un'entità, fai clic su Concedi accesso e concedi Dataplex DataScan DataViewer all'entità associata.
    • Per rimuovere l'accesso da un'entità, fai clic su Rimuovi accesso e rimuovi Dataplex DataScan DataViewer dall'entità associata.

Modifica una scansione del profilo dati esistente

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Spazio di esplorazione, seleziona una tabella per la scansione del profilo dati.

  3. Fai clic su Scansione del profilo dati > Modifica configurazione di scansione.

Si apre le impostazioni di analisi del profilo dati, che possono essere modificate e salvate per le analisi future.

Visualizza i risultati della scansione del profilo di dati

Esistono diversi modi per visualizzare i risultati della scansione del profilo dati. Seleziona l'opzione più adatta alle tue esigenze.

Visualizza i risultati pubblicati

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Spazio di esplorazione, seleziona una tabella per la scansione del profilo dati.

  3. Fai clic sulla scheda Profilo dati.

In questa visualizzazione vengono mostrati gli ultimi risultati pubblicati.

Visualizzare i risultati della scansione storica

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Spazio di esplorazione, seleziona una tabella per la scansione del profilo dati.

  3. Fai clic sulla scheda Profilo dati.

  4. Fai clic su Analisi del profilo di dati > Visualizza risultati storici.

Visualizza tutte le analisi del profilo dati in una tabella

Per aprire Dataplex con una cronologia di analisi per una tabella specifica, segui questi passaggi:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Spazio di esplorazione, seleziona una tabella per la scansione del profilo dati.

  3. Fai clic su Scansione del profilo di dati > Visualizza tutte le analisi.