Genera insight sul profilo dati con le scansioni

Questo documento spiega come usare BigQuery e Dataplex per comprendere meglio i tuoi dati. BigQuery utilizza Dataplex per analizzare le caratteristiche statistiche dei dati, come i valori medi, i valori univoci e i valori massimi. Dataplex utilizza queste informazioni anche per consigliare regole per i controlli della qualità dei dati.

Per ulteriori informazioni sulla profilazione dei dati, consulta Informazioni sulla profilazione dei dati.

Prima di iniziare

Ruoli obbligatori

Chiedi all'amministratore di concedere i ruoli seguenti alle entità account appropriate in base ai casi d'uso a cui devono accedere. Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso.

Ruoli BigQuery

  • Visualizzatore dati BigQuery su una tabella per creare una scansione sulla tabella senza pubblicare i risultati.
  • Editor dati BigQuery su una tabella per creare una scansione sulla tabella con la pubblicazione.
  • Se la tabella BigQuery e la scansione del profilo dati si trovano in progetti diversi, devi assegnare all'entità o all'account di servizio Dataplex associato l'autorizzazione di lettura bigquery.tables.getData (o il ruolo Visualizzatore dati BigQuery) per la tabella BigQuery corrispondente. Per ottenere l'identità del servizio per un account di servizio, consulta Prima di iniziare.
  • Se stai analizzando una tabella BigQuery esterna da Cloud Storage, assegna il ruolo di Cloud Storage (roles/storage.objectViewer) all'account di servizio Dataplex.

Ruoli Dataplex

  • Amministratore Dataplex DataScan a livello di progetto per creare analisi.
  • Editor DataScan Dataplex in una scansione: per modificare le proprietà di un'analisi (tranne le autorizzazioni), eseguire l'analisi ed eliminarla.
  • DataVisualizzatore di dati Dataplex su una scansione per visualizzare i risultati di una scansione.

Questi ruoli contengono le autorizzazioni necessarie per i casi d'uso precedenti. Per visualizzare esattamente le autorizzazioni richieste, espandi la sezione Autorizzazioni obbligatorie.

Autorizzazioni obbligatorie

Per utilizzare vari aspetti delle analisi del profilo dati sono necessarie le seguenti autorizzazioni:

  • Per modificare la configurazione di una scansione dei dati: dataplex.datascans.update - sulla risorsa Datascan
  • Per modificare il criterio di una scansione dei dati: dataplex.datascans.setIamPolicy - sulla risorsa Datascan
  • Per creare un'analisi dei dati su una tabella BigQuery: bigquery.tables.getData: la tabella da analizzare
  • Per creare analisi dei dati in un progetto: dataplex.datascans.create - nel progetto
  • Per eliminare una scansione dei dati: dataplex.datascans.delete - sulla risorsa Datascan
  • Per esportare i risultati della scansione dei dati in un set di dati BigQuery: bigquery.datasets.get, bigquery.tables.create, bigquery.tables.get, bigquery.tables.update, bigquery.tables.updateData: il set di dati di destinazione
  • Per pubblicare i risultati di un'analisi dei dati in una tabella: bigquery.tables.update - la tabella di destinazione
  • Per eseguire una scansione dei dati: dataplex.datascans.run - sulla risorsa Datascan
  • Per eseguire la scansione di una tabella esterna da Cloud Storage: storage.buckets.get, storage.objects.get: il bucket contenente le tabelle da scansionare
  • Per visualizzare i risultati di un'analisi dei dati: dataplex.datascans.getData - sulla risorsa di scansione dei dati
  • Per visualizzare i risultati di un'analisi dei dati: dataplex.datascans.get - sulla risorsa Datascan
  • Per visualizzare i risultati di un'analisi dei dati: dataplex.datascans.list - sulla risorsa Datascan

Potresti anche riuscire a ottenere queste autorizzazioni con i ruoli personalizzati o altri ruoli predefiniti.

Crea una scansione del profilo di dati

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, fai clic su una tabella per la scansione del profilo dati.

  3. Fai clic sulla scheda Profilo dati.

  4. Fai clic su Scansione del profilo di dati > Crea nuova analisi.

  5. (Facoltativo) Modifica i seguenti valori:

    • Nome visualizzato: il nome modificabile della risorsa nella console.
    • ID:un identificatore univoco della scansione. Non può essere modificato dopo la creazione della scansione.
    • Descrizione: una descrizione della scansione.
    • Regione:definisce la regione in cui viene elaborata la scansione dei dati.
    • Ambito: l'intervallo di dati disponibili per la scansione. Seleziona Incrementale o Interi dati. Se scegli incrementale, ti consigliamo di includere una colonna DATE o TIMESTAMP che aumenta in modo lineare. Questa colonna può essere utilizzata per identificare nuovi record. Per le tabelle partizionate in base a colonne di tipo DATE o TIMESTAMP, ti consigliamo di utilizzare la colonna di partizione come campo del timestamp.
    • Filtri:filtri da applicare ai dati prima dell'esecuzione della scansione. Puoi selezionare Filtra righe, Filtra colonne o entrambe le opzioni.
      • Per filtrare le righe, seleziona la casella di controllo Filtra righe e inserisci un'espressione SQL valida nel campo di testo di input. L'espressione deve avere la sintassi SQL standard di BigQuery e può essere utilizzata in una clausola WHERE.
      • Per filtrare le colonne, seleziona la casella di controllo Filtra colonne e compila il campo Includi colonne, il campo Escludi colonne o entrambi.
    • Dimensioni del campionamento: la percentuale di dati da campionare. Per le analisi incrementali dei dati, viene campionato solo l'incremento più recente.
    • Pubblica i risultati nell'interfaccia utente del catalogo BigQuery e Dataplex: questa opzione rende disponibili i risultati più recenti dell'analisi della profilazione dei dati nella UI di BigQuery, nella scheda Profilo dati per la tabella di origine. Se una scansione è in esecuzione e impostata per la pubblicazione, questa opzione potrebbe non essere disponibile.
    • Programmazione:On demand (impostazione predefinita) o Ripeti. Se selezioni Ripeti, specifica la frequenza della scansione pianificata scegliendo tra Giornaliera, Settimanale, Mensile o Personalizzato. L'opzione personalizzata utilizza il formato orario cron per specificare la pianificazione. Ad esempio, un'analisi impostata per essere eseguita il secondo martedì del mese alle 01:00 avrà il seguente aspetto: 0 1 8-14 * 2.
  6. (Facoltativo) Per avanzare nel riquadro e visualizzare ulteriori impostazioni facoltative, fai clic su Continua e modifica i seguenti valori:

    • Esporta i risultati della scansione in una tabella BigQuery: seleziona un set di dati BigQuery e una tabella per salvare i risultati della scansione del profilo. Se viene definito un set di dati, ma non una tabella, Dataplex crea una tabella per te. Le tabelle create in questo modo potrebbero comportare costi di archiviazione.
    • Etichette: aggiungi un'etichetta alla scansione.
  7. Fai clic su uno dei seguenti pulsanti in base alle tue esigenze:

    • Per salvare le impostazioni della scansione, fai clic su Crea.
    • Per salvare ed eseguire la scansione, fai clic su Esegui.

Gestisci le autorizzazioni della scansione del profilo dati

Per modificare le autorizzazioni di accesso delle scansioni del profilo esistenti:

  1. Vai alla pagina di BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la scansione del profilo dati.

  3. Fai clic sulla scheda Profilo dati.

  4. Fai clic su Scansione del profilo dati > Gestisci autorizzazioni della scansione. Dataplex viene aperto in una nuova scheda.

  5. Fai clic sulla scheda Autorizzazioni.

    • Per concedere l'accesso a un'entità, fai clic su Concedi l'accesso e concedi Dataplex DataScan DataViewer all'entità associata.
    • Per rimuovere l'accesso da un'entità, fai clic su Rimuovi accesso e rimuovi Dataplex DataScan DataViewer dall'entità associata.

Modificare una scansione del profilo dati esistente

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la scansione del profilo dati.

  3. Fai clic su Analisi del profilo dati > Modifica configurazione dell'analisi.

Vengono visualizzate le impostazioni di analisi del profilo dati, che possono essere modificate e salvate per le analisi future.

Visualizza i risultati della scansione del profilo di dati

Esistono diversi modi per visualizzare i risultati della scansione del profilo dati. Seleziona l'opzione più adatta alle tue esigenze.

Visualizza i risultati pubblicati

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la scansione del profilo dati.

  3. Fai clic sulla scheda Profilo dati.

In questa visualizzazione vengono mostrati gli ultimi risultati pubblicati.

Visualizza i risultati storici della scansione

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la scansione del profilo dati.

  3. Fai clic sulla scheda Profilo dati.

  4. Fai clic su Analisi del profilo dei dati > Visualizza i risultati storici.

Visualizza tutte le analisi del profilo dati in una tabella

Per aprire Dataplex con una cronologia delle analisi per una tabella specifica, segui questi passaggi:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la scansione del profilo dati.

  3. Fai clic su Scansione del profilo dati > Visualizza tutte le analisi.