Genera insight sul profilo dati con le scansioni

Questo documento spiega come utilizzare BigQuery e Dataplex insieme per comprendere meglio i dati. BigQuery utilizza Dataplex per analizzare le statistiche caratteristiche dei dati, come valori medi, valori unici e valori massimi e i relativi valori. Dataplex utilizza queste informazioni anche per consigliare regole per i controlli di qualità dei dati.

Per ulteriori informazioni sulla profilazione dei dati, consulta Informazioni sulla profilazione dei dati.

Prima di iniziare

  • Per creare e modificare le analisi nel progetto: abilita l'API Dataplex.

    Attiva l'API Dataplex

  • Per le scansioni tra progetti: Crea un identificatore di servizio Dataplex con Comando gcloud beta services identity create. Se non esiste un identificatore di servizio Dataplex, questo comando e ne restituisce uno nuovo. Se esiste già un identificatore di servizio, il comando lo restituisce. Questo comando potrebbe richiedere l'installazione del componente Comandi beta di gcloud CLI.

    gcloud beta services identity create
    --service=dataplex.googleapis.com
    

Ruoli obbligatori

Chiedi all'amministratore di concedere i seguenti ruoli ai principali dell'account appropriati in base ai casi d'uso a cui devono accedere. Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso.

Ruoli BigQuery

  • Visualizzatore dati BigQuery in una tabella per creare una scansione della tabella senza pubblicare i risultati.
  • Editor dati BigQuery su una tabella per creare una scansione sulla tabella con pubblicazione.
  • Se la tabella BigQuery e la scansione del profilo dei dati si trovano in progetti diversi, devi assegnare all'account principale o all'account di servizio Dataplex associato l'autorizzazione di lettura bigquery.tables.getData (o il ruolo Visualizzatore dati BigQuery) alla tabella BigQuery corrispondente. a ottenere l'identità di un servizio vedi Prima di iniziare.
  • Se stai eseguendo la scansione di una tabella esterna BigQuery da Cloud Storage, assegna il ruolo Cloud Storage (roles/storage.objectViewer) all'account del servizio Dataplex.

Ruoli Dataplex

  • Amministratore Dataplex DataScan a livello di progetto per creare analisi.
  • Editor DataScan Dataplex in una scansione per modificare le proprietà di una scansione (tranne le autorizzazioni), esegui la scansione ed eliminala.
  • DataVisualizzatore di dati Dataplex su una scansione per visualizzare i risultati di una scansione.

Questi ruoli contengono le autorizzazioni necessarie per i casi d'uso precedenti. Per visualizzare le autorizzazioni esattamente richieste, espandi la sezione Autorizzazioni richieste.

Autorizzazioni obbligatorie

Per utilizzare vari aspetti delle analisi dei profili dei dati, sono necessarie le seguenti autorizzazioni:

  • Per modificare la configurazione di una scansione dei dati: dataplex.datascans.update nella risorsa Datascan
  • Per modificare il criterio di una scansione dei dati: dataplex.datascans.setIamPolicy - nella risorsa datascan
  • Per creare un'analisi dei dati in una tabella BigQuery: bigquery.tables.getData - la tabella da analizzare
  • Per creare scansioni dei dati in un progetto: dataplex.datascans.create - nel progetto
  • Per eliminare una scansione di dati: dataplex.datascans.delete - il risorsa Datascan
  • Per esportare i risultati della ricerca dei dati in un set di dati BigQuery: bigquery.datasets.get, bigquery.tables.create, bigquery.tables.get, bigquery.tables.update, bigquery.tables.updateData: il set di dati di destinazione
  • Per pubblicare i risultati di un'analisi dei dati in una tabella: bigquery.tables.update: la tabella di destinazione
  • Per eseguire una scansione dei dati: dataplex.datascans.run - sulla scansione dei dati risorsa
  • Per eseguire la scansione di una tabella esterna da Cloud Storage: storage.buckets.get, storage.objects.get: il bucket che contengono le tabelle da scansionare
  • Per visualizzare i risultati di una scansione dei dati: dataplex.datascans.getData nella risorsa di scansione dei dati
  • Per visualizzare i risultati di una scansione di dati: dataplex.datascans.get - il la risorsa Datascan
  • Per visualizzare i risultati di una scansione di dati: dataplex.datascans.list - sulla risorsa Datascan

Potresti anche riuscire a ottenere queste autorizzazioni con ruoli personalizzati o altro ruoli predefiniti.

Crea una scansione del profilo di dati

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, fai clic su una tabella per la scansione del profilo dei dati.

  3. Fai clic sulla scheda Profilo dati.

  4. Fai clic su Scansione del profilo di dati > Crea nuova scansione.

  5. (Facoltativo) Modifica i seguenti valori:

    • Nome visualizzato: il nome modificabile della risorsa nella console.
    • ID: un identificatore univoco per la scansione. Non può essere modificato dopo la creazione della scansione.
    • Descrizione: una descrizione della scansione.
    • Regione:definisce la regione in cui viene elaborata la scansione dei dati.
    • Ambito: l'intervallo di dati disponibili per la scansione. Seleziona Incrementale o Interi dati. Se scegli Incrementale, ti consigliamo di includere una colonna DATE o TIMESTAMP che aumenti in modo lineare. Questa colonna può essere utilizzata per identificare nuovi record. Per le tabelle partizionate in base a colonne di tipo DATE o TIMESTAMP, è consigliabile utilizzare la colonna di partizione come campo timestamp.
    • Filtri:filtri da applicare ai dati prima dell'esecuzione della scansione. Puoi selezionare Filtra righe, Filtra colonne o entrambe le opzioni.
      • Per filtrare le righe, seleziona la casella di controllo Filtra righe e inserisci un'espressione SQL valida nel campo di testo di input. L'espressione devono avere la sintassi SQL standard di BigQuery e possono essere utilizzata in un Clausola WHERE.
      • Per filtrare le colonne, seleziona Filtra colonne casella di controllo e compila il campo Includi colonne, la Escludi colonne o entrambi.
    • Dimensione del campione: la percentuale di dati da campionate. Per le analisi dei dati incrementali, viene campionato solo l'incremento più recente.
    • Pubblica i risultati nell'interfaccia utente del catalogo BigQuery e Dataplex: questa opzione rende disponibili i risultati più recenti della scansione del profilo dei dati nell'interfaccia utente di BigQuery, nella scheda Profilo dati per la tabella di origine. Se una scansione è in esecuzione e impostata per la pubblicazione, questa opzione potrebbe non essere disponibile.
    • Pianifica: On demand (predefinito) o Ripeti. Se selezioni Ripeti, specifica la frequenza del scansione pianificata con Giornaliera, Settimanale, Mensile o Personalizzato. L'impostazione personalizzata utilizza cron formato dell'ora per specificare la pianificazione. Ad esempio, una scansione impostata per essere eseguita il secondo martedì del mese alle 01:00 avrà il seguente aspetto:0 1 8-14 * 2.
  6. (Facoltativo) Per avanzare nel riquadro in modo da visualizzare altre impostazioni facoltative, fai clic su Continua e modifica i seguenti valori:

    • Esporta i risultati della scansione in una tabella BigQuery: seleziona un'opzione set di dati BigQuery e una tabella per salvare i risultati scansione del profilo. Se un set di dati è definito ma non esiste alcuna tabella, Dataplex crea una tabella per te. Le tabelle create in questo modo potrebbero comportare costi di archiviazione.
    • Etichette: aggiungi un etichetta alla scansione.
  7. Fai clic su uno dei seguenti pulsanti in base alle tue esigenze:

    • Per salvare le impostazioni di scansione, fai clic su Crea.
    • Per salvare ed eseguire la scansione, fai clic su Esegui.

Gestire le autorizzazioni di scansione del profilo di dati

Per modificare le autorizzazioni di accesso delle scansioni del profilo esistenti:

  1. Vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per il profilo dati scansione.

  3. Fai clic sulla scheda Profilo dei dati.

  4. Fai clic su Scansione profilo dati > Gestisci autorizzazioni di scansione. Si apre Dataplex in una nuova scheda.

  5. Fai clic sulla scheda Autorizzazioni.

    • Per concedere l'accesso a un entità, fai clic su Concedi l'accesso e concedi DataViewer Dataplex DataScan all'entità associata.
    • Per rimuovere l'accesso da un'entità, fai clic su Rimuovi l'accesso e rimuovi Dataplex DataScan DataViewer dal associato.

Modificare una scansione del profilo dati esistente

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la scansione del profilo dei dati.

  3. Fai clic su Scansione del profilo dei dati > Modifica la configurazione della scansione.

Vengono visualizzate le impostazioni di scansione del profilo dati, che possono essere modificate e salvate per le scansioni future.

Visualizzare i risultati della scansione del profilo di dati

Esistono diversi modi per visualizzare i risultati della scansione del profilo dati. Seleziona l'opzione che meglio si adatta alle tue esigenze.

Visualizzare i risultati pubblicati

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per la scansione del profilo dei dati.

  3. Fai clic sulla scheda Profilo dei dati.

In questa visualizzazione vengono mostrati i risultati pubblicati più di recente.

Visualizzare i risultati delle analisi storiche

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per il profilo dati scansione.

  3. Fai clic sulla scheda Profilo dei dati.

  4. Fai clic su Scansione del profilo dei dati > Visualizza i risultati storici.

Visualizzare tutte le scansioni del profilo di dati in una tabella

Per aprire Dataplex con una cronologia delle analisi per una tabella specifica, esegui le seguenti:

  1. Nella console Google Cloud, vai alla pagina BigQuery.

    Vai a BigQuery

  2. Nel riquadro Explorer, seleziona una tabella per il profilo dati scansione.

  3. Fai clic su Scansione del profilo di dati > Visualizza tutte le scansioni.