Questa pagina è stata tradotta dall'API Cloud Translation.

Creare e utilizzare le analisi del profilo di dati

Dataplex Universal Catalog consente di identificare le caratteristiche statistiche comuni (valori comuni, distribuzione dei dati, conteggi null) delle colonne nelle tabelle BigQuery. Queste informazioni ti aiutano a comprendere e analizzare i tuoi dati in modo più efficace.

Per saperne di più sulle scansioni del profilo dati di Dataplex Universal Catalog, consulta Informazioni sulla profilazione dei dati.

Prima di iniziare

Enable the Dataplex API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

Ruoli obbligatori

Per profilare le tabelle BigQuery, devi disporre delle seguenti autorizzazioni:

Per eseguire una scansione di profilazione dei dati su una tabella BigQuery, devi disporre dell'autorizzazione per leggere la tabella BigQuery e dell'autorizzazione per creare un job BigQuery nel progetto utilizzato per eseguire la scansione della tabella.

Nota: il Catalogo universale Dataplex non crea un job BigQuery nel progetto. Tuttavia, hai bisogno di questa autorizzazione per creare un job DryRun per controllare le autorizzazioni per la tabella.
Se la tabella BigQuery e la scansione di profilazione dei dati si trovano in progetti diversi, devi concedere all'account di servizio Dataplex Universal Catalog l'autorizzazione di lettura sulla tabella BigQuery corrispondente.

Nota :se non hai ancora creato analisi della qualità dei dati o del profilo dei dati oppure non hai un lake Dataplex Universal Catalog nel progetto BigQuery, crea un identificatore di servizio eseguendo:gcloud beta services identity create --service=dataplex.googleapis.com. Questo comando restituisce un identificatore del servizio Dataplex Universal Catalog, se esistente.
Se i dati BigQuery sono organizzati in un lake Dataplex Universal Catalog, per creare una scansione di profilazione dei dati, devi disporre dei ruoli Dataplex Universal Catalog roles/dataplex.metadataReader e roles/dataplex.viewer. In questo modo vengono concesse le seguenti autorizzazioni:
- dataplex.lakes.list
- dataplex.lakes.get
- dataplex.zones.list
- dataplex.zones.get
- dataplex.entities.list
- dataplex.entities.get
- dataplex.operations.get
Se esegui la scansione di una tabella esterna BigQuery da Cloud Storage, assegna all'account di servizio Dataplex Universal Catalog il ruolo Visualizzatore oggetti Storage (roles/storage.objectViewer) o le seguenti autorizzazioni sul bucket:
- storage.buckets.get
- storage.objects.get
Se vuoi pubblicare i risultati della scansione di profilazione dei dati nelle pagine BigQuery e Dataplex Universal Catalog nella consoleGoogle Cloud per le tabelle di origine, devi disporre del ruolo BigQuery Data Editor (roles/bigquery.dataEditor) nella tabella. In alternativa, devi disporre di tutte le seguenti autorizzazioni:
- bigquery.tables.get
- bigquery.tables.update
- bigquery.tables.updateData
- bigquery.tables.delete
Per esportare i risultati della scansione in una tabella BigQuery, il account di servizio del Catalogo universale Dataplex deve disporre del ruolo Editor dati BigQuery (roles/bigquery.dataEditor). Ciò concede le seguenti autorizzazioni:
- bigquery.datasets.get
- bigquery.tables.create
- bigquery.tables.get
- bigquery.tables.getData
- bigquery.tables.update
- bigquery.tables.updateData
Se devi accedere a colonne protette da criteri di accesso a livello di colonna di BigQuery, assegna all'account di servizio Dataplex Universal Catalog le autorizzazioni per queste colonne. L'utente che crea o aggiorna una scansione dei dati deve disporre anche delle autorizzazioni per le colonne.
Se una tabella ha abilitato i criteri di accesso a livello di riga BigQuery, puoi analizzare solo le righe visibili all'account di servizio Dataplex Universal Catalog. Tieni presente che i privilegi di accesso del singolo utente non vengono valutati per le norme a livello di riga.

Ruoli e autorizzazioni per la scansione dei dati

Per utilizzare la profilazione dei dati, chiedi all'amministratore di concederti uno dei seguenti ruoli IAM:

roles/dataplex.dataScanAdmin: Accesso completo alle risorse DataScan.
roles/dataplex.dataScanEditor: accesso in scrittura alle risorse DataScan.
roles/dataplex.dataScanViewer: Accesso in lettura alle risorse DataScan, esclusi i risultati.
roles/dataplex.dataScanDataViewer: Accesso in lettura alle risorse DataScan, inclusi i risultati.

La seguente tabella elenca le autorizzazioni di scansione dei dati:

Nome autorizzazione	Concede l'autorizzazione per svolgere le seguenti operazioni:
`dataplex.datascans.create`	Crea un `DataScan`
`dataplex.datascans.delete`	Eliminare un `DataScan`
`dataplex.datascans.get`	Visualizza i dettagli di `DataScan` escludendo i risultati
`dataplex.datascans.getData`	Visualizza i dettagli di `DataScan`, inclusi i risultati
`dataplex.datascans.list`	Elenco `DataScan`
`dataplex.datascans.run`	Esegui un `DataScan`
`dataplex.datascans.update`	Aggiornare la descrizione di un `DataScan`
`dataplex.datascans.getIamPolicy`	Visualizza le autorizzazioni IAM correnti nella scansione
`dataplex.datascans.setIamPolicy`	Imposta le autorizzazioni IAM per la scansione

Crea una scansione del profilo di dati

Console

Nella console Google Cloud , vai alla pagina Profilazione e qualità dei dati di Dataplex Universal Catalog.

Vai a Profilazione e qualità dei dati
Fai clic su Crea scansione di profilazione dei dati.
(Facoltativo) Inserisci un Nome visualizzato.
Inserisci un ID. Consulta le convenzioni di denominazione delle risorse.
Facoltativo: inserisci una descrizione.
Nel campo Table (Tabella), fai clic su Sfoglia. Scegli la tabella da analizzare e fai clic su Seleziona.

Per le tabelle nei set di dati multiregionali, scegli una regione in cui creare la scansione dei dati.

Per sfogliare le tabelle organizzate all'interno dei lake Dataplex Universal Catalog, fai clic su Sfoglia all'interno dei data lake Dataplex.
Nel campo Ambito, scegli Incrementale o Tutti i dati.
- Se scegli Dati incrementali, nel campo Colonna timestamp, seleziona una colonna di tipo DATE o TIMESTAMP dalla tabella BigQuery che aumenti man mano che vengono aggiunti nuovi record e che possa essere utilizzata per identificare nuovi record. Per le tabelle partizionate in base a una colonna di tipo DATE o TIMESTAMP, consigliamo di utilizzare la colonna di partizionamento come campo timestamp.
(Facoltativo) Per filtrare i dati, esegui una delle seguenti operazioni:
- Per filtrare per righe, seleziona la casella di controllo Filtra righe. Inserisci un'espressione SQL valida che può essere utilizzata in una clausola WHERE nella sintassi GoogleSQL. Ad esempio: col1 >= 0.
  
  Il filtro può essere una combinazione di condizioni SQL su più colonne. Ad esempio: col1 >= 0 AND col2 < 10.
- Per filtrare per colonne, seleziona la casella di controllo Filtra colonne.
  - Per includere colonne nella scansione del profilo, fai clic su Sfoglia nel campo Includi colonne. Seleziona le colonne da includere, quindi fai clic su Seleziona.
  - Per escludere le colonne dalla scansione del profilo, fai clic su Sfoglia nel campo Escludi colonne. Seleziona le colonne da escludere, quindi fai clic su Seleziona.
  Nota: puoi utilizzare Includi colonne, Escludi colonne o entrambi. Se utilizzi entrambi i campi, la scansione del profilo dei dati seleziona prima le colonne in base all'input nel campo Includi colonne ed esclude poi le colonne in base all'input nel campo Escludi colonne.
Per applicare il campionamento alla scansione del profilo dati, seleziona una percentuale di campionamento nell'elenco Dimensione campionamento. Scegli un valore percentuale compreso tra 0,0% e 100,0% con un massimo di 3 cifre decimali.
- Per set di dati più grandi, scegli una percentuale di campionamento inferiore. Ad esempio, per una tabella da 1 PB, se inserisci un valore compreso tra 0,1% e 1,0%, il profilo dei dati campiona tra 1 e 10 TB di dati.
- Per restituire un risultato, nei dati campionati devono essere presenti almeno 100 record.
- Per le scansioni incrementali dei dati, la scansione del profilo di dati applica il campionamento all'ultimo incremento.
(Facoltativo) Pubblica i risultati della scansione del profilo dei dati nelle pagine BigQuery e Dataplex Universal Catalog nella consoleGoogle Cloud per la tabella di origine. Seleziona la casella di controllo Pubblica i risultati nell'interfaccia utente di BigQuery e Dataplex Catalog.

Puoi visualizzare i risultati più recenti della scansione nella scheda Profilo dei dati nelle pagine BigQuery e Dataplex Universal Catalog per la tabella di origine. Per consentire agli utenti di accedere ai risultati della scansione pubblicati, consulta la sezione Concedere l'accesso ai risultati della scansione del profilo di dati di questo documento.

L'opzione di pubblicazione potrebbe non essere disponibile nei seguenti casi:
- Non disponi delle autorizzazioni necessarie per la tabella.
- È impostata un'altra scansione della qualità dei dati per pubblicare i risultati.
Nella sezione Pianificazione, scegli una delle seguenti opzioni:
- Ripeti: esegui la scansione del profilo dei dati in base a una pianificazione: oraria, giornaliera, settimanale, mensile o personalizzata. Specifica la frequenza e l'ora di esecuzione della scansione. Se scegli l'opzione personalizzata, utilizza il formato cron per specificare la pianificazione.
- On demand: esegui la scansione di profilazione dei dati on demand.
Fai clic su Continua.
(Facoltativo) Esporta i risultati della scansione in una tabella standard BigQuery. Nella sezione Esporta i risultati della scansione in una tabella BigQuery, esegui le seguenti operazioni:
1. Nel campo Seleziona set di dati BigQuery, fai clic su Sfoglia. Seleziona un set di dati BigQuery per archiviare i risultati della scansione del profilo dati.
2. Nel campo Tabella BigQuery, specifica la tabella in cui archiviare i risultati della scansione di profilazione dei dati. Se utilizzi una tabella esistente, assicurati che sia compatibile con lo schema della tabella di esportazione. Se la tabella specificata non esiste, Dataplex Universal Catalog la crea per te.
  
  Nota: puoi utilizzare la stessa tabella dei risultati per più analisi del profilo dei dati.
(Facoltativo) Aggiungi etichette. Le etichette sono coppie chiave-valore che consentono di raggruppare oggetti correlati fra loro o con altre risorse Google Cloud .
Per creare la scansione, fai clic su Crea.

Se imposti la pianificazione su on demand, puoi anche eseguire la scansione ora facendo clic su Esegui scansione.

gcloud

Per creare una scansione del profilo di dati, utilizza il comando gcloud dataplex datascans create data-profile.

Se i dati di origine sono organizzati in un lake Dataplex Universal Catalog, includi il flag --data-source-entity:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-entity=DATA_SOURCE_ENTITY

Se i dati di origine non sono organizzati in un lake Dataplex Universal Catalog, includi il flag --data-source-resource:

gcloud dataplex datascans create data-profile DATASCAN \
--location=LOCATION \
--data-source-resource=DATA_SOURCE_RESOURCE

Sostituisci le seguenti variabili:

DATASCAN: il nome della scansione del profilo dei dati.
LOCATION: La Google Cloud regione in cui creare la scansione del profilo dei dati.
DATA_SOURCE_ENTITY: l'entità Dataplex Universal Catalog che contiene i dati per l'analisi del profilo dati. Ad esempio, projects/test-project/locations/test-location/lakes/test-lake/zones/test-zone/entities/test-entity.
DATA_SOURCE_RESOURCE: il nome della risorsa che contiene i dati per la scansione del profilo dei dati. Ad esempio, //bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table.

REST

Per creare una scansione del profilo di dati, utilizza il metodo dataScans.create.

Esporta schema tabella

Se vuoi esportare i risultati della scansione di profilazione dei dati in una tabella BigQuery esistente, assicurati che sia compatibile con lo schema della tabella seguente:

Nome colonna	Tipo di dati della colonna	Nome del campo secondario (se applicabile)	Tipo di dati del campo secondario	Modalità	Esempio
data_profile_scan	`struct/record`	`resource_name`	`string`	nullable	`//dataplex.googleapis.com/projects/test-project/locations/europe-west2/datascans/test-datascan`
		`project_id`	`string`	nullable	`test-project`
		`location`	`string`	nullable	`us-central1`
		`data_scan_id`	`string`	nullable	`test-datascan`
data_source	`struct/record`	`resource_name`	`string`	nullable	Caso relativo alla persona giuridica: `//dataplex.googleapis.com/projects/test-project/locations/europe-west2/lakes/test-lake/zones/test-zone/entities/test-entity` Table case: `//bigquery.googleapis.com/projects/test-project/datasets/test-dataset/tables/test-table`
		`dataplex_entity_project_id`	`string`	nullable	`test-project`
		`dataplex_entity_project_number`	`integer`	nullable	`123456789012`
		`dataplex_lake_id`	`string`	nullable	(Valido solo se l'origine è un'entità) `test-lake`
		`dataplex_zone_id`	`string`	nullable	(Valido solo se l'origine è un'entità) `test-zone`
		`dataplex_entity_id`	`string`	nullable	(Valido solo se l'origine è un'entità) `test-entity`
		`table_project_id`	`string`	nullable	`dataplex-table`
		`table_project_number`	`int64`	nullable	`345678901234`
		`dataset_id`	`string`	nullable	(Valido solo se l'origine è una tabella) `test-dataset`
		`table_id`	`string`	nullable	(Valido solo se l'origine è una tabella) `test-table`
data_profile_job_id	`string`			nullable	`caeba234-cfde-4fca-9e5b-fe02a9812e38`
data_profile_job_configuration	`json`	`trigger`	`string`	nullable	`ondemand`/`schedule`
		`incremental`	`boolean`	nullable	`true`/`false`
		`sampling_percent`	`float`	nullable	(0-100) `20.0` (indica il 20%)
		`row_filter`	`string`	nullable	`col1 >= 0 AND col2 < 10`
		`column_filter`	`json`	nullable	`{"include_fields":["col1","col2"], "exclude_fields":["col3"]}`
job_labels	`json`			nullable	`{"key1":value1}`
job_start_time	`timestamp`			nullable	`2023-01-01 00:00:00 UTC`
job_end_time	`timestamp`			nullable	`2023-01-01 00:00:00 UTC`
job_rows_scanned	`integer`			nullable	`7500`
column_name	`string`			nullable	`column-1`
column_type	`string`			nullable	`string`
column_mode	`string`			nullable	`repeated`
percent_null	`float`			nullable	(0,0-100,0) `20.0` (indica il 20%)
percent_unique	`float`			nullable	(0,0-100,0) `92.5`
min_string_length	`integer`			nullable	(Valido solo se il tipo di colonna è stringa) `10`
max_string_length	`integer`			nullable	(Valido solo se il tipo di colonna è stringa) `4`
average_string_length	`float`			nullable	(Valido solo se il tipo di colonna è stringa) `7.2`
min_value	`float`			nullable	(Valido solo se il tipo di colonna è numerico: intero/float)
max_value	`float`			nullable	(Valido solo se il tipo di colonna è numerico: intero/float)
average_value	`float`			nullable	(Valido solo se il tipo di colonna è numerico: intero/float)
standard_deviation	`float`			nullable	(Valido solo se il tipo di colonna è numerico: intero/float)
quartile_lower	`integer`			nullable	(Valido solo se il tipo di colonna è numerico: intero/float)
quartile_median	`integer`			nullable	(Valido solo se il tipo di colonna è numerico: intero/float)
quartile_upper	`integer`			nullable	(Valido solo se il tipo di colonna è numerico: intero/float)
top_n	`struct/record - repeated`	`value`	`string`	nullable	`"4009"`
		`count`	`integer`	nullable	`20`
		`percent`	`float`	nullable	`10` (indica il 10%)

Configurazione della tabella di esportazione

Quando esegui l'esportazione nelle tabelle BigQueryExport, segui queste linee guida:

Per il campo resultsTable, utilizza il formato: //bigquery.googleapis.com/projects/{project-id}/datasets/{dataset-id}/tables/{table-id}.
Utilizza una tabella standard BigQuery.
Se la tabella non esiste quando la scansione viene creata o aggiornata, Dataplex Universal Catalog la crea per te.
Per impostazione predefinita, la tabella viene partizionata in base alla colonna job_start_time ogni giorno.
Se vuoi che la tabella sia partizionata in altre configurazioni o se non vuoi la partizione, ricrea la tabella con lo schema e le configurazioni richiesti, quindi fornisci la tabella precreata come tabella dei risultati.
Assicurati che la tabella dei risultati si trovi nella stessa posizione della tabella di origine.
Se i controlli di servizio VPC sono configurati nel progetto, la tabella dei risultati deve trovarsi nello stesso perimetro dei controlli di servizio VPC della tabella di origine.
Se la tabella viene modificata durante la fase di esecuzione della scansione, il job in esecuzione corrente viene esportato nella tabella dei risultati precedente e la modifica della tabella ha effetto a partire dal job di scansione successivo.
Non modificare lo schema della tabella. Se hai bisogno di colonne personalizzate, crea una vista nella tabella.
Per ridurre i costi, imposta una scadenza per la partizione in base al tuo caso d'uso. Per saperne di più, scopri come impostare la scadenza della partizione.

Crea più scansioni del profilo dati

Puoi configurare le scansioni di profilazione dei dati per più tabelle in un set di dati BigQuery contemporaneamente utilizzando la console Google Cloud .

Nella console Google Cloud , vai alla pagina Profilazione e qualità dei dati di Dataplex Universal Catalog.

Vai a Profilazione e qualità dei dati
Fai clic su Crea scansione di profilazione dei dati.
Seleziona l'opzione Più scansioni di profilazione dei dati.
Inserisci un prefisso ID. Il catalogo universale Dataplex genera automaticamente gli ID scansione utilizzando il prefisso fornito e i suffissi univoci.
Inserisci una Descrizione per tutte le scansioni del profilo dati.
Nel campo Set di dati, fai clic su Sfoglia. Seleziona un set di dati da cui scegliere le tabelle. Fai clic su Seleziona.
Se il set di dati è multiregionale, seleziona una regione in cui creare le scansioni del profilo dati.
Configura le impostazioni comuni per le scansioni:
1. Nel campo Ambito, scegli Incrementale o Tutti i dati.
  
  Nota :se scegli i dati incrementali, puoi selezionare solo le tabelle partizionate in base a una colonna di tipo DATE o TIMESTAMP.
2. Per applicare il campionamento alle scansioni del profilo dati, seleziona una percentuale di campionamento nell'elenco Dimensione campionamento.
  
  Scegli un valore percentuale compreso tra 0,0% e 100,0% con un massimo di tre cifre decimali.
3. (Facoltativo) Pubblica i risultati della scansione del profilo dei dati nelle pagine BigQuery e Dataplex Universal Catalog nella consoleGoogle Cloud per la tabella di origine. Seleziona la casella di controllo Pubblica i risultati nell'interfaccia utente di BigQuery e Dataplex Catalog.
  
  Puoi visualizzare i risultati più recenti della scansione nella scheda Profilo dei dati nelle pagine BigQuery e Dataplex Universal Catalog per la tabella di origine. Per consentire agli utenti di accedere ai risultati della scansione pubblicati, consulta la sezione Concedere l'accesso ai risultati della scansione del profilo di dati di questo documento.
  
  Nota: devi scegliere tabelle per cui non è stata ancora pubblicata alcuna scansione dei risultati.
4. Nella sezione Pianificazione, scegli una delle seguenti opzioni:
  - Ripeti: esegui le scansioni del profilo dei dati in base a una pianificazione: oraria, giornaliera, settimanale, mensile o personalizzata. Specifica la frequenza di esecuzione delle scansioni e l'ora. Se scegli l'opzione personalizzata, utilizza il formato cron per specificare la pianificazione.
  - On demand: esegui le scansioni del profilo di dati on demand.
Fai clic su Continua.
Nel campo Scegli tabelle, fai clic su Sfoglia. Scegli una o più tabelle da scansionare, quindi fai clic su Seleziona.
Fai clic su Continua.
(Facoltativo) Esporta i risultati della scansione in una tabella standard BigQuery. Nella sezione Esporta i risultati della scansione in una tabella BigQuery, esegui le seguenti operazioni:
1. Nel campo Seleziona set di dati BigQuery, fai clic su Sfoglia. Seleziona un set di dati BigQuery per archiviare i risultati della scansione del profilo dati.
2. Nel campo Tabella BigQuery, specifica la tabella in cui archiviare i risultati della scansione di profilazione dei dati. Se utilizzi una tabella esistente, assicurati che sia compatibile con lo schema della tabella di esportazione. Se la tabella specificata non esiste, Dataplex Universal Catalog la crea per te.
  
  Dataplex Universal Catalog utilizza la stessa tabella dei risultati per tutte le scansioni dei profili dei dati.
(Facoltativo) Aggiungi etichette. Le etichette sono coppie chiave-valore che consentono di raggruppare oggetti correlati fra loro o con altre risorse Google Cloud .
Per creare le scansioni, fai clic su Crea.

Se imposti la pianificazione su on demand, puoi anche eseguire le scansioni ora facendo clic su Esegui scansione.

Esegui una scansione del profilo di dati

Console

Nella console Google Cloud , vai alla pagina Profilazione e qualità dei dati di Dataplex Universal Catalog.

Vai a Profilazione e qualità dei dati
Fai clic sulla scansione del profilo dati da eseguire.
Fai clic su Esegui ora.

gcloud

Per eseguire una scansione del profilo di dati, utilizza il comando gcloud dataplex datascans run:

gcloud dataplex datascans run DATASCAN \
--location=LOCATION

Sostituisci le seguenti variabili:

DATASCAN: il nome della scansione del profilo dei dati.
LOCATION: la Google Cloud regione in cui è stata creata la scansione del profilo di dati.

REST

Per eseguire una scansione del profilo di dati, utilizza il metodo dataScans.run.

Visualizzare i risultati della scansione del profilo di dati

Console

Nella console Google Cloud , vai alla pagina Profilazione e qualità dei dati di Dataplex Universal Catalog.

Vai a Profilazione e qualità dei dati
Fai clic sul nome di una scansione di profilazione dei dati.
- La sezione Panoramica mostra informazioni sui job più recenti, tra cui la data di esecuzione della scansione, il numero di record della tabella scansionati e lo stato del job.
- La sezione Configurazione della scansione del profilo di dati mostra i dettagli della scansione.
Per visualizzare informazioni dettagliate su un job, ad esempio le colonne della tabella scansionata, le statistiche sulle colonne trovate nella scansione e i log dei job, fai clic sulla scheda Cronologia job. Quindi, fai clic su un ID job.

gcloud

Per visualizzare i risultati di un job di scansione del profilo di dati, utilizza il comando gcloud dataplex datascans jobs describe:

gcloud dataplex datascans jobs describe JOB \
--location=LOCATION \
--datascan=DATASCAN \
--view=FULL

Sostituisci le seguenti variabili:

JOB: l'ID job del job di scansione del profilo dei dati.
LOCATION: la Google Cloud regione in cui è stata creata la scansione del profilo di dati.
DATASCAN: il nome della scansione del profilo dei dati a cui appartiene il job.
--view=FULL: per visualizzare il risultato del job di scansione, specifica FULL.

REST

Per visualizzare i risultati di una scansione di profilazione dei dati, utilizza il metodo dataScans.get.

Visualizzare i risultati pubblicati

Se i risultati della scansione del profilo di dati vengono pubblicati nelle pagine BigQuery e Dataplex Universal Catalog nella console Google Cloud , puoi visualizzare i risultati più recenti della scansione nella scheda Profilo di dati della tabella di origine.

Nella console Google Cloud , vai alla pagina Dataplex Universal Catalog.

Vai a Cerca
Cerca e seleziona la tabella.
Fai clic sulla scheda Profilo dei dati.

Vengono visualizzati gli ultimi risultati pubblicati.

Nota: i risultati pubblicati potrebbero non essere disponibili se una scansione viene eseguita per la prima volta.

Visualizza il job di scansione del profilo di dati più recente

Console

Nella console Google Cloud , vai alla pagina Profilazione e qualità dei dati di Dataplex Universal Catalog.

Vai a Profilazione e qualità dei dati
Fai clic sul nome di una scansione di profilazione dei dati.
Fai clic sulla scheda Risultati del job più recente.

La scheda Risultati del job più recente, quando è presente almeno un'esecuzione completata correttamente, fornisce informazioni sul job più recente. Elenca le colonne della tabella scansionata e le statistiche sulle colonne trovate nella scansione.

gcloud

Per visualizzare la scansione del profilo di dati riuscita più recente, utilizza il comando gcloud dataplex datascans describe:

gcloud dataplex datascans describe DATASCAN \
--location=LOCATION \
--view=FULL

Sostituisci le seguenti variabili:

DATASCAN: il nome della scansione del profilo dei dati per visualizzare il job più recente.
LOCATION: la Google Cloud regione in cui è stata creata la scansione di profilazione dei dati.
--view=FULL: per visualizzare il risultato del job di scansione, specifica FULL.

REST

Per visualizzare il job di scansione più recente, utilizza il metodo dataScans.get.

Visualizzare i risultati storici delle scansioni

Dataplex Universal Catalog salva la cronologia delle scansioni del profilo dati degli ultimi 300 job o dell'ultimo anno, a seconda di quale si verifica per primo.

Console

Nella console Google Cloud , vai alla pagina Profilazione e qualità dei dati di Dataplex Universal Catalog.

Vai a Profilazione e qualità dei dati
Fai clic sul nome di una scansione di profilazione dei dati.
Fai clic sulla scheda Cronologia dei job.

La scheda Cronologia job fornisce informazioni sui job precedenti, ad esempio il numero di record scansionati in ogni job, lo stato del job e l'ora in cui è stato eseguito il job.
Per visualizzare informazioni dettagliate su un job, fai clic su uno qualsiasi dei job nella colonna ID job.

gcloud

Per visualizzare i job di scansione del profilo di dati storici, utilizza il comando gcloud dataplex datascans jobs list:

gcloud dataplex datascans jobs list \
--location=LOCATION \
--datascan=DATASCAN

Sostituisci le seguenti variabili:

LOCATION: la Google Cloud regione in cui è stata creata la scansione di profilazione dei dati.
DATASCAN: il nome della scansione del profilo dei dati per visualizzare i job.

REST

Per visualizzare i job di scansione del profilo di dati storici, utilizza il metodo dataScans.jobs.list.

Per consentire agli utenti della tua organizzazione di visualizzare i risultati della scansione:

Nella console Google Cloud , vai alla pagina Profilazione e qualità dei dati di Dataplex Universal Catalog.

Vai a Profilazione e qualità dei dati
Fai clic sulla scansione della qualità dei dati di cui vuoi condividere i risultati.
Fai clic sulla scheda Autorizzazioni.
Segui questi passaggi:
- Per concedere l'accesso a un'entità, fai clic su Concedi l'accesso. Concedi il ruolo Dataplex DataScan DataViewer all'entità associata.
- Per rimuovere l'accesso da un'entità, seleziona l'entità da cui vuoi rimuovere il ruolo Dataplex DataScan DataViewer. Fai clic su Rimuovi accesso e poi conferma quando richiesto.

Gestire le scansioni del profilo di dati per una tabella specifica

I passaggi descritti in questo documento mostrano come gestire le scansioni dei profili dei dati nel tuo progetto utilizzando la pagina Profilazione e qualità dei dati di Dataplex Universal Catalog nella console Google Cloud .

Puoi anche creare e gestire le scansioni dei profili dei dati quando lavori con una tabella specifica. Nella console Google Cloud , nella pagina Dataplex Universal Catalog per la tabella, utilizza la scheda Profilo dei dati. Segui questi passaggi:

Nella console Google Cloud , vai alla pagina Cerca di Dataplex Universal Catalog.

Vai a Cerca

Cerca e seleziona la tabella.
Fai clic sulla scheda Profilo dei dati.
A seconda che la tabella abbia una scansione del profilo di dati i cui risultati sono pubblicati, puoi lavorare con le scansioni del profilo di dati della tabella nei seguenti modi:
- Risultati della scansione del profilo di dati pubblicati: nella pagina vengono visualizzati i risultati dell'ultima scansione pubblicata.
  
  Per gestire le scansioni del profilo di dati per questa tabella, fai clic su Scansione del profilo di dati e poi scegli una delle seguenti opzioni:
  - Crea nuova scansione: crea una nuova scansione del profilo di dati. Per saperne di più, consulta la sezione Creare una scansione di profilazione dei dati di questo documento. Quando crei una scansione dalla pagina dei dettagli di una tabella, la tabella è preselezionata.
  - Esegui ora: esegui la scansione.
  - Modifica configurazione di scansione: modifica le impostazioni, tra cui il nome visualizzato, i filtri, le dimensioni del campionamento e la pianificazione.
  - Gestisci autorizzazioni della scansione: controlla chi può accedere ai risultati della scansione. Per maggiori informazioni, consulta la sezione Concedere l'accesso ai risultati della scansione del profilo di dati di questo documento.
  - Visualizza risultati cronologici: visualizza informazioni dettagliate sui job di scansione di profilazione dei dati precedenti. Per saperne di più, consulta le sezioni Visualizzare i risultati della scansione del profilo di dati e Visualizzare i risultati delle scansioni storiche di questo documento.
  - Visualizza tutte le scansioni: visualizza un elenco delle scansioni di profilazione dei dati che si applicano a questa tabella.
- I risultati della scansione del profilo di dati non vengono pubblicati: fai clic sul menu accanto a Profilo dati rapido e seleziona una delle seguenti opzioni:
  - Personalizza la profilazione dei dati: crea una nuova scansione di profilazione dei dati. Per saperne di più, consulta la sezione Creare una scansione di profilazione dei dati di questo documento. Quando crei una scansione dalla pagina dei dettagli di una tabella, la tabella è preselezionata.
  - Visualizza profili precedenti: visualizza un elenco di scansioni del profilo di dati che si applicano a questa tabella.

Aggiorna una scansione del profilo di dati

Console

Nella console Google Cloud , vai alla pagina Profilazione e qualità dei dati di Dataplex Universal Catalog.

Vai a Profilazione e qualità dei dati
Fai clic sul nome di una scansione di profilazione dei dati.
Fai clic su Modifica e poi modifica i valori.
Fai clic su Salva.

gcloud

Per aggiornare una scansione del profilo dei dati, utilizza il comando gcloud dataplex datascans update data-profile:

gcloud dataplex datascans update data-profile DATASCAN \
--location=LOCATION \
--description=DESCRIPTION

Sostituisci le seguenti variabili:

DATASCAN: il nome della scansione del profilo dei dati da aggiornare.
LOCATION: la Google Cloud regione in cui è stata creata la scansione di profilazione dei dati.
DESCRIPTION: La nuova descrizione della scansione del profilo dei dati.

REST

Per modificare una scansione del profilo di dati, utilizza il metodo dataScans.patch.

Eliminare una scansione del profilo di dati

Console

Nella console Google Cloud , vai alla pagina Profilazione e qualità dei dati di Dataplex Universal Catalog.

Vai a Profilazione e qualità dei dati
Fai clic sulla scansione che vuoi eliminare.
Fai clic su Elimina e poi conferma quando richiesto.

gcloud

Per eliminare una scansione del profilo dati, utilizza il comando gcloud dataplex datascans delete:

gcloud dataplex datascans delete DATASCAN \
--location=LOCATION --async

Sostituisci le seguenti variabili:

DATASCAN: il nome della scansione del profilo dei dati da eliminare.
LOCATION: la Google Cloud regione in cui è stata creata la scansione di profilazione dei dati.

REST

Per eliminare una scansione del profilo dati, utilizza il metodo dataScans.delete.

Passaggi successivi

Scopri come esplorare i dati generando insight.
Scopri di più sulla profilazione dei dati.
Scopri di più sulla qualità dei dati automatica.
Scopri come utilizzare la qualità dei dati automatica.

Creare e utilizzare le analisi del profilo di dati

Prima di iniziare

Ruoli obbligatori

Ruoli e autorizzazioni per la scansione dei dati

Crea una scansione del profilo di dati

Console

gcloud

REST

Esporta schema tabella

Configurazione della tabella di esportazione

Crea più scansioni del profilo dati

Esegui una scansione del profilo di dati

Console

gcloud

REST

Visualizzare i risultati della scansione del profilo di dati

Console

gcloud

REST

Visualizzare i risultati pubblicati

Visualizza il job di scansione del profilo di dati più recente

Console

gcloud

REST

Visualizzare i risultati storici delle scansioni

Console

gcloud

REST

Concedere l'accesso ai risultati della scansione del profilo di dati

Gestire le scansioni del profilo di dati per una tabella specifica

Aggiorna una scansione del profilo di dati

Console

gcloud

REST

Eliminare una scansione del profilo di dati

Console

gcloud

REST

Passaggi successivi