Genera insight sui dati in BigQuery
Per assistenza, invia un'email a dataplex-data-insights-help@google.com.
Gli insight sui dati offrono un modo automatizzato per esplorare e comprendere i dati. Utilizza Gemini per generare query basate sui metadati di una tabella e consente di scoprire pattern, valutare la qualità dei dati ed eseguire analisi statistiche.
Questo documento descrive le funzionalità chiave degli insight sui dati e il processo per automatizzare la generazione di query per un'esplorazione approfondita dei dati.
Informazioni sugli insight sui dati
Gli analisti di dati affrontano il problema dell'avvio a freddo nell'esplorazione dei dati quando esplorano un nuovo set di dati con una conoscenza scarsa o nulla. Il problema spesso comporta incertezze sulla struttura dei dati, sui pattern chiave e sugli insight pertinenti. Grazie alla generazione automatica di query basata sui metadati, gli insight sui dati risolvono il problema dell'avvio a freddo nell'esplorazione dei dati. Gli insight forniscono preziosi segnali per aiutarti a prendere decisioni consapevoli e ottenere insight più approfonditi sui tuoi dati. Anziché iniziare con uno slate vuoto, puoi avviare più rapidamente l'esplorazione dei dati con query significative che offrono insight preziosi.
Le query generate utilizzando insight sui dati si basano sui dati della scansione del profilo pubblicati. Gli insight sui dati utilizzano i dati di scansione dei profili pubblicati per creare query che forniscano risultati, fornendo recupero di informazioni efficiente e affidabile. Ciò accelera significativamente l'avvio del processo di analisi dei dati e ti consente di approfondire i dati con una direzione e uno scopo più chiari.
Gli insight sui dati sono uno strumento guida che risolve la sfida comune dell'esplorazione di set di dati sconosciuti, consentendoti di prendere decisioni informate e di scoprire più rapidamente pattern durante l'esplorazione dei dati.
Esempio di un'esecuzione di insight
Considera una tabella chiamata telco_churn
con i seguenti metadati:
Nome campo | Tipo |
---|---|
CustomerID | STRING |
Genere | STRING |
Periodo di incarico | INT64 |
PhoneService | STRING |
OnlineBackup | STRING |
Dipendenti | BOOLEAN |
Contratto | STRING |
TechSupport | STRING |
PaymentMethod | STRING |
MonthlyCharges | FLOAT |
Tasso di abbandono | BOOLEAN |
Di seguito sono riportate alcune query di esempio generate dagli insight sui dati per questa tabella:
Identifica i clienti che hanno sottoscritto l'abbonamento a tutti i servizi premium e sono clienti da più di 50 mesi.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineSecurity = 'Yes' AND OnlineBackup = 'Yes' AND DeviceProtection = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND StreamingMovies = 'Yes' AND Tenure > 50;
Identificare quale servizio internet ha i clienti che abbandonano il sito.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
Identifica i tassi di abbandono per segmento tra i clienti di alto valore.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Informazioni sul grounding degli insight tramite le scansioni del profilo
Quando crei un'analisi del profilo dati per una tabella, puoi scegliere di pubblicare i risultati della scansione in BigQuery e Data Catalog. BigQuery usa i dati di scansione del profilo pubblicato per generare query più accurate e pertinenti sulla tabella.
Puoi visualizzare i dati pubblicati della scansione del profilo nella console Google Cloud. Per ulteriori informazioni su come visualizzare i dati della scansione del profilo pubblicato, consulta Visualizzare i risultati pubblicati.
I dati della scansione del profilo forniscono informazioni sulla distribuzione dei dati, sui tipi di dati e sui riassunti statistici del set di dati. L'analisi viene utilizzata per generare insight nella tabella. Se non sono disponibili analisi, gli insight vengono formulati in base ai nomi delle colonne e alle rispettive descrizioni.
Per scoprire di più sulle analisi del profilo, consulta Generare insight sul profilo dati con le analisi.
Per scoprire di più sulla creazione e sulla pubblicazione delle scansioni del profilo, consulta Creare un'analisi del profilo dati.
Le seguenti sezioni descrivono in che modo gli insight sui dati utilizzano la scansione dei dati del profilo pubblicato per le query a terra.
Informazioni sui dati della scansione del profilo
I dati della scansione del profilo sono i metadati che descrivono i contenuti di una tabella. Include le seguenti informazioni:
- Tipi di dati delle colonne
- Valori minimo e massimo
- Distribuzione dei valori
- Valori nulli o mancanti
- Valori principali
- Valori unici e frequenza
Gli insight sui dati utilizzano queste informazioni per generare query personalizzate per una tabella specifica.
In che modo gli insight sui dati basano le query utilizzando i dati della scansione del profilo
Gli insight sui dati utilizzano i dati della scansione del profilo per creare query basate sulla distribuzione e sui pattern effettivi dei dati all'interno del set di dati. Questa procedura prevede i seguenti passaggi:
- Analizzare i dati della scansione del profilo per identificare pattern, tendenze o outlier interessanti nei dati
- Generare query incentrate su questi pattern, tendenze o outlier per ricavare insight
- Convalida le query generate in base ai dati della scansione del profilo per garantire che le query restituiscano risultati significativi
Suggerimenti per massimizzare i vantaggi degli insight sui dati
Le query con grounding assicurano che gli insight ottenuti siano accurati, pertinenti e strategici, consentendoti di prendere decisioni migliori basate sui dati. Per sfruttare al meglio le query con grounding utilizzando i dati della scansione del profilo, segui questi suggerimenti:
- Assicurati che nella tabella siano stati pubblicati dati aggiornati della scansione del profilo. In questo modo, gli insight sui dati possono generare query più accurate e pertinenti.
- Esamina le query generate per capire come si basano sui dati della scansione del profilo. In questo modo puoi interpretare i risultati e ottenere insight più approfonditi.
- Modifica le impostazioni dell'analisi del profilo della tabella o fornisci ulteriore contesto agli insight sui dati se le query generate non sono pertinenti o utili.
Prezzi
La funzionalità degli insight sui dati di BigQuery non viene fatturata durante l'anteprima.
Limitazioni
- Gli insight sui dati sono disponibili per tabelle BigQuery, tabelle BigLake, tabelle esterne e viste.
- Per i clienti multi-cloud, non sono disponibili dati da altri cloud.
- Gli insight sui dati non supportano i tipi di colonna
Geo
oJSON
. - Le esecuzioni degli insight non garantiscono la presentazione delle query ogni volta. Per aumentare la probabilità di generare query più coinvolgenti, avvia di nuovo la pipeline di insight.
- Per le tabelle con controllo dell'accesso a livello di colonna (ACL) e autorizzazioni utente limitate, puoi generare insight se disponi dell'accesso in lettura a tutte le colonne della tabella. Per eseguire le query generate, devi disporre di autorizzazioni sufficienti.
Prima di iniziare
Ruoli e autorizzazioni richiesti
Per creare, gestire e recuperare insight sui dati, chiedi all'amministratore di concederti i seguenti ruoli IAM:
Editor DataScan Dataplex (
roles/dataplex.dataScanEditor
) o Amministratore DataScan Dataplex (roles/dataplex.dataScanAdmin
) per il progetto in cui vuoi generare insight.Visualizzatore dati BigQuery (
roles/bigquery.dataViewer
) sulle tabelle BigQuery per le quali vuoi generare insight.
Per ottenere l'accesso di sola lettura agli insight generati, chiedi all'amministratore di concederti il seguente ruolo IAM:
- DataViewer (
roles/dataplex.dataScanDataViewer
) di Dataplex per il progetto contenente le tabelle BigQuery per le quali vuoi visualizzare gli insight.
Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso agli account di servizio.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Abilita le API
Per utilizzare gli insight sui dati, abilita le API seguenti nel progetto:
Per ulteriori informazioni sull'abilitazione dell'API Cloud AI Companion, consulta Abilitare l'API Cloud AI Companion in un progetto Google Cloud.
Genera insight per una tabella BigQuery
Per generare insight per una tabella BigQuery, devi accedere alla voce della tabella in BigQuery utilizzando BigQuery Studio.
Nella console Google Cloud, vai a BigQuery Studio.
Nel riquadro Explorer, seleziona la tabella per cui vuoi generare insight.
Fai clic sulla scheda Approfondimenti. Se la scheda è vuota, significa che non sono stati ancora generati gli insight per questa tabella.
Per attivare la pipeline di insight, fai clic su Genera insight.
Il completamento degli insight richiede 5-10 minuti.
Se un'analisi del profilo pubblicato per la tabella è accessibile, viene utilizzata per generare insight completi. Altrimenti, gli insight vengono formulati in base ai nomi delle colonne e alle rispettive descrizioni. Questo approccio garantisce di ricevere insight indipendentemente dalla disponibilità di una scansione del profilo.
Nella scheda Approfondimenti, esplora le query generate e le relative descrizioni.
Per aprire una query in BigQuery, fai clic su Apri in BigQuery.
Per generare un nuovo set di query, fai clic su Genera insight e attiva di nuovo la pipeline.
Genera insight per una tabella BigQuery esterna
Gli insight sui dati di BigQuery supportano le tabelle esterne di BigQuery nello stesso progetto. Se la tabella BigQuery fa riferimento a dati archiviati in Cloud Storage in un altro progetto Google Cloud, la generazione degli insight non riesce.
Per generare insight per una tabella BigQuery esterna, segui le istruzioni descritte nella sezione Generare insight per una tabella BigQuery di questo documento.
Genera insight per una tabella BigLake
Per generare insight per una tabella BigLake, segui questi passaggi:
Abilita l'API BigQuery Connection nel tuo progetto.
Creare una connessione BigQuery. Per maggiori informazioni, vedi Gestire le connessioni.
Concedi il ruolo IAM Visualizzatore oggetti Storage (
roles/storage.objectViewer
) all'account di servizio corrispondente alla connessione BigQuery che hai creato.Puoi recuperare l'ID dell'account di servizio dai dettagli della connessione.
Per generare insight, segui le istruzioni descritte nella sezione Generare insight per una tabella BigQuery di questo documento.
Passaggi successivi
- Scopri di più sulla profilazione dei dati Dataplex.
- Scopri come scrivere query con l'assistenza di Gemini in BigQuery.