Generare approfondimenti sui dati in BigQuery
Gli insight sui dati offrono un modo automatizzato per esplorare e comprendere i tuoi dati. Usa Gemini per generare query in base ai metadati di una tabella e ti aiuta a scoprire pattern, della qualità ed eseguire analisi statistiche.
Questo documento descrive le funzionalità principali degli insight sui dati e il processo per automatizzano la generazione di query per un'esplorazione approfondita dei dati.
Prima di iniziare
Gli insight sui dati vengono generati utilizzando Gemini in BigQuery. Per iniziare a generare insight, devi prima configurare Gemini in BigQuery.
Ruoli obbligatori
Per creare, gestire e recuperare approfondimenti sui dati, chiedi all'amministratore di concederti i seguenti ruoli IAM:
Dataplex DataScan Editor (
roles/dataplex.dataScanEditor
) o Dataplex DataScan Administrator (roles/dataplex.dataScanAdmin
) nel progetto in cui vuoi generare approfondimenti.Visualizzatore dati BigQuery (
roles/bigquery.dataViewer
) sulle tabelle BigQuery per le quali vuoi generare insight.Utente BigQuery (
roles/bigquery.user
) o Utente BigQuery Studio (roles/bigquery.studioUser
) sul progetto in cui vuoi generare le analisi approfondite.
Per ottenere l'accesso di sola lettura ai dati generati, chiedi all'amministratore di concederti il seguente ruolo IAM:
- DataViewer di DataScan di Dataplex (
roles/dataplex.dataScanDataViewer
) nel progetto contenente le tabelle BigQuery per le quali vuoi visualizzare gli approfondimenti.
Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso agli account di servizio.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite ruoli personalizzati o altri ruoli predefiniti. Per visualizzare le autorizzazioni esatte necessarie per generare approfondimenti, espandi la sezione Autorizzazioni richieste:
Autorizzazioni obbligatorie
bigquery.jobs.create
bigquery.tables.get
bigquery.tables.getData
dataplex.datascans.create
dataplex.datascans.get
dataplex.datascans.getData
dataplex.datascans.run
Abilita API
Per utilizzare gli approfondimenti sui dati, abilita le seguenti API nel tuo progetto:
Per saperne di più sull'abilitazione dell'API Gemini per Google Cloud, consulta Abilitare l'API Gemini per Google Cloud in un progetto Google Cloud.
Informazioni sugli insight sui dati
Quando esplorano una nuova tabella sconosciuta, gli analisti di dati si trovano spesso a dover affrontare il problema del cold start. Il problema spesso comporta incertezze la struttura dei dati, i pattern chiave e gli insight pertinenti e rendere difficile iniziare a scrivere query. Approfondimenti dei dati risolve il problema del cold start generando automaticamente query in linguaggio naturale e SQL in base ai metadati della tabella. Anziché iniziare con un editor di query vuoto, puoi iniziare rapidamente l'esplorazione dei dati con query significative che offrono approfondimenti utili. Le query generate utilizzando gli approfondimenti sui dati sono basate su risultati di profilazione dei dati pubblicati per migliorarne la accuratezza e l'utilità.
Esempio di esecuzione di Approfondimenti
Considera una tabella chiamata telco_churn
con i seguenti metadati:
Nome campo | Tipo |
---|---|
CustomerID | STRING |
Genere | STRING |
Periodo di incarico | INT64 |
InternetService | STRING |
StreamingTV | STRING |
OnlineBackup | STRING |
Contratto | STRING |
TechSupport | STRING |
PaymentMethod | STRING |
MonthlyCharges | FLOAT |
Tasso di abbandono | BOOLEAN |
Di seguito sono riportati alcuni esempi di query per gli insight sui dati genera per questa tabella:
Identificare i clienti che hanno sottoscritto un abbonamento a tutti i servizi premium e che sono stati per un cliente da più di 50 mesi.
SELECT CustomerID, Contract, Tenure FROM agentville_datasets.telco_churn WHERE OnlineBackup = 'Yes' AND TechSupport = 'Yes' AND StreamingTV = 'Yes' AND Tenure > 50;
Identifica il servizio internet con il maggior numero di clienti dimissionari.
SELECT InternetService, COUNT(DISTINCT CustomerID) AS total_customers FROM agentville_datasets.telco_churn WHERE Churn = TRUE GROUP BY InternetService ORDER BY total_customers DESC LIMIT 1;
Identifica i tassi di abbandono per segmento tra i clienti di alto valore.
SELECT Contract, InternetService, Gender, PaymentMethod, COUNT(DISTINCT CustomerID) AS total_customers, SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers, (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID)) * 100 AS churn_rate FROM agentville_datasets.telco_churn WHERE MonthlyCharges > 100 GROUP BY Contract, InternetService, Gender, PaymentMethod;
Best practice
Per migliorare l'accuratezza degli approfondimenti generati, segui queste best practice:
Insight base per i risultati della profilazione dei dati
AI generativa, il grounding è la capacità di collegare l'output del modello a le fonti di informazione. Puoi basare gli approfondimenti generati sui risultati della profilazione dei dati. Profilazione dei dati analizza le colonne tabelle BigQuery e identifica i dati statistici comuni caratteristiche, come i valori e la distribuzione tipici dei dati. Quando crei una scansione di profilazione dei dati per una tabella, puoi scegliere di pubblicare i risultati della scansione in BigQuery e in Dataplex Catalog. BigQuery utilizza i risultati della profilazione dei dati per creare dati più accurati e pertinenti delle query nel seguente modo:
- Analizza i risultati della profilazione dei dati per identificare modelli interessanti, tendenze o outlier nei dati.
- Genera query incentrate su questi pattern, tendenze o outlier per e scoprire approfondimenti.
- Convalida le query generate in base ai risultati della profilazione dei dati per garantire che le query restituiscano risultati significativi.
Senza le analisi di profilazione dei dati, le query generate da Gemini hanno maggiori probabilità di includere clausole imprecise o di produrre risultati privi di significato.
Assicurati che l'analisi della profilazione dei dati per la tabella sia aggiornata e che vengono pubblicati in BigQuery.
Puoi modificare le impostazioni di profilazione dei dati per aumentare la dimensione di campionamento e escludere righe e colonne. Dopo aver eseguito una nuova analisi di profilazione dei dati, rigenera le analisi approfondite.
Aggiungere una descrizione della tabella
Descrizioni dettagliate delle tabelle che descrivono ciò che vuoi analizzare nel può aiutare Gemini in BigQuery a produrre approfondimenti pertinenti. Dopo aver aggiunto una descrizione della tabella, e rigenerare gli insight.
Ad esempio, potresti aggiungere la seguente descrizione alla tabella telco_churn
: "Questa tabella monitora i dati sulla sfiducia dei clienti, inclusi i dettagli dell'abbonamento, la durata e l'utilizzo del servizio, per prevedere il comportamento di sfiducia dei clienti".
Aggiungere descrizioni delle colonne
Descrizioni delle colonne che spiegano le caratteristiche di ciascuna colonna o la correlazione tra una colonna a un altro, può migliorare la qualità delle informazioni. Dopo aver aggiornato le descrizioni delle colonne nella tabella, rigenera gli approfondimenti.
Ad esempio, puoi aggiungere le seguenti descrizioni a colonne specifiche della tabella telco_churn
:
Tenure
: "Il numero di mesi in cui il cliente utilizza il servizio".Churn
: "Se il cliente ha smesso di utilizzare il servizio. TRUE indica che il cliente non utilizza più il servizio, FALSE indica che il cliente è attivo."
Generare approfondimenti per una tabella BigQuery
Per generare insight per una tabella BigQuery, devi accedere alla classe in BigQuery utilizzando BigQuery Studio.
Nella console Google Cloud, vai a BigQuery Studio.
Nel riquadro Explorer, seleziona la tabella da generare insight per i nostri clienti.
Fai clic sulla scheda Approfondimenti. Se la scheda è vuota, significa che le informazioni per questa tabella non sono ancora state generate.
Per attivare la pipeline di approfondimenti, fai clic su Genera approfondimenti.
Il completamento degli insight richiede alcuni minuti.
Se sono disponibili risultati di profilazione dei dati pubblicati per la tabella, vengono usati per generare insight. In caso contrario, gli approfondimenti vengono generati in base ai nomi e alle descrizioni delle colonne.
Nella scheda Approfondimenti, esplora le query generate e le relative descrizioni.
Per aprire una query in BigQuery, fai clic su Copia in Query.
Per generare un nuovo insieme di query, fai clic su Genera insight e attiva di nuovo nella pipeline.
Dopo aver generato gli approfondimenti per una tabella, chiunque disponga dell'autorizzazione dataplex.datascans.getData
e dell'accesso alla tabella può visualizzarli.
Generare approfondimenti per una tabella esterna BigQuery
Gli insight sui dati di BigQuery supportano la generazione di insight per
Tabelle esterne BigQuery con dati in Cloud Storage.
Tu e l'account di servizio Dataplex per il progetto corrente dovete disporre del ruolo Visualizzatore oggetti Storage (roles/storage.objectViewer
) nel bucket Cloud Storage contenente i dati. Per ulteriori informazioni, consulta Aggiungere un principale a un criterio a livello di bucket.
Per generare insight per una tabella BigQuery esterna, segui le le istruzioni descritte in Generare insight per una tabella BigQuery di questo documento.
Generare approfondimenti per una tabella BigLake
Per generare insight per un Tabella BigLake, segui questi passaggi:
Attiva l'API BigQuery Connection nel tuo progetto.
Creare una connessione BigQuery. Per saperne di più, consulta Gestire le connessioni.
Concedi il visualizzatore oggetti Storage (
roles/storage.objectViewer
) ruolo IAM all'account di servizio corrispondente Connessione BigQuery creata da te.Puoi recuperare l'ID account di servizio dai dettagli della connessione.
Per generare approfondimenti, segui le istruzioni descritte nella sezione Generare approfondimenti per una tabella BigQuery di questo documento.
Prezzi
Per informazioni dettagliate sui prezzi di questa funzionalità, consulta la panoramica dei prezzi di Gemini in BigQuery.
Quote e limiti
Per informazioni su quote e limiti per questa funzionalità, consulta Quote per Gemini in BigQuery.
Limitazioni
- Le statistiche dei dati sono disponibili per le tabelle BigQuery, le tabelle BigLake, le tabelle esterne e le viste.
- Per i clienti multi-cloud, non sono disponibili dati da altri cloud.
- Approfondimenti dei dati non supporta i tipi di colonne
Geo
oJSON
. - Le esecuzioni degli insight non garantiscono la presentazione delle query ogni volta. Per aumentare la probabilità di generare query più coinvolgenti, riavvia la pipeline di insight.
- Per le tabelle con controlli di accesso a livello di colonna (ACL) e autorizzazioni utente limitate, puoi generare approfondimenti se disponi dell'accesso in lettura a tutte le colonne della tabella. Per eseguire le query generate, devi disporre di autorizzazioni sufficienti.
Passaggi successivi
- Scopri di più sulla profilazione dei dati di Dataplex.
- Scopri come scrivere query con l'assistenza di Gemini in BigQuery.