Genera insight sui dati in BigQuery

Per assistenza, invia un'email a dataplex-data-insights-help@google.com.

Gli insight sui dati offrono un modo automatizzato per esplorare e comprendere i dati. Utilizza Gemini per generare query basate sui metadati di una tabella e consente di scoprire pattern, valutare la qualità dei dati ed eseguire analisi statistiche.

Questo documento descrive le funzionalità chiave degli insight sui dati e il processo per automatizzare la generazione di query per un'esplorazione approfondita dei dati.

Informazioni sugli insight sui dati

Gli analisti di dati affrontano il problema dell'avvio a freddo nell'esplorazione dei dati quando esplorano un nuovo set di dati con una conoscenza scarsa o nulla. Il problema spesso comporta incertezze sulla struttura dei dati, sui pattern chiave e sugli insight pertinenti. Grazie alla generazione automatica di query basata sui metadati, gli insight sui dati risolvono il problema dell'avvio a freddo nell'esplorazione dei dati. Gli insight forniscono preziosi segnali per aiutarti a prendere decisioni consapevoli e ottenere insight più approfonditi sui tuoi dati. Anziché iniziare con uno slate vuoto, puoi avviare più rapidamente l'esplorazione dei dati con query significative che offrono insight preziosi.

Le query generate utilizzando insight sui dati si basano sui dati della scansione del profilo pubblicati. Gli insight sui dati utilizzano i dati di scansione dei profili pubblicati per creare query che forniscano risultati, fornendo recupero di informazioni efficiente e affidabile. Ciò accelera significativamente l'avvio del processo di analisi dei dati e ti consente di approfondire i dati con una direzione e uno scopo più chiari.

Gli insight sui dati sono uno strumento guida che risolve la sfida comune dell'esplorazione di set di dati sconosciuti, consentendoti di prendere decisioni informate e di scoprire più rapidamente pattern durante l'esplorazione dei dati.

Esempio di un'esecuzione di insight

Considera una tabella chiamata telco_churn con i seguenti metadati:

Nome campo Tipo
CustomerID STRING
Genere STRING
Periodo di incarico INT64
PhoneService STRING
OnlineBackup STRING
Dipendenti BOOLEAN
Contratto STRING
TechSupport STRING
PaymentMethod STRING
MonthlyCharges FLOAT
Tasso di abbandono BOOLEAN

Di seguito sono riportate alcune query di esempio generate dagli insight sui dati per questa tabella:

  • Identifica i clienti che hanno sottoscritto l'abbonamento a tutti i servizi premium e sono clienti da più di 50 mesi.

    SELECT
      CustomerID,
      Contract,
      Tenure
    FROM
      agentville_datasets.telco_churn
    WHERE
      OnlineSecurity = 'Yes'
      AND OnlineBackup = 'Yes'
      AND DeviceProtection = 'Yes'
      AND TechSupport = 'Yes'
      AND StreamingTV = 'Yes'
      AND StreamingMovies = 'Yes'
      AND Tenure > 50;
    
  • Identificare quale servizio internet ha i clienti che abbandonano il sito.

    SELECT
      InternetService,
      COUNT(DISTINCT CustomerID) AS total_customers
    FROM
      agentville_datasets.telco_churn
    WHERE
      Churn = TRUE
    GROUP BY
      InternetService
    ORDER BY
      total_customers DESC
    LIMIT 1;
    
  • Identifica i tassi di abbandono per segmento tra i clienti di alto valore.

    SELECT
      Contract,
      InternetService,
      Gender,
      PaymentMethod,
      COUNT(DISTINCT CustomerID) AS total_customers,
      SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) AS churned_customers,
      (SUM(CASE WHEN Churn = TRUE THEN 1 ELSE 0 END) / COUNT(DISTINCT CustomerID))
    * 100 AS churn_rate
    FROM
      agentville_datasets.telco_churn
    WHERE
      MonthlyCharges > 100
    GROUP BY
      Contract,
      InternetService,
      Gender,
      PaymentMethod;
    

Informazioni sul grounding degli insight tramite le scansioni del profilo

Quando crei un'analisi del profilo dati per una tabella, puoi scegliere di pubblicare i risultati della scansione in BigQuery e Data Catalog. BigQuery usa i dati di scansione del profilo pubblicato per generare query più accurate e pertinenti sulla tabella.

Puoi visualizzare i dati pubblicati della scansione del profilo nella console Google Cloud. Per ulteriori informazioni su come visualizzare i dati della scansione del profilo pubblicato, consulta Visualizzare i risultati pubblicati.

I dati della scansione del profilo forniscono informazioni sulla distribuzione dei dati, sui tipi di dati e sui riassunti statistici del set di dati. L'analisi viene utilizzata per generare insight nella tabella. Se non sono disponibili analisi, gli insight vengono formulati in base ai nomi delle colonne e alle rispettive descrizioni.

Per scoprire di più sulle analisi del profilo, consulta Generare insight sul profilo dati con le analisi.

Per scoprire di più sulla creazione e sulla pubblicazione delle scansioni del profilo, consulta Creare un'analisi del profilo dati.

Le seguenti sezioni descrivono in che modo gli insight sui dati utilizzano la scansione dei dati del profilo pubblicato per le query a terra.

Informazioni sui dati della scansione del profilo

I dati della scansione del profilo sono i metadati che descrivono i contenuti di una tabella. Include le seguenti informazioni:

  • Tipi di dati delle colonne
  • Valori minimo e massimo
  • Distribuzione dei valori
  • Valori nulli o mancanti
  • Valori principali
  • Valori unici e frequenza

Gli insight sui dati utilizzano queste informazioni per generare query personalizzate per una tabella specifica.

In che modo gli insight sui dati basano le query utilizzando i dati della scansione del profilo

Gli insight sui dati utilizzano i dati della scansione del profilo per creare query basate sulla distribuzione e sui pattern effettivi dei dati all'interno del set di dati. Questa procedura prevede i seguenti passaggi:

  • Analizzare i dati della scansione del profilo per identificare pattern, tendenze o outlier interessanti nei dati
  • Generare query incentrate su questi pattern, tendenze o outlier per ricavare insight
  • Convalida le query generate in base ai dati della scansione del profilo per garantire che le query restituiscano risultati significativi

Suggerimenti per massimizzare i vantaggi degli insight sui dati

Le query con grounding assicurano che gli insight ottenuti siano accurati, pertinenti e strategici, consentendoti di prendere decisioni migliori basate sui dati. Per sfruttare al meglio le query con grounding utilizzando i dati della scansione del profilo, segui questi suggerimenti:

  • Assicurati che nella tabella siano stati pubblicati dati aggiornati della scansione del profilo. In questo modo, gli insight sui dati possono generare query più accurate e pertinenti.
  • Esamina le query generate per capire come si basano sui dati della scansione del profilo. In questo modo puoi interpretare i risultati e ottenere insight più approfonditi.
  • Modifica le impostazioni dell'analisi del profilo della tabella o fornisci ulteriore contesto agli insight sui dati se le query generate non sono pertinenti o utili.

Prezzi

La funzionalità degli insight sui dati di BigQuery non viene fatturata durante l'anteprima.

Limitazioni

  • Gli insight sui dati sono disponibili per tabelle BigQuery, tabelle BigLake, tabelle esterne e viste.
  • Per i clienti multi-cloud, non sono disponibili dati da altri cloud.
  • Gli insight sui dati non supportano i tipi di colonna Geo o JSON.
  • Le esecuzioni degli insight non garantiscono la presentazione delle query ogni volta. Per aumentare la probabilità di generare query più coinvolgenti, avvia di nuovo la pipeline di insight.
  • Per le tabelle con controllo dell'accesso a livello di colonna (ACL) e autorizzazioni utente limitate, puoi generare insight se disponi dell'accesso in lettura a tutte le colonne della tabella. Per eseguire le query generate, devi disporre di autorizzazioni sufficienti.

Prima di iniziare

Ruoli e autorizzazioni richiesti

Per creare, gestire e recuperare insight sui dati, chiedi all'amministratore di concederti i seguenti ruoli IAM:

Per ottenere l'accesso di sola lettura agli insight generati, chiedi all'amministratore di concederti il seguente ruolo IAM:

  • DataViewer (roles/dataplex.dataScanDataViewer) di Dataplex per il progetto contenente le tabelle BigQuery per le quali vuoi visualizzare gli insight.

Per ulteriori informazioni sulla concessione dei ruoli, consulta Gestire l'accesso agli account di servizio.

Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.

Abilita le API

Per utilizzare gli insight sui dati, abilita le API seguenti nel progetto:

Per ulteriori informazioni sull'abilitazione dell'API Cloud AI Companion, consulta Abilitare l'API Cloud AI Companion in un progetto Google Cloud.

Genera insight per una tabella BigQuery

Per generare insight per una tabella BigQuery, devi accedere alla voce della tabella in BigQuery utilizzando BigQuery Studio.

  1. Nella console Google Cloud, vai a BigQuery Studio.

    Vai a BigQuery Studio

  2. Nel riquadro Explorer, seleziona la tabella per cui vuoi generare insight.

  3. Fai clic sulla scheda Approfondimenti. Se la scheda è vuota, significa che non sono stati ancora generati gli insight per questa tabella.

  4. Per attivare la pipeline di insight, fai clic su Genera insight.

    Il completamento degli insight richiede 5-10 minuti.

    Se un'analisi del profilo pubblicato per la tabella è accessibile, viene utilizzata per generare insight completi. Altrimenti, gli insight vengono formulati in base ai nomi delle colonne e alle rispettive descrizioni. Questo approccio garantisce di ricevere insight indipendentemente dalla disponibilità di una scansione del profilo.

  5. Nella scheda Approfondimenti, esplora le query generate e le relative descrizioni.

  6. Per aprire una query in BigQuery, fai clic su Apri in BigQuery.

  7. Per generare un nuovo set di query, fai clic su Genera insight e attiva di nuovo la pipeline.

Genera insight per una tabella BigQuery esterna

Gli insight sui dati di BigQuery supportano le tabelle esterne di BigQuery nello stesso progetto. Se la tabella BigQuery fa riferimento a dati archiviati in Cloud Storage in un altro progetto Google Cloud, la generazione degli insight non riesce.

Per generare insight per una tabella BigQuery esterna, segui le istruzioni descritte nella sezione Generare insight per una tabella BigQuery di questo documento.

Genera insight per una tabella BigLake

Per generare insight per una tabella BigLake, segui questi passaggi:

  1. Abilita l'API BigQuery Connection nel tuo progetto.

    Abilita l'API BigQuery Connection

  2. Creare una connessione BigQuery. Per maggiori informazioni, vedi Gestire le connessioni.

  3. Concedi il ruolo IAM Visualizzatore oggetti Storage (roles/storage.objectViewer) all'account di servizio corrispondente alla connessione BigQuery che hai creato.

    Puoi recuperare l'ID dell'account di servizio dai dettagli della connessione.

  4. Per generare insight, segui le istruzioni descritte nella sezione Generare insight per una tabella BigQuery di questo documento.

Passaggi successivi