Utilizzare l'agente di data science Colab Enterprise con BigQuery

Data Science Agent (DSA) per Colab Enterprise e BigQuery ti consente di automatizzare l'analisi esplorativa dei dati, eseguire attività di machine learning e fornire insight, tutto all'interno di un notebook Colab Enterprise.

Prima di iniziare

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the BigQuery, Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

Per i nuovi progetti, l'API BigQuery viene abilitata automaticamente.

Se non hai mai utilizzato Colab Enterprise in BigQuery, consulta i passaggi di configurazione nella pagina Crea notebook.

Limitazioni

Data Science Agent supporta le seguenti origini dati:
- File CSV
- Tabelle BigQuery
Il codice prodotto da Data Science Agent viene eseguito solo nel runtime del notebook.
Data Science Agent non è supportato nei progetti in cui sono stati abilitati i Controlli di servizio VPC.
La ricerca di tabelle BigQuery utilizzando la funzione @mention è limitata al progetto corrente. Utilizza il selettore delle tabelle per eseguire ricerche nei progetti.
La funzione @mention esegue ricerche solo nelle tabelle BigQuery. Per cercare i file di dati che puoi caricare, utilizza il simbolo +.
PySpark in Data Science Agent genera solo codice Serverless per Apache Spark 4.0. DSA può aiutarti a eseguire l'upgrade a Serverless per Apache Spark 4.0, ma gli utenti che richiedono versioni precedenti non devono utilizzare Data Science Agent.

Quando utilizzare Data Science Agent

L'agente di data science ti aiuta con attività che vanno dall'analisi esplorativa dei dati alla generazione di previsioni di machine learning. Puoi utilizzare il DSA per:

Elaborazione dei dati su larga scala: utilizza BigQuery ML, BigQuery DataFrames o Serverless per Apache Spark per eseguire l'elaborazione distribuita dei dati su grandi set di dati. In questo modo puoi pulire, trasformare e analizzare in modo efficiente i dati troppo grandi per essere memorizzati nella memoria di una singola macchina.
Generazione di un piano: genera e modifica un piano per completare una determinata attività utilizzando strumenti comuni come Python, SQL, Serverless per Apache Spark e BigQuery DataFrames.
Esplorazione dei dati: esplora un set di dati per comprenderne la struttura, identificare potenziali problemi come valori mancanti e outlier ed esaminare la distribuzione delle variabili chiave utilizzando Python o SQL.
Pulizia dei dati: pulisci i dati. Ad esempio, rimuovi i punti dati che sono valori anomali.
Organizzazione dei dati: converti le funzionalità categoriche in rappresentazioni numeriche utilizzando tecniche come la codifica one-hot o la codifica delle etichette oppure utilizzando gli strumenti di trasformazione delle funzionalità di BigQuery ML. Crea nuove funzionalità per l'analisi.
Analisi dei dati: analizza le relazioni tra diverse variabili. Calcola le correlazioni tra le caratteristiche numeriche ed esplora le distribuzioni delle caratteristiche categoriche. Cerca pattern e tendenze nei dati.
Visualizzazione dei dati: crea visualizzazioni come istogrammi, box plot, grafici a dispersione e grafici a barre che rappresentano le distribuzioni di singole variabili e le relazioni tra loro. Puoi anche creare visualizzazioni in Python per le tabelle archiviate in BigQuery.
Feature engineering: crea nuove funzionalità da un set di dati pulito.
Suddivisione dei dati: dividi un set di dati creato in set di dati di addestramento, convalida e test.
Addestramento del modello: addestra un modello utilizzando i dati di addestramento in un DataFrame pandas (X_train, y_train), BigQuery DataFrames, un DataFrame PySpark o utilizzando l'istruzione CREATE MODEL BigQuery ML con le tabelle BigQuery.
Ottimizzazione del modello: ottimizza un modello utilizzando il set di convalida. Esplora modelli alternativi come DecisionTreeRegressor e RandomForestRegressor e confronta il loro rendimento.
Valutazione del modello: valuta le prestazioni del modello su un set di dati di test utilizzando un DataFrame pandas, BigQuery DataFrames o un DataFrame PySpark. Puoi anche valutare la qualità del modello e confrontare i modelli utilizzando le funzioni di valutazione del modello di BigQuery ML per i modelli addestrati utilizzando BigQuery ML.
Inferenza del modello: esegui l'inferenza con modelli addestrati, modelli importati e modelli remoti di BigQuery ML utilizzando le funzioni di inferenza di BigQuery ML. Puoi anche utilizzare il metodo BigFrames model.predict() o i trasformatori PySpark per fare previsioni.

Utilizzare l'agente Data Science in BigQuery

I seguenti passaggi mostrano come utilizzare l'agente Data Science in BigQuery.

Crea o apri un notebook Colab Enterprise.
Fai riferimento ai tuoi dati in uno dei seguenti modi:
- Carica un file CSV o utilizza il simbolo + nel prompt per cercare i file disponibili.
- Scegli una o più tabelle BigQuery nel selettore di tabelle dal tuo progetto attuale o da altri progetti a cui hai accesso.
- Fai riferimento a un nome di tabella BigQuery nel prompt in questo formato: project_id:dataset.table
- Digita il simbolo @ per cercare il nome di una tabella BigQuery utilizzando la funzione @mention
Inserisci un prompt che descriva l'analisi dei dati che vuoi eseguire o il prototipo che vuoi creare. Il comportamento predefinito dell'agente Data Science è quello di generare codice Python utilizzando librerie open source come sklearn per svolgere attività di machine learning complesse. Per utilizzare uno strumento specifico, includi le seguenti parole chiave nel prompt:
- Se vuoi utilizzare BigQuery ML, includi la parola chiave "SQL".
- Se vuoi utilizzare "BigQuery DataFrames", specifica le parole chiave "BigFrames" o "BigQuery DataFrames".
- Se vuoi utilizzare PySpark, includi le parole chiave "Apache Spark" o "PySpark".
Per ricevere assistenza, consulta i prompt di esempio.
Esamina i risultati.

Analizzare un file CSV

Per analizzare un file CSV utilizzando l'agente Data Science in BigQuery, segui questi passaggi.

Vai alla pagina BigQuery.

Vai a BigQuery
Nella pagina di benvenuto di BigQuery Studio, in Crea nuovo, fai clic su Notebook.

In alternativa, nella barra delle schede, fai clic sulla freccia menu a discesa accanto all'icona +, quindi fai clic su Blocco note > Blocco note vuoto.
Nella barra degli strumenti, fai clic sul pulsante Spark Attiva/disattiva Gemini per aprire la finestra di dialogo della chat.

Nota: puoi spostare la finestra di dialogo della chat in un riquadro separato all'esterno del notebook facendo clic sull'icona Sposta nel riquadro.
Carica il file CSV.
1. Nella finestra di dialogo della chat, fai clic su Aggiungi a Gemini > Carica.
2. Se necessario, autorizza il tuo Account Google.
3. Individua la posizione del file CSV e fai clic su Apri.
In alternativa, digita il simbolo + nel prompt per cercare i file disponibili da caricare.
Inserisci il prompt nella finestra della chat. Ad esempio: Identify trends and anomalies in this file.
Fai clic su Invia. I risultati vengono visualizzati nella finestra della chat.
Puoi chiedere all'agente di modificare il piano oppure puoi eseguirlo facendo clic su Accetta ed esegui. Man mano che il piano viene eseguito, il codice e il testo generati vengono visualizzati nel blocco note. Fai clic su Annulla per interrompere.

Analizzare le tabelle BigQuery

Per analizzare una tabella BigQuery, scegli una o più tabelle nel selettore di tabelle, fornisci un riferimento alla tabella nel prompt o cerca una tabella utilizzando il simbolo @.

Vai alla pagina BigQuery.

Vai a BigQuery
Nella pagina di benvenuto di BigQuery Studio, in Crea nuovo, fai clic su Notebook.

In alternativa, nella barra delle schede, fai clic sulla freccia menu a discesa accanto all'icona +, quindi fai clic su Blocco note > Blocco note vuoto.
Nella barra degli strumenti, fai clic sul pulsante Spark Attiva/disattiva Gemini per aprire la finestra di dialogo della chat.

Nota: puoi spostare la finestra di dialogo della chat in un riquadro separato all'esterno del notebook facendo clic sull'icona Sposta nel riquadro.
Inserisci il prompt nella finestra della chat.
Fai riferimento ai tuoi dati in uno dei seguenti modi:
1. Scegli una o più tabelle utilizzando il selettore di tabelle:
  1. Fai clic su Aggiungi a Gemini > Tabelle BigQuery.
  2. Nella finestra Tabelle BigQuery, seleziona una o più tabelle nel tuo progetto. Puoi cercare tabelle in tutti i progetti e filtrarle utilizzando la barra di ricerca.
2. Includi un nome della tabella BigQuery direttamente nel prompt. Ad esempio: "Aiutami a eseguire un'analisi esplorativa dei dati e a ottenere approfondimenti sui dati in questa tabella: project_id:dataset.table".
  
  Sostituisci quanto segue:
  - project_id: il tuo ID progetto
  - dataset: il nome del set di dati che contiene la tabella che stai analizzando
  - table: il nome della tabella che stai analizzando
3. Digita @ per cercare una tabella BigQuery nel progetto corrente.
Fai clic su Invia.

I risultati vengono visualizzati nella finestra della chat.
Puoi chiedere all'agente di modificare il piano oppure puoi eseguirlo facendo clic su Accetta ed esegui. Man mano che il piano viene eseguito, il codice e il testo generati vengono visualizzati nel blocco note. Per i passaggi aggiuntivi del piano, potrebbe essere necessario fare di nuovo clic su Accetta ed esegui. Fai clic su Annulla per interrompere.

Prompt di esempio

Indipendentemente dalla complessità del prompt che utilizzi, Data Science Agent genera un piano che puoi perfezionare in base alle tue esigenze.

I seguenti esempi mostrano i tipi di prompt che puoi utilizzare con gli annunci di ricerca dinamica.

Prompt Python

Il codice Python viene generato per impostazione predefinita, a meno che tu non utilizzi una parola chiave specifica nel prompt, ad esempio "BigQuery ML" o "SQL".

Esamina e compila i valori mancanti utilizzando l'algoritmo di machine learning k-Nearest Neighbors (KNN).
Crea un grafico dello stipendio in base al livello di esperienza. Utilizza la colonna experience_level per raggruppare gli stipendi e crea un box plot per ogni gruppo che mostri i valori della colonna salary_in_usd.
Utilizza l'algoritmo XGBoost per creare un modello per determinare la variabile class di un determinato frutto. Dividi i dati in set di dati di addestramento e test per generare un modello e determinare la sua accuratezza. Crea una matrice di confusione per mostrare le previsioni per ogni classe, incluse tutte le previsioni corrette e non corrette.
Previsione target_variable da filename.csv per i sei mesi successivi.

Prompt SQL e BigQuery ML

Crea e valuta un modello di classificazione su bigquery-public-data.ml_datasets.census_adult_income utilizzando BigQuery SQL.
Utilizzando SQL, prevedi il traffico futuro del mio sito web per il prossimo mese in base a bigquery-public-data.google_analytics_sample.ga_sessions_*. Poi traccia i valori storici e previsti.
Raggruppa clienti simili per creare campagne di marketing di targeting utilizzando un modello KMeans e le funzioni SQL di BigQuery ML. Utilizza tre funzionalità per il clustering. Quindi visualizza i risultati creando una serie di grafici a dispersione 2D. Utilizza la tabella bigquery-public-data.ml_datasets.census_adult_income.
Genera incorporamenti di testo in BigQuery ML utilizzando i contenuti delle recensioni in bigquery-public-data.imdb.reviews.

Per un elenco di modelli e attività di machine learning supportati, consulta la documentazione di BigQuery ML.

Prompt DataFrame

Crea un DataFrame Pandas per i dati in project_id:dataset.table. Analizza i dati per i valori nulli e poi traccia un grafico della distribuzione di ogni colonna utilizzando il tipo di grafico. Utilizza i grafici a violino per i valori misurati e i grafici a barre per le categorie.
Leggi filename.csv e crea un DataFrame. Esegui l'analisi del DataFrame per determinare cosa fare con i valori. Ad esempio, ci sono valori mancanti che devono essere sostituiti o rimossi o righe duplicate che devono essere gestite. Utilizza il file di dati per determinare la distribuzione del denaro investito in dollari per località cittadina. Rappresenta graficamente i primi 20 risultati utilizzando un grafico a barre che mostra i risultati in ordine decrescente come Località rispetto all'importo medio investito (USD).
Crea e valuta un modello di classificazione su project_id:dataset.table utilizzando BigQuery DataFrames.
Crea un modello di previsione delle serie temporali su project_id:dataset.table utilizzando BigQuery DataFrames e visualizza le valutazioni del modello.
Visualizza le cifre di vendita dell'ultimo anno nella tabella BigQuery project_id:dataset.table utilizzando BigQuery DataFrames.
Trova le funzionalità che possono prevedere meglio la specie di pinguino dalla tabella bigquery-public_data.ml_datasets.penguins utilizzando BigQuery DataFrames.

Prompt PySpark

Crea e valuta un modello di classificazione su project_id:dataset.table utilizzando Serverless per Apache Spark.
Raggruppa clienti simili per creare campagne di targeting sul mercato, ma prima esegui la riduzione della dimensionalità utilizzando un modello PCA. Utilizza PySpark per farlo nella tabella project_id:dataset.table.

Disattiva Gemini in BigQuery

Per disattivare Gemini in BigQuery per un progetto Google Cloud , un amministratore deve disattivare l'API Gemini for Google Cloud. Vedi Disabilitare i servizi.

Per disattivare Gemini in BigQuery per un utente specifico, un amministratore deve revocare il ruolo Gemini for Google Cloud User (roles/cloudaicompanion.user) per quell'utente. Vedi Revoca di un singolo ruolo IAM.

Prezzi

Durante l'anteprima, ti viene addebitato il costo per l'esecuzione del codice nel runtime del blocco note e per gli slot BigQuery che hai utilizzato. Per ulteriori informazioni, consulta la pagina Prezzi di Colab Enterprise.

Aree geografiche supportate

Per visualizzare le regioni supportate per Data Science Agent di Colab Enterprise, consulta Località.