Utilizzare l'agente di data science Colab Enterprise con BigQuery
Data Science Agent (DSA) per Colab Enterprise e BigQuery ti consente di automatizzare l'analisi esplorativa dei dati, eseguire attività di machine learning e fornire insight, tutto all'interno di un notebook Colab Enterprise.
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Vertex AI, Dataform, and Compute Engine APIs.
Per i nuovi progetti, l'API BigQuery viene abilitata automaticamente.
- Data Science Agent supporta le seguenti origini dati:
- File CSV
- Tabelle BigQuery
- Il codice prodotto da Data Science Agent viene eseguito solo nel runtime del notebook.
- Data Science Agent non è supportato nei progetti in cui sono stati abilitati i Controlli di servizio VPC.
- La prima volta che esegui l'agente Data Science, potresti riscontrare una latenza di circa 5-10 minuti. Questo avviene solo una volta per progetto durante la configurazione iniziale.
- La ricerca di tabelle BigQuery utilizzando la funzione
@mention
è limitata al progetto corrente. Utilizza il selettore delle tabelle per eseguire ricerche nei progetti. - La funzione
@mention
esegue ricerche solo nelle tabelle BigQuery. Per cercare i file di dati che puoi caricare, utilizza il simbolo+
. - Genera un piano: genera e modifica un piano per completare una determinata attività utilizzando strumenti comuni come Python, SQL e BigQuery DataFrames.
- Esplorazione dei dati: esplora un set di dati per comprenderne la struttura, identificare potenziali problemi come valori mancanti e outlier ed esaminare la distribuzione delle variabili chiave utilizzando Python o SQL.
- Pulizia dei dati: pulisci i dati. Ad esempio, rimuovi i punti dati che sono valori anomali.
- Organizzazione dei dati: converti le funzionalità categoriche in rappresentazioni numeriche utilizzando tecniche come la codifica one-hot o la codifica delle etichette oppure utilizzando gli strumenti di trasformazione delle funzionalità di BigQuery. Crea nuove funzionalità per l'analisi.
- Analisi dei dati: analizza le relazioni tra diverse variabili. Calcola le correlazioni tra le caratteristiche numeriche ed esplora le distribuzioni delle caratteristiche categoriche. Cerca pattern e tendenze nei dati.
- Visualizzazione dei dati: crea visualizzazioni come istogrammi, box plot, grafici a dispersione e grafici a barre che rappresentano le distribuzioni di singole variabili e le relazioni tra loro. Puoi anche creare visualizzazioni in Python per le tabelle archiviate in BigQuery.
- Feature engineering: crea nuove funzionalità da un set di dati pulito.
- Suddivisione dei dati: dividi un set di dati creato in set di dati di addestramento, convalida e test.
- Addestramento del modello: addestra un modello utilizzando i dati di addestramento in un pandas DataFrame (
X_train
,y_train
), un BigQuery DataFrames o utilizzando l'istruzioneCREATE MODEL
BigQuery ML con le tabelle BigQuery. - Ottimizzazione del modello: ottimizza un modello utilizzando il set di convalida.
Esplora modelli alternativi come
DecisionTreeRegressor
eRandomForestRegressor
e confronta il loro rendimento. - Valutazione del modello: valuta il modello con il rendimento migliore su un set di dati di test memorizzato in un DataFrame pandas o BigQuery. Valuta la qualità del modello, confronta i modelli o prevedi le prestazioni del modello utilizzando le funzioni di valutazione del modello di BigQuery ML.
- Inferenza del modello: esegui l'inferenza con modelli addestrati, modelli importati e modelli remoti di BigQuery ML utilizzando le funzioni di inferenza di BigQuery ML. In alternativa, utilizza il metodo
BigFrames
model.predict()
per fare previsioni su dati mai visti. Crea o apri un notebook Colab Enterprise.
Fai riferimento ai tuoi dati in uno dei seguenti modi:
- Carica un file CSV o utilizza il simbolo
+
nel prompt per cercare i file disponibili. - Scegli una o più tabelle BigQuery nel selettore di tabelle dal tuo progetto attuale o da altri progetti a cui hai accesso.
- Fai riferimento a un nome di tabella BigQuery nel prompt in questo
formato:
project_id:dataset.table
- Digita il simbolo
@
per cercare il nome di una tabella BigQuery utilizzando la funzione@mention
- Carica un file CSV o utilizza il simbolo
Inserisci un prompt che descriva l'analisi dei dati che vuoi eseguire o il prototipo che vuoi creare. Il comportamento predefinito dell'agente Data Science è quello di generare codice Python utilizzando librerie open source come sklearn per svolgere attività di machine learning complesse. Per utilizzare uno strumento specifico, includi le seguenti parole chiave nel prompt:
- Se vuoi utilizzare BigQuery ML, includi la parola chiave "SQL".
- Se vuoi utilizzare "BigQuery DataFrames", specifica le parole chiave "BigFrames" o "BigQuery DataFrames".
Per ricevere assistenza, consulta i prompt di esempio.
Esamina i risultati.
Vai alla pagina BigQuery.
Nella pagina di benvenuto di BigQuery Studio, in Crea nuovo, fai clic su Notebook.
In alternativa, nella barra delle schede, fai clic sulla freccia menu a discesa > Blocco note vuoto.
accanto all'icona +, quindi fai clic su Blocco noteNella barra degli strumenti, fai clic sul pulsante Spark Attiva/disattiva Gemini per aprire la finestra di dialogo della chat.
Carica il file CSV.
Nella finestra di dialogo della chat, fai clic su > Carica.
Aggiungi a GeminiSe necessario, autorizza il tuo Account Google.
Individua la posizione del file CSV e fai clic su Apri.
In alternativa, digita il simbolo
+
nel prompt per cercare i file disponibili da caricare.Inserisci il prompt nella finestra della chat. Ad esempio:
Identify trends and anomalies in this file.
Fai clic su
Invia. I risultati vengono visualizzati nella finestra della chat.Puoi chiedere all'agente di modificare il piano oppure puoi eseguirlo facendo clic su Accetta ed esegui. Man mano che il piano viene eseguito, il codice e il testo generati vengono visualizzati nel blocco note. Fai clic su Annulla per interrompere.
Vai alla pagina BigQuery.
Nella pagina di benvenuto di BigQuery Studio, in Crea nuovo, fai clic su Notebook.
In alternativa, nella barra delle schede, fai clic sulla freccia menu a discesa > Blocco note vuoto.
accanto all'icona +, quindi fai clic su Blocco noteNella barra degli strumenti, fai clic sul pulsante Spark Attiva/disattiva Gemini per aprire la finestra di dialogo della chat.
Inserisci il prompt nella finestra della chat.
Fai riferimento ai tuoi dati in uno dei seguenti modi:
Scegli una o più tabelle utilizzando il selettore di tabelle:
Fai clic su > Tabelle BigQuery.
Aggiungi a GeminiNella finestra Tabelle BigQuery, seleziona una o più tabelle nel tuo progetto. Puoi cercare tabelle in tutti i progetti e filtrarle utilizzando la barra di ricerca.
Includi un nome della tabella BigQuery direttamente nel prompt. Ad esempio: "Aiutami a eseguire un'analisi esplorativa dei dati e a ottenere approfondimenti sui dati in questa tabella:
project_id:dataset.table
".Sostituisci quanto segue:
project_id
: il tuo ID progettodataset
: il nome del set di dati che contiene la tabella che stai analizzandotable
: il nome della tabella che stai analizzando
Digita
@
per cercare una tabella BigQuery nel progetto corrente.
Fai clic su
Invia.I risultati vengono visualizzati nella finestra della chat.
Puoi chiedere all'agente di modificare il piano oppure puoi eseguirlo facendo clic su Accetta ed esegui. Man mano che il piano viene eseguito, il codice e il testo generati vengono visualizzati nel blocco note. Per i passaggi aggiuntivi del piano, potrebbe essere necessario fare di nuovo clic su Accetta ed esegui. Fai clic su Annulla per interrompere.
- Esamina e compila i valori mancanti utilizzando l'algoritmo di machine learning k-Nearest Neighbors (KNN).
- Crea un grafico dello stipendio in base al livello di esperienza. Utilizza la colonna
experience_level
per raggruppare gli stipendi e crea un box plot per ogni gruppo che mostri i valori della colonnasalary_in_usd
. - Utilizza l'algoritmo XGBoost per creare un modello per determinare la variabile
class
di un determinato frutto. Dividi i dati in set di dati di addestramento e test per generare un modello e determinare la sua accuratezza. Crea una matrice di confusione per mostrare le previsioni per ogni classe, incluse tutte le previsioni corrette e non corrette. - Previsione
target_variable
dafilename.csv
per i sei mesi successivi. - Crea e valuta un modello di classificazione su
bigquery-public-data.ml_datasets.census_adult_income
utilizzando BigQuery SQL. - Utilizzando SQL, prevedi il traffico futuro del mio sito web per il prossimo mese
in base a
bigquery-public-data.google_analytics_sample.ga_sessions_*
. Poi traccia i valori storici e previsti. - Raggruppa clienti simili per creare campagne di marketing di targeting utilizzando un modello KMeans e le funzioni SQL di BigQuery ML. Utilizza tre funzionalità per
il clustering. Quindi visualizza i risultati creando una serie di grafici a dispersione 2D. Utilizza la tabella
bigquery-public-data.ml_datasets.census_adult_income
. - Genera incorporamenti di testo in BigQuery ML utilizzando i contenuti delle recensioni in
bigquery-public-data.imdb.reviews
. - Crea un DataFrame Pandas per i dati in
project_id:dataset.table
. Analizza i dati per i valori nulli e poi traccia un grafico della distribuzione di ogni colonna utilizzando il tipo di grafico. Utilizza i grafici a violino per i valori misurati e i grafici a barre per le categorie. - Leggi
filename.csv
e crea un DataFrame. Esegui l'analisi del DataFrame per determinare cosa fare con i valori. Ad esempio, ci sono valori mancanti che devono essere sostituiti o rimossi o righe duplicate che devono essere gestite. Utilizza il file di dati per determinare la distribuzione del denaro investito in dollari per località cittadina. Rappresenta graficamente i primi 20 risultati utilizzando un grafico a barre che mostra i risultati in ordine decrescente come Località rispetto all'importo medio investito (USD). - Crea e valuta un modello di classificazione su
project_id:dataset.table
utilizzando BigQuery DataFrames. - Crea un modello di previsione delle serie temporali su
project_id:dataset.table
utilizzando BigQuery DataFrames e visualizza le valutazioni del modello. - Visualizza le cifre di vendita dell'ultimo anno nella tabella BigQuery
project_id:dataset.table
utilizzando BigQuery DataFrames. - Trova le funzionalità che possono prevedere meglio la specie di pinguino dalla
tabella
bigquery-public_data.ml_datasets.penguins
utilizzando BigQuery DataFrames.
Se non hai mai utilizzato Colab Enterprise in BigQuery, consulta i passaggi di configurazione nella pagina Crea notebook.
Limitazioni
Quando utilizzare Data Science Agent
L'agente di data science ti aiuta con attività che vanno dall'analisi esplorativa dei dati alla generazione di previsioni di machine learning. Puoi utilizzare la DSA per:
Utilizzare l'agente Data Science in BigQuery
I seguenti passaggi mostrano come utilizzare l'agente Data Science in BigQuery.
Analizzare un file CSV
Per analizzare un file CSV utilizzando l'agente Data Science in BigQuery, segui questi passaggi.
Analizzare le tabelle BigQuery
Per analizzare una tabella BigQuery, scegli una o più tabelle nel selettore di tabelle, fornisci un riferimento alla tabella nel prompt o cerca una tabella utilizzando il simbolo @
.
Prompt di esempio
Indipendentemente dalla complessità del prompt che utilizzi, Data Science Agent genera un piano che puoi perfezionare in base alle tue esigenze.
I seguenti esempi mostrano i tipi di prompt che puoi utilizzare con gli annunci di ricerca dinamica.
Prompt Python
Il codice Python viene generato per impostazione predefinita, a meno che tu non utilizzi una parola chiave specifica nel prompt, ad esempio "BigQuery ML" o "SQL".
Prompt SQL e BigQuery ML
Per un elenco di modelli e attività di machine learning supportati, consulta la documentazione di BigQuery ML.
Prompt DataFrame
Disattiva Gemini in BigQuery
Per disattivare Gemini in BigQuery per un progetto Google Cloud , un amministratore deve disattivare l'API Gemini for Google Cloud. Vedi Disabilitare i servizi.
Per disattivare Gemini in BigQuery per un utente specifico, un
amministratore deve revocare il ruolo
Gemini for
Google Cloud User (roles/cloudaicompanion.user
) per quell'utente. Vedi
Revoca
di un singolo ruolo IAM.
Prezzi
Durante l'anteprima, ti viene addebitato il costo per l'esecuzione del codice nel runtime del blocco note e per gli slot BigQuery che hai utilizzato. Per ulteriori informazioni, consulta la pagina Prezzi di Colab Enterprise.
Aree geografiche supportate
Per visualizzare le regioni supportate per Data Science Agent di Colab Enterprise, consulta Località.