Utilizzare l'agente di data science Colab Enterprise con BigQuery
Data Science Agent (DSA) per Colab Enterprise e BigQuery ti consente di automatizzare l'analisi esplorativa dei dati, eseguire attività di machine learning e fornire insight, tutto all'interno di un notebook Colab Enterprise.
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Vertex AI, Dataform, and Compute Engine APIs.
Per i nuovi progetti, l'API BigQuery viene abilitata automaticamente.
- Data Science Agent supporta le seguenti origini dati:
- File CSV
- Tabelle BigQuery
- Il codice prodotto da Data Science Agent viene eseguito solo nel runtime del notebook.
- Data Science Agent non è supportato nei progetti in cui sono stati abilitati i Controlli di servizio VPC.
- La prima volta che esegui l'agente Data Science, potresti riscontrare una latenza di circa 5-10 minuti. Questo avviene solo una volta per progetto durante la configurazione iniziale.
- Genera un piano: genera e modifica un piano per completare una determinata attività utilizzando strumenti comuni come Python, SQL e BigQuery DataFrames.
- Esplorazione dei dati: esplora un set di dati per comprenderne la struttura, identificare potenziali problemi come valori mancanti e outlier ed esaminare la distribuzione delle variabili chiave utilizzando Python o SQL.
- Pulizia dei dati: pulisci i dati. Ad esempio, rimuovi i punti dati che sono valori anomali.
- Organizzazione dei dati: converti le funzionalità categoriche in rappresentazioni numeriche utilizzando tecniche come la codifica one-hot o la codifica delle etichette oppure utilizzando gli strumenti di trasformazione delle funzionalità di BigQuery. Crea nuove funzionalità per l'analisi.
- Analisi dei dati: analizza le relazioni tra diverse variabili. Calcola le correlazioni tra le caratteristiche numeriche ed esplora le distribuzioni delle caratteristiche categoriche. Cerca pattern e tendenze nei dati.
- Visualizzazione dei dati: crea visualizzazioni come istogrammi, box plot, grafici a dispersione e grafici a barre che rappresentano le distribuzioni di singole variabili e le relazioni tra loro. Puoi anche creare visualizzazioni in Python per le tabelle archiviate in BigQuery.
- Feature engineering: crea nuove funzionalità da un set di dati pulito.
- Suddivisione dei dati: dividi un set di dati creato in set di dati di addestramento, convalida e test.
- Addestramento del modello: addestra un modello utilizzando i dati di addestramento in un pandas DataFrame (
X_train
,y_train
), un BigQuery DataFrames o utilizzando l'istruzioneCREATE MODEL
BigQuery ML con le tabelle BigQuery. - Ottimizzazione del modello: ottimizza un modello utilizzando il set di convalida.
Esplora modelli alternativi come
DecisionTreeRegressor
eRandomForestRegressor
e confronta il loro rendimento. - Valutazione del modello: valuta il modello con il rendimento migliore su un set di dati di test memorizzato in un DataFrame pandas o BigQuery. Valuta la qualità del modello, confronta i modelli o prevedi le prestazioni del modello utilizzando le funzioni di valutazione del modello di BigQuery ML.
- Inferenza del modello: esegui l'inferenza con modelli addestrati, modelli importati e modelli remoti di BigQuery ML utilizzando le funzioni di inferenza di BigQuery ML. In alternativa, utilizza il metodo
BigFrames
model.predict()
per fare previsioni su dati mai visti. Crea o apri un notebook Colab Enterprise.
Carica un file CSV, scegli una o più tabelle BigQuery dal selettore di tabelle o fai riferimento a una tabella BigQuery nel prompt.
Inserisci un prompt che descriva l'analisi dei dati che vuoi eseguire o il prototipo che vuoi creare. Il comportamento predefinito dell'agente Data Science è quello di generare codice Python utilizzando librerie open source come sklearn per svolgere attività di machine learning complesse. Per utilizzare uno strumento specifico, includi le seguenti parole chiave nel prompt:
- Se vuoi utilizzare BigQuery ML, includi la parola chiave "SQL".
- Se vuoi utilizzare "BigQuery DataFrames", specifica le parole chiave "BigFrames" o "BigQuery DataFrames".
Per ricevere assistenza, consulta i prompt di esempio.
Esamina i risultati.
Vai alla pagina BigQuery.
Nella pagina di benvenuto di BigQuery Studio, in Crea nuovo, fai clic su Notebook.
In alternativa, nella barra delle schede, fai clic sulla freccia menu a discesa > Blocco note vuoto.
accanto all'icona +, quindi fai clic su Blocco noteNella barra degli strumenti, fai clic sul pulsante Spark Attiva/disattiva Gemini per aprire la finestra di dialogo della chat.
Carica il file CSV.
Nella finestra di dialogo della chat, fai clic su
Aggiungi file.Se necessario, autorizza il tuo Account Google.
Nel riquadro delle azioni, fai clic su
Carica file.Individua la posizione del file CSV e fai clic su Apri.
Accanto al nome del file, fai clic sull'icona
Altre azioni e poi scegli Aggiungi a Gemini.
Inserisci il prompt nella finestra della chat. Ad esempio:
Identify trends and anomalies in this file.
Fai clic su
Invia. I risultati vengono visualizzati nella finestra della chat.Puoi chiedere all'agente di modificare il piano oppure puoi eseguirlo facendo clic su Accetta ed esegui. Man mano che il piano viene eseguito, il codice e il testo generati vengono visualizzati nel blocco note. Fai clic su Annulla per interrompere.
Vai alla pagina BigQuery.
Nella pagina di benvenuto di BigQuery Studio, in Crea nuovo, fai clic su Notebook.
In alternativa, nella barra delle schede, fai clic sulla freccia menu a discesa > Blocco note vuoto.
accanto all'icona +, quindi fai clic su Blocco noteNella barra degli strumenti, fai clic sul pulsante Spark Attiva/disattiva Gemini per aprire la finestra di dialogo della chat.
Inserisci il prompt nella finestra della chat.
Scegli una o più tabelle utilizzando il selettore di tabelle:
Fai clic su > Tabelle BigQuery.
Aggiungi a GeminiNella finestra Tabelle BigQuery, seleziona una o più tabelle nel tuo progetto. Puoi cercare tabelle in tutti i progetti e filtrarle utilizzando la barra di ricerca.
Puoi anche fare riferimento direttamente a una tabella BigQuery nel prompt. Ad esempio: "Aiutami a eseguire un'analisi esplorativa dei dati e a ottenere approfondimenti sui dati in questa tabella:
project_id:dataset.table
".Sostituisci quanto segue:
project_id
: il tuo ID progettodataset
: il nome del set di dati che contiene la tabella che stai analizzandotable
: il nome della tabella che stai analizzando
Fai clic su
Invia.I risultati vengono visualizzati nella finestra della chat.
Puoi chiedere all'agente di modificare il piano oppure puoi eseguirlo facendo clic su Accetta ed esegui. Man mano che il piano viene eseguito, il codice e il testo generati vengono visualizzati nel blocco note. Per i passaggi aggiuntivi del piano, potrebbe essere necessario fare di nuovo clic su Accetta ed esegui. Fai clic su Annulla per interrompere.
- Esamina e compila i valori mancanti utilizzando l'algoritmo di machine learning k-Nearest Neighbors (KNN).
- Crea un grafico dello stipendio in base al livello di esperienza. Utilizza la colonna
experience_level
per raggruppare gli stipendi e crea un box plot per ogni gruppo che mostri i valori della colonnasalary_in_usd
. - Utilizza l'algoritmo XGBoost per creare un modello per determinare la variabile
class
di un determinato frutto. Dividi i dati in set di dati di addestramento e test per generare un modello e determinare la sua accuratezza. Crea una matrice di confusione per mostrare le previsioni per ogni classe, incluse tutte le previsioni corrette e non corrette. - Previsione
target_variable
dafilename.csv
per i sei mesi successivi. - Crea e valuta un modello di classificazione su
bigquery-public-data.ml_datasets.census_adult_income
utilizzando BigQuery SQL. - Utilizzando SQL, prevedi il traffico futuro del mio sito web per il prossimo mese
in base a
bigquery-public-data.google_analytics_sample.ga_sessions_*
. Poi traccia i valori storici e previsti. - Raggruppa clienti simili per creare campagne di marketing con targeting utilizzando
un modello KMeans. Utilizza tre funzionalità per il clustering. Poi visualizza i risultati
creando una serie di grafici a dispersione 2D. Utilizza la tabella
bigquery-public-data.ml_datasets.census_adult_income
. - Genera incorporamenti di testo in BigQuery ML utilizzando i contenuti delle recensioni in
bigquery-public-data.imdb.reviews
. - Crea un DataFrame Pandas per i dati in
project_id:dataset.table
. Analizza i dati per i valori nulli e poi traccia un grafico della distribuzione di ogni colonna utilizzando il tipo di grafico. Utilizza i grafici a violino per i valori misurati e i grafici a barre per le categorie. - Leggi
filename.csv
e crea un DataFrame. Esegui l'analisi del DataFrame per determinare cosa fare con i valori. Ad esempio, ci sono valori mancanti che devono essere sostituiti o rimossi o righe duplicate che devono essere gestite. Utilizza il file di dati per determinare la distribuzione del denaro investito in dollari per località cittadina. Rappresenta graficamente i primi 20 risultati utilizzando un grafico a barre che mostra i risultati in ordine decrescente come Località rispetto all'importo medio investito (USD). - Crea e valuta un modello di classificazione su
project_id:dataset.table
utilizzando BigQuery DataFrames. - Crea un modello di previsione delle serie temporali su
project_id:dataset.table
utilizzando BigQuery DataFrames e visualizza le valutazioni del modello. - Visualizza le cifre di vendita dell'ultimo anno nella tabella BigQuery
project_id:dataset.table
utilizzando BigQuery DataFrames. - Trova le funzionalità che possono prevedere meglio la specie di pinguino dalla
tabella
bigquery-public_data.ml_datasets.penguins
utilizzando BigQuery DataFrames.
Se non hai mai utilizzato Colab Enterprise in BigQuery, consulta i passaggi di configurazione nella pagina Crea notebook.
Limitazioni
Quando utilizzare Data Science Agent
L'agente di data science ti aiuta con attività che vanno dall'analisi esplorativa dei dati alla generazione di previsioni di machine learning. Puoi utilizzare la DSA per:
Utilizzare l'agente Data Science in BigQuery
I seguenti passaggi mostrano come utilizzare l'agente Data Science in BigQuery.
Analizzare un file CSV
Per analizzare un file CSV utilizzando l'agente Data Science in BigQuery, segui questi passaggi.
Analizzare le tabelle BigQuery
Per analizzare una tabella BigQuery, scegli una o più tabelle nel selettore di tabelle oppure fornisci un riferimento alla tabella nel prompt.
Prompt di esempio
Indipendentemente dalla complessità del prompt che utilizzi, Data Science Agent genera un piano che puoi perfezionare in base alle tue esigenze.
I seguenti esempi mostrano i tipi di prompt che puoi utilizzare con gli annunci di ricerca dinamica.
Prompt Python
Il codice Python viene generato per impostazione predefinita, a meno che tu non utilizzi una parola chiave specifica nel prompt, ad esempio "BigQuery ML" o "SQL".
Prompt SQL e BigQuery ML
Per un elenco di modelli e attività di machine learning supportati, consulta la documentazione di BigQuery ML.
Prompt DataFrame
Disattiva Gemini in BigQuery
Per disattivare Gemini in BigQuery per un progetto Google Cloud , un amministratore deve disattivare l'API Gemini for Google Cloud. Vedi Disabilitare i servizi.
Per disattivare Gemini in BigQuery per un utente specifico, un
amministratore deve revocare il ruolo
Gemini for
Google Cloud User (roles/cloudaicompanion.user
) per quell'utente. Vedi
Revoca
di un singolo ruolo IAM.
Prezzi
Durante l'anteprima, ti viene addebitato il costo per l'esecuzione del codice nel runtime del blocco note e per gli slot BigQuery che hai utilizzato. Per ulteriori informazioni, consulta la pagina Prezzi di Colab Enterprise.
Aree geografiche supportate
Per visualizzare le regioni supportate per Data Science Agent di Colab Enterprise, consulta Località.