Utilizzare Data Science Agent
Questa guida descrive come utilizzare l'agente di data science in Colab Enterprise per aiutarti a svolgere attività di data science nei tuoi notebook.
Scopri come e quando Gemini per Google Cloud utilizza i tuoi dati.
Questo documento è rivolto ad analisti di dati, data scientist e sviluppatori di dati che lavorano con Colab Enterprise. Presuppone che tu sappia come scrivere codice in un ambiente notebook.
Funzionalità di Data Science Agent
Data Science Agent può aiutarti con attività che vanno dall'analisi esplorativa dei dati alla generazione di previsioni di machine learning. Puoi utilizzare l'agente data scientist per:
- Generazione di piani: genera e modifica un piano per completare una determinata attività.
- Esplorazione dei dati: esplora un set di dati per comprenderne la struttura, identificare potenziali problemi come valori mancanti e outlier ed esaminare la distribuzione delle variabili chiave.
- Pulizia dei dati: pulisci i dati. Ad esempio, rimuovi i punti dati che sono valori anomali.
- Organizzazione dei dati: converti le caratteristiche categoriche in rappresentazioni numeriche utilizzando tecniche come la codifica one-hot o la codifica delle etichette. Crea nuove funzionalità per l'analisi.
- Analisi dei dati: analizza le relazioni tra diverse variabili. Calcola le correlazioni tra le caratteristiche numeriche ed esplora le distribuzioni delle caratteristiche categoriche. Cerca pattern e tendenze nei dati.
- Visualizzazione dei dati: crea visualizzazioni come istogrammi, box plot, grafici a dispersione e grafici a barre che rappresentano le distribuzioni di singole variabili e le relazioni tra loro.
- Feature engineering: crea nuove funzionalità da un set di dati pulito.
- Suddivisione dei dati: dividi un set di dati creato in set di dati di addestramento, convalida e test.
- Addestramento del modello: addestra un modello utilizzando i dati di addestramento.
- Ottimizzazione del modello: ottimizza un modello utilizzando il set di convalida.
Esplora modelli alternativi come
DecisionTreeRegressor
eRandomForestRegressor
e confrontane il rendimento. - Valutazione del modello: valuta il modello con il rendimento migliore sul set di dati di test.
Limitazioni
- L'agente data scientist supporta le seguenti origini dati:
- File CSV
- tabelle BigQuery
- Il codice prodotto da Data Science Agent viene eseguito solo nel runtime del notebook.
- Il notebook deve trovarsi in una regione supportata da Data Science Agent. Consulta la sezione Località.
- Data Science Agent non è supportato nei progetti in cui sono stati abilitati i Controlli di servizio VPC.
- La prima volta che esegui l'agente Data Science, potresti riscontrare una latenza di circa 5-10 minuti. Questo avviene solo una volta per progetto durante la configurazione iniziale.
Prima di iniziare
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
-
Nella console Google Cloud , vai alla pagina I miei blocchi note di Colab Enterprise.
-
Nel menu Regione, seleziona la regione che contiene il notebook.
-
Fai clic sul notebook che vuoi aprire.
-
Nella barra degli strumenti, fai clic sul pulsante
Gemini per aprire la finestra di dialogo della chat. -
Per caricare un file CSV:
- Nella finestra di dialogo della chat, fai clic su Aggiungi file.
-
Se necessario, autorizza il tuo Account Google.
Attendi qualche istante l'avvio di un runtime da parte di Colab Enterprise e l'attivazione della navigazione dei file.
- Nel riquadro File, fai clic su Carica nello spazio di archiviazione della sessione.
- Individua la posizione del file e fai clic su Apri.
-
Fai clic su Ok per confermare che i file di questo runtime verranno eliminati quando il runtime verrà eliminato.
Il file viene caricato nel riquadro File.
-
Accanto al file che hai caricato, fai clic sul menu
Azioni, quindi seleziona Aggiungi a Gemini.Il file viene aggiunto alla finestra di dialogo della chat.
-
Nella finestra di dialogo della chat Gemini, inserisci un prompt e fai clic su
Invia. Per trovare idee per i prompt, consulta le [funzionalità dell'agente Data Science](#capabilities) e gli [esempi di prompt](#sample-prompts).Ad esempio, potresti inserire "Fornisci un'analisi dei dati che ho caricato".
-
Gemini risponde al tuo prompt. La risposta può includere snippet di codice da eseguire, consigli generali per il tuo progetto, passaggi successivi per raggiungere i tuoi obiettivi o informazioni su problemi specifici nei tuoi dati o nel tuo codice.
Dopo aver valutato la risposta, puoi:
- Se Gemini fornisce codice nella sua risposta, puoi fare clic su:
- Fai clic su Accetta per aggiungere il codice al notebook.
- Accetta ed esegui per aggiungere il codice al notebook ed eseguirlo.
- Annulla per eliminare il codice suggerito.
- Fai domande aggiuntive e continua la discussione in base alle esigenze.
- Se Gemini fornisce codice nella sua risposta, puoi fare clic su:
-
Per chiudere la finestra di dialogo Gemini, fai clic su
Chiudi. - Trova e compila i valori mancanti utilizzando l'algoritmo di machine learning k-Nearest Neighbors (KNN).
- Crea un grafico degli stipendi in base al livello di esperienza. Utilizza la colonna
experience_level
per raggruppare gli stipendi e crea un box plot per ogni gruppo che mostri i valori della colonnasalary_in_usd
. - Utilizza l'algoritmo XGBoost per creare un modello per determinare la variabile
class
di un frutto specifico. Dividi i dati in set di dati di addestramento e test per generare un modello e poi valutarne l'accuratezza. Crea una matrice di confusione per mostrare le previsioni per ogni classe, incluse tutte le previsioni corrette e non corrette. - Crea un dataframe Pandas per i miei dati. Analizza i dati per i valori nulli e visualizza la distribuzione di ogni colonna utilizzando grafici a violino per i valori misurati e grafici a barre per le categorie.
- Leggi il file CSV per il set di dati e crea un DataFrame, esegui un'analisi sul DataFrame per determinare cosa fare con i valori (sostituisci o rimuovi i valori mancanti, rimuovi le righe duplicate) e determina la distribuzione dell'importo di denaro investito in USD per località della città. Visualizza i risultati in un grafico a barre in ordine decrescente come Località rispetto all'importo medio investito (USD), mostrando solo i primi 20 risultati.
- Previsione di
target_variable
dafilename.csv
per i prossimi sei mesi. - Crea e valuta un modello di classificazione su
filename.csv
pertarget_variable
. Per informazioni su come utilizzare Data Science Agent con BigQuery, consulta Utilizzare Data Science Agent di Colab Enterprise con BigQuery.
Leggi la panoramica di Gemini per Google Cloud.
Per altri modi per scrivere e modificare il codice con l'aiuto di Gemini, consulta quanto segue:
Scopri in che modo Gemini per Google Cloud utilizza i tuoi dati.
Ruoli obbligatori
Per ottenere le autorizzazioni necessarie per utilizzare l'agente Data Science in Colab Enterprise, chiedi all'amministratore di concederti il ruolo IAM Colab Enterprise User (roles/aiplatform.colabEnterpriseUser
) nel progetto.
Per saperne di più sulla concessione dei ruoli, consulta Gestisci l'accesso a progetti, cartelle e organizzazioni.
Potresti anche riuscire a ottenere le autorizzazioni richieste tramite i ruoli personalizzati o altri ruoli predefiniti.
Utilizzare Data Science Agent
Per iniziare a utilizzare Data Science Agent di Colab Enterprise, svolgi le seguenti operazioni:
Disattiva Gemini in Colab Enterprise
Per disattivare Gemini in Colab Enterprise per un progetto Google Cloud , un amministratore deve disattivare l'API Gemini for Google Cloud. Vedi Disabilitare i servizi.
Per disattivare Gemini in Colab Enterprise per un utente specifico, un
amministratore deve revocare il ruolo
Gemini for
Google Cloud User (roles/cloudaicompanion.user
) per quell'utente. Vedi
Revoca
di un singolo ruolo IAM.
Prompt di esempio
I seguenti esempi mostrano i tipi di prompt che puoi utilizzare con l'agente Data Science.
Aree geografiche supportate
Per visualizzare le regioni supportate per Data Science Agent di Colab Enterprise, vedi Località.
Fatturazione
Durante l'anteprima, ti vengono addebitati i costi solo per l'esecuzione del codice nel runtime del notebook. Per ulteriori informazioni, consulta la pagina Prezzi di Colab Enterprise.