Utilizzare l'agente di data science Colab Enterprise con BigQuery

Data Science Agent (DSA) per Colab Enterprise e BigQuery ti consente di automatizzare l'analisi esplorativa dei dati, eseguire attività di machine learning e fornire insight, tutto all'interno di un notebook Colab Enterprise.

Prima di iniziare

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  5. Verify that billing is enabled for your Google Cloud project.

  6. Enable the BigQuery, Vertex AI, Dataform, and Compute Engine APIs.

    Enable the APIs

    Per i nuovi progetti, l'API BigQuery viene abilitata automaticamente.

  7. Se non hai mai utilizzato Colab Enterprise in BigQuery, consulta i passaggi di configurazione nella pagina Crea notebook.

    Limitazioni

    • Data Science Agent supporta le seguenti origini dati:
      • File CSV
      • Tabelle BigQuery
    • Il codice prodotto da Data Science Agent viene eseguito solo nel runtime del notebook.
    • Data Science Agent non è supportato nei progetti in cui sono stati abilitati i Controlli di servizio VPC.
    • La prima volta che esegui l'agente Data Science, potresti riscontrare una latenza di circa 5-10 minuti. Questo avviene solo una volta per progetto durante la configurazione iniziale.

    Quando utilizzare Data Science Agent

    L'agente di data science ti aiuta con attività che vanno dall'analisi esplorativa dei dati alla generazione di previsioni di machine learning. Puoi utilizzare la DSA per:

    • Genera un piano: genera e modifica un piano per completare una determinata attività utilizzando strumenti comuni come Python, SQL e BigQuery DataFrames.
    • Esplorazione dei dati: esplora un set di dati per comprenderne la struttura, identificare potenziali problemi come valori mancanti e outlier ed esaminare la distribuzione delle variabili chiave utilizzando Python o SQL.
    • Pulizia dei dati: pulisci i dati. Ad esempio, rimuovi i punti dati che sono valori anomali.
    • Organizzazione dei dati: converti le funzionalità categoriche in rappresentazioni numeriche utilizzando tecniche come la codifica one-hot o la codifica delle etichette oppure utilizzando gli strumenti di trasformazione delle funzionalità di BigQuery. Crea nuove funzionalità per l'analisi.
    • Analisi dei dati: analizza le relazioni tra diverse variabili. Calcola le correlazioni tra le caratteristiche numeriche ed esplora le distribuzioni delle caratteristiche categoriche. Cerca pattern e tendenze nei dati.
    • Visualizzazione dei dati: crea visualizzazioni come istogrammi, box plot, grafici a dispersione e grafici a barre che rappresentano le distribuzioni di singole variabili e le relazioni tra loro. Puoi anche creare visualizzazioni in Python per le tabelle archiviate in BigQuery.
    • Feature engineering: crea nuove funzionalità da un set di dati pulito.
    • Suddivisione dei dati: dividi un set di dati creato in set di dati di addestramento, convalida e test.
    • Addestramento del modello: addestra un modello utilizzando i dati di addestramento in un pandas DataFrame (X_train, y_train), un BigQuery DataFrames o utilizzando l'istruzione CREATE MODEL BigQuery ML con le tabelle BigQuery.
    • Ottimizzazione del modello: ottimizza un modello utilizzando il set di convalida. Esplora modelli alternativi come DecisionTreeRegressor e RandomForestRegressor e confronta il loro rendimento.
    • Valutazione del modello: valuta il modello con il rendimento migliore su un set di dati di test memorizzato in un DataFrame pandas o BigQuery. Valuta la qualità del modello, confronta i modelli o prevedi le prestazioni del modello utilizzando le funzioni di valutazione del modello di BigQuery ML.
    • Inferenza del modello: esegui l'inferenza con modelli addestrati, modelli importati e modelli remoti di BigQuery ML utilizzando le funzioni di inferenza di BigQuery ML. In alternativa, utilizza il metodo BigFrames model.predict() per fare previsioni su dati mai visti.

    Utilizzare l'agente Data Science in BigQuery

    I seguenti passaggi mostrano come utilizzare l'agente Data Science in BigQuery.

    1. Crea o apri un notebook Colab Enterprise.

    2. Carica un file CSV, scegli una o più tabelle BigQuery dal selettore di tabelle o fai riferimento a una tabella BigQuery nel prompt.

    3. Inserisci un prompt che descriva l'analisi dei dati che vuoi eseguire o il prototipo che vuoi creare. Il comportamento predefinito dell'agente Data Science è quello di generare codice Python utilizzando librerie open source come sklearn per svolgere attività di machine learning complesse. Per utilizzare uno strumento specifico, includi le seguenti parole chiave nel prompt:

      • Se vuoi utilizzare BigQuery ML, includi la parola chiave "SQL".
      • Se vuoi utilizzare "BigQuery DataFrames", specifica le parole chiave "BigFrames" o "BigQuery DataFrames".

      Per ricevere assistenza, consulta i prompt di esempio.

    4. Esamina i risultati.

    Analizzare un file CSV

    Per analizzare un file CSV utilizzando l'agente Data Science in BigQuery, segui questi passaggi.

    1. Vai alla pagina BigQuery.

      Vai a BigQuery

    2. Nella pagina di benvenuto di BigQuery Studio, in Crea nuovo, fai clic su Notebook.

      In alternativa, nella barra delle schede, fai clic sulla freccia menu a discesa accanto all'icona +, quindi fai clic su Blocco note > Blocco note vuoto.

    3. Nella barra degli strumenti, fai clic sul pulsante Spark Attiva/disattiva Gemini per aprire la finestra di dialogo della chat.

    4. Carica il file CSV.

      1. Nella finestra di dialogo della chat, fai clic su Aggiungi file.

      2. Se necessario, autorizza il tuo Account Google.

      3. Nel riquadro delle azioni, fai clic su Carica file.

      4. Individua la posizione del file CSV e fai clic su Apri.

      5. Accanto al nome del file, fai clic sull'icona Altre azioni e poi scegli Aggiungi a Gemini.

    5. Inserisci il prompt nella finestra della chat. Ad esempio: Identify trends and anomalies in this file.

    6. Fai clic su Invia. I risultati vengono visualizzati nella finestra della chat.

    7. Puoi chiedere all'agente di modificare il piano oppure puoi eseguirlo facendo clic su Accetta ed esegui. Man mano che il piano viene eseguito, il codice e il testo generati vengono visualizzati nel blocco note. Fai clic su Annulla per interrompere.

    Analizzare le tabelle BigQuery

    Per analizzare una tabella BigQuery, scegli una o più tabelle nel selettore di tabelle oppure fornisci un riferimento alla tabella nel prompt.

    1. Vai alla pagina BigQuery.

      Vai a BigQuery

    2. Nella pagina di benvenuto di BigQuery Studio, in Crea nuovo, fai clic su Notebook.

      In alternativa, nella barra delle schede, fai clic sulla freccia menu a discesa accanto all'icona +, quindi fai clic su Blocco note > Blocco note vuoto.

    3. Nella barra degli strumenti, fai clic sul pulsante Spark Attiva/disattiva Gemini per aprire la finestra di dialogo della chat.

    4. Inserisci il prompt nella finestra della chat.

    5. Scegli una o più tabelle utilizzando il selettore di tabelle:

      1. Fai clic su Aggiungi a Gemini > Tabelle BigQuery.

      2. Nella finestra Tabelle BigQuery, seleziona una o più tabelle nel tuo progetto. Puoi cercare tabelle in tutti i progetti e filtrarle utilizzando la barra di ricerca.

    6. Puoi anche fare riferimento direttamente a una tabella BigQuery nel prompt. Ad esempio: "Aiutami a eseguire un'analisi esplorativa dei dati e a ottenere approfondimenti sui dati in questa tabella: project_id:dataset.table".

      Sostituisci quanto segue:

      • project_id: il tuo ID progetto
      • dataset: il nome del set di dati che contiene la tabella che stai analizzando
      • table: il nome della tabella che stai analizzando
    7. Fai clic su Invia.

      I risultati vengono visualizzati nella finestra della chat.

    8. Puoi chiedere all'agente di modificare il piano oppure puoi eseguirlo facendo clic su Accetta ed esegui. Man mano che il piano viene eseguito, il codice e il testo generati vengono visualizzati nel blocco note. Per i passaggi aggiuntivi del piano, potrebbe essere necessario fare di nuovo clic su Accetta ed esegui. Fai clic su Annulla per interrompere.

    Prompt di esempio

    Indipendentemente dalla complessità del prompt che utilizzi, Data Science Agent genera un piano che puoi perfezionare in base alle tue esigenze.

    I seguenti esempi mostrano i tipi di prompt che puoi utilizzare con gli annunci di ricerca dinamica.

    Prompt Python

    Il codice Python viene generato per impostazione predefinita, a meno che tu non utilizzi una parola chiave specifica nel prompt, ad esempio "BigQuery ML" o "SQL".

    • Esamina e compila i valori mancanti utilizzando l'algoritmo di machine learning k-Nearest Neighbors (KNN).
    • Crea un grafico dello stipendio in base al livello di esperienza. Utilizza la colonna experience_level per raggruppare gli stipendi e crea un box plot per ogni gruppo che mostri i valori della colonna salary_in_usd.
    • Utilizza l'algoritmo XGBoost per creare un modello per determinare la variabile class di un determinato frutto. Dividi i dati in set di dati di addestramento e test per generare un modello e determinare la sua accuratezza. Crea una matrice di confusione per mostrare le previsioni per ogni classe, incluse tutte le previsioni corrette e non corrette.
    • Previsione target_variable da filename.csv per i sei mesi successivi.

    Prompt SQL e BigQuery ML

    • Crea e valuta un modello di classificazione su bigquery-public-data.ml_datasets.census_adult_income utilizzando BigQuery SQL.
    • Utilizzando SQL, prevedi il traffico futuro del mio sito web per il prossimo mese in base a bigquery-public-data.google_analytics_sample.ga_sessions_*. Poi traccia i valori storici e previsti.
    • Raggruppa clienti simili per creare campagne di marketing con targeting utilizzando un modello KMeans. Utilizza tre funzionalità per il clustering. Poi visualizza i risultati creando una serie di grafici a dispersione 2D. Utilizza la tabella bigquery-public-data.ml_datasets.census_adult_income.
    • Genera incorporamenti di testo in BigQuery ML utilizzando i contenuti delle recensioni in bigquery-public-data.imdb.reviews.

    Per un elenco di modelli e attività di machine learning supportati, consulta la documentazione di BigQuery ML.

    Prompt DataFrame

    • Crea un DataFrame Pandas per i dati in project_id:dataset.table. Analizza i dati per i valori nulli e poi traccia un grafico della distribuzione di ogni colonna utilizzando il tipo di grafico. Utilizza i grafici a violino per i valori misurati e i grafici a barre per le categorie.
    • Leggi filename.csv e crea un DataFrame. Esegui l'analisi del DataFrame per determinare cosa fare con i valori. Ad esempio, ci sono valori mancanti che devono essere sostituiti o rimossi o righe duplicate che devono essere gestite. Utilizza il file di dati per determinare la distribuzione del denaro investito in dollari per località cittadina. Rappresenta graficamente i primi 20 risultati utilizzando un grafico a barre che mostra i risultati in ordine decrescente come Località rispetto all'importo medio investito (USD).
    • Crea e valuta un modello di classificazione su project_id:dataset.table utilizzando BigQuery DataFrames.
    • Crea un modello di previsione delle serie temporali su project_id:dataset.table utilizzando BigQuery DataFrames e visualizza le valutazioni del modello.
    • Visualizza le cifre di vendita dell'ultimo anno nella tabella BigQuery project_id:dataset.table utilizzando BigQuery DataFrames.
    • Trova le funzionalità che possono prevedere meglio la specie di pinguino dalla tabella bigquery-public_data.ml_datasets.penguins utilizzando BigQuery DataFrames.

    Disattiva Gemini in BigQuery

    Per disattivare Gemini in BigQuery per un progetto Google Cloud , un amministratore deve disattivare l'API Gemini for Google Cloud. Vedi Disabilitare i servizi.

    Per disattivare Gemini in BigQuery per un utente specifico, un amministratore deve revocare il ruolo Gemini for Google Cloud User (roles/cloudaicompanion.user) per quell'utente. Vedi Revoca di un singolo ruolo IAM.

    Prezzi

    Durante l'anteprima, ti viene addebitato il costo per l'esecuzione del codice nel runtime del blocco note e per gli slot BigQuery che hai utilizzato. Per ulteriori informazioni, consulta la pagina Prezzi di Colab Enterprise.

    Aree geografiche supportate

    Per visualizzare le regioni supportate per Data Science Agent di Colab Enterprise, consulta Località.