Colab Enterprise Data Science Agent mit BigQuery verwenden

Mit dem Data Science Agent (DSA) für Colab Enterprise und BigQuery können Sie die explorative Datenanalyse automatisieren, Machine-Learning-Aufgaben ausführen und Statistiken in einem Colab Enterprise-Notebook bereitstellen.

Hinweise

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
Roles required to select or create a project
- Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
- Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.
Note: If you don't plan to keep the resources that you create in this procedure, create a project instead of selecting an existing project. After you finish these steps, you can delete the project, removing all resources associated with the project.

Go to project selector
Verify that billing is enabled for your Google Cloud project.
Enable the BigQuery, Vertex AI, Dataform, and Compute Engine APIs.
Roles required to enable APIs
To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.
Enable the APIs

Bei neuen Projekten ist die BigQuery API automatisch aktiviert.

Wenn Sie Colab Enterprise in BigQuery noch nicht kennen, finden Sie auf der Seite Notebooks erstellen eine Anleitung zur Einrichtung.

Beschränkungen

Der Data Science Agent unterstützt die folgenden Datenquellen:
- CSV-Dateien
- BigQuery-Tabellen
Der vom Data Science Agent generierte Code wird nur in der Laufzeit Ihres Notebooks ausgeführt.
Der Data Science Agent wird nicht in Projekten unterstützt, in denen VPC Service Controls aktiviert ist.
Die Suche nach BigQuery-Tabellen mit der Funktion @mention ist auf Ihr aktuelles Projekt beschränkt. Mit der Tabellenauswahl können Sie projektübergreifend suchen.
Die Funktion @mention sucht nur nach BigQuery-Tabellen. Wenn Sie nach Datendateien suchen möchten, die Sie hochladen können, verwenden Sie das Symbol +.
Der Data Science Agent generiert nur Serverless for Apache Spark 4.0-Code. Der DSA kann Sie beim Upgrade auf Serverless for Apache Spark 4.0 unterstützen. Nutzer, die frühere Versionen benötigen, sollten den Data Science Agent jedoch nicht verwenden.

Wann sollte der Data Science Agent verwendet werden?

Der Data Science-KI-Agent unterstützt Sie bei Aufgaben von der explorativen Datenanalyse bis hin zur Generierung von Machine-Learning-Vorhersagen und ‑Prognosen. Sie können das DSA für Folgendes verwenden:

Datenverarbeitung im großen Maßstab: Mit BigQuery ML, BigQuery DataFrames oder Serverless for Apache Spark können Sie die verteilte Datenverarbeitung für große Datasets ausführen. So können Sie Daten, die zu groß sind, um auf einem einzelnen Computer in den Arbeitsspeicher zu passen, effizient bereinigen, transformieren und analysieren.
Plan erstellen: Sie können einen Plan erstellen und ändern, um eine bestimmte Aufgabe mit gängigen Tools wie Python, SQL, Serverless for Apache Spark und BigQuery DataFrames auszuführen.
Datenexploration: Untersuchen Sie einen Datensatz, um seine Struktur zu verstehen, potenzielle Probleme wie fehlende Werte und Ausreißer zu identifizieren und die Verteilung wichtiger Variablen mit Python oder SQL zu analysieren.
Datenbereinigung: Bereinigen Sie Ihre Daten. Entfernen Sie beispielsweise Datenpunkte, die Ausreißer sind.
Datenbereinigung: Konvertieren Sie kategorische Merkmale in numerische Darstellungen. Verwenden Sie dazu Techniken wie One-Hot-Encoding oder Label-Encoding oder die Tools zur Merkmalstransformation von BigQuery ML. Neue Funktionen für die Analyse erstellen
Datenanalyse: Analysieren Sie die Beziehungen zwischen verschiedenen Variablen. Korrelationen zwischen numerischen Features berechnen und Verteilungen kategorialer Features untersuchen Suchen Sie nach Mustern und Trends in den Daten.
Datenvisualisierung: Erstellen Sie Visualisierungen wie Histogramme, Boxplots, Streudiagramme und Balkendiagramme, die die Verteilungen einzelner Variablen und die Beziehungen zwischen ihnen darstellen. Sie können auch Visualisierungen in Python für Tabellen erstellen, die in BigQuery gespeichert sind.
Feature Engineering: Erstellen Sie neue Features aus einem bereinigten Dataset.
Datenaufteilung: Teilen Sie ein aufbereitetes Dataset in Trainings-, Validierungs- und Test-Datasets auf.
Modelltraining: Sie können ein Modell mit den Trainingsdaten in einem pandas-DataFrame (X_train, y_train), BigQuery DataFrames>, einem PySpark-DataFrame oder mit der BigQuery ML-Anweisung CREATE MODEL mit BigQuery-Tabellen trainieren.
Modelloptimierung: Ein Modell mithilfe des Validierungssatzes optimieren. Sehen Sie sich alternative Modelle wie DecisionTreeRegressor und RandomForestRegressor an und vergleichen Sie ihre Leistung.
Modellbewertung: Bewerten Sie die Modellleistung anhand eines Testdatasets mit einem Pandas-DataFrame, BigQuery DataFrames oder einem PySpark-DataFrame. Sie können die Modellqualität auch bewerten und Modelle vergleichen, indem Sie BigQuery ML-Funktionen zur Modellbewertung für Modelle verwenden, die mit BigQuery ML trainiert wurden.
Modellinferenz: Mit BigQuery ML-Inferenzfunktionen können Sie Inferenzen mit in BigQuery ML trainierten Modellen, importierten Modellen und Remote-Modellen ausführen. Sie können auch die BigFrames-Methode model.predict() oder PySpark-Transformer verwenden, um Vorhersagen zu treffen.

Data Science Agent in BigQuery verwenden

In den folgenden Schritten wird beschrieben, wie Sie den Data Science Agent in BigQuery verwenden.

Erstellen oder öffnen Sie ein Colab Enterprise-Notebook.
Sie haben folgende Möglichkeiten, auf Ihre Daten zu verweisen:
- CSV-Datei hochladen oder das +-Symbol in Ihrem Prompt verwenden, um nach verfügbaren Dateien zu suchen
- Wählen Sie im Tabellenauswahlfeld eine oder mehrere BigQuery-Tabellen aus Ihrem aktuellen Projekt oder aus anderen Projekten aus, auf die Sie Zugriff haben.
- Geben Sie in Ihrem Prompt einen BigQuery-Tabellennamen in diesem Format an: project_id:dataset.table.
- Geben Sie das Symbol @ ein, um mit der Funktion @mention nach einem BigQuery-Tabellennamen zu suchen.
Geben Sie einen Prompt ein, der die Datenanalyse beschreibt, die Sie durchführen möchten, oder den Prototyp, den Sie erstellen möchten. Standardmäßig generiert der Data Science-Agent Python-Code mit Open-Source-Bibliotheken wie sklearn, um komplexe Aufgaben im Bereich des maschinellen Lernens zu erledigen. Wenn Sie ein bestimmtes Tool verwenden möchten, fügen Sie die folgenden Keywords in Ihren Prompt ein:
- Wenn Sie BigQuery ML verwenden möchten, fügen Sie das Keyword „SQL“ ein.
- Wenn Sie „BigQuery DataFrames“ verwenden möchten, geben Sie die Keywords „BigFrames“ oder „BigQuery DataFrames“ an.
- Wenn Sie PySpark verwenden möchten, fügen Sie die Schlüsselwörter „Apache Spark“ oder „PySpark“ ein.
Beispielaufforderungen
Sehen Sie sich die Ergebnisse an.

CSV-Datei analysieren

So analysieren Sie eine CSV-Datei mit dem Data Science Agent in BigQuery:

Rufen Sie die Seite BigQuery auf.

BigQuery aufrufen
Klicken Sie auf der BigQuery Studio-Startseite unter Neu erstellen auf Notebook.

Alternativ können Sie in der Tableiste auf den Drop-down-Pfeil neben dem +-Symbol und dann auf Notebook > Leeres Notebook klicken.
Klicken Sie in der Symbolleiste auf die Schaltfläche spark Gemini ein-/ausblenden, um das Chatdialogfeld zu öffnen.

Hinweis :Sie können den Chatdialog in einen separaten Bereich außerhalb des Notebooks verschieben, indem Sie auf das Symbol In Bereich verschieben klicken.
Laden Sie die CSV-Datei hoch.
1. Klicken Sie im Chatdialogfeld auf Zu Gemini hinzufügen > Hochladen.
2. Autorisieren Sie gegebenenfalls Ihr Google-Konto.
3. Suchen Sie nach der CSV-Datei und klicken Sie auf Öffnen.
Alternativ können Sie das Symbol + in Ihren Prompt eingeben, um nach verfügbaren Dateien zu suchen, die Sie hochladen können.
Geben Sie Ihren Prompt in das Chatfenster ein. Beispiel: Identify trends and anomalies in this file.
Klicken Sie auf Senden. Die Ergebnisse werden im Chatfenster angezeigt.
Sie können den Agent bitten, den Plan zu ändern, oder ihn ausführen, indem Sie auf Akzeptieren und ausführen klicken. Während der Ausführung des Plans werden generierter Code und Text im Notebook angezeigt. Klicke auf Abbrechen, um den Vorgang zu beenden.

BigQuery-Tabellen analysieren

Wenn Sie eine BigQuery-Tabelle analysieren möchten, wählen Sie im Tabellenauswahlfeld eine oder mehrere Tabellen aus, geben Sie in Ihrem Prompt einen Verweis auf die Tabelle an oder suchen Sie mit dem Symbol @ nach einer Tabelle.

Rufen Sie die Seite BigQuery auf.

BigQuery aufrufen
Klicken Sie auf der BigQuery Studio-Startseite unter Neu erstellen auf Notebook.

Alternativ können Sie in der Tableiste auf den Drop-down-Pfeil neben dem +-Symbol und dann auf Notebook > Leeres Notebook klicken.
Klicken Sie in der Symbolleiste auf die Schaltfläche spark Gemini ein-/ausblenden, um das Chatdialogfeld zu öffnen.

Hinweis :Sie können den Chatdialog in einen separaten Bereich außerhalb des Notebooks verschieben, indem Sie auf das Symbol In Bereich verschieben klicken.
Geben Sie Ihren Prompt in das Chatfenster ein.
Sie haben folgende Möglichkeiten, auf Ihre Daten zu verweisen:
1. Wählen Sie mit der Tabellenauswahl eine oder mehrere Tabellen aus:
  1. Klicken Sie auf Zu Gemini hinzufügen > BigQuery-Tabellen.
  2. Wählen Sie im Fenster BigQuery-Tabellen eine oder mehrere Tabellen in Ihrem Projekt aus. Sie können projektübergreifend nach Tabellen suchen und Tabellen über die Suchleiste filtern.
2. Geben Sie den Namen einer BigQuery-Tabelle direkt in Ihrem Prompt an. Beispiel: „Hilf mir, eine explorative Datenanalyse durchzuführen und Erkenntnisse zu den Daten in dieser Tabelle zu gewinnen: project_id:dataset.table.“
  
  Ersetzen Sie Folgendes:
  - project_id: Ihre Projekt-ID.
  - dataset: der Name des Datasets, das die Tabelle enthält, die Sie analysieren
  - table: der Name der Tabelle, die Sie analysieren
3. Geben Sie @ ein, um in Ihrem aktuellen Projekt nach einer BigQuery-Tabelle zu suchen.
Klicken Sie auf Senden.

Die Ergebnisse werden im Chatfenster angezeigt.
Sie können den Agent bitten, den Plan zu ändern, oder ihn ausführen, indem Sie auf Akzeptieren und ausführen klicken. Während der Ausführung des Plans werden generierter Code und Text im Notebook angezeigt. Für zusätzliche Schritte im Plan müssen Sie möglicherweise noch einmal auf Akzeptieren und ausführen klicken. Klicke auf Abbrechen, um den Vorgang zu beenden.

Beispiel-Prompts

Unabhängig von der Komplexität des Prompts, den Sie verwenden, generiert der Data Science Agent einen Plan, den Sie an Ihre Anforderungen anpassen können.

Die folgenden Beispiele zeigen die Arten von Prompts, die Sie mit der DSA verwenden können.

Python-Prompts

Python-Code wird standardmäßig generiert, sofern Sie in der Aufforderung kein bestimmtes Keyword wie „BigQuery ML“ oder „SQL“ verwenden.

Untersuchen Sie fehlende Werte und füllen Sie sie mithilfe des Machine-Learning-Algorithmus „k-Nearest Neighbors“ (KNN) aus.
Erstellen Sie ein Diagramm des Gehalts nach Erfahrungsniveau. Verwenden Sie die Spalte experience_level, um die Gehälter zu gruppieren, und erstellen Sie für jede Gruppe ein Boxplot mit den Werten aus der Spalte salary_in_usd.
Verwenden Sie den XGBoost-Algorithmus, um ein Modell zur Bestimmung der Variablen class einer bestimmten Frucht zu erstellen. Teilen Sie die Daten in Trainings- und Test-Datasets auf, um ein Modell zu generieren und die Genauigkeit des Modells zu bestimmen. Erstellen Sie eine Wahrheitsmatrix, um die Vorhersagen für jede Klasse darzustellen, einschließlich aller richtigen und falschen Vorhersagen.
Erstelle eine Prognose für target_variable ab filename.csv für die nächsten sechs Monate.

SQL- und BigQuery ML-Prompts

Erstellen und bewerten Sie ein Klassifizierungsmodell für bigquery-public-data.ml_datasets.census_adult_income mit BigQuery SQL.
Erstelle mit SQL eine Prognose für den zukünftigen Traffic meiner Website für den nächsten Monat basierend auf bigquery-public-data.google_analytics_sample.ga_sessions_*. Stellen Sie dann die Verlaufs- und Prognosewerte grafisch dar.
Ähnliche Kunden gruppieren, um mithilfe eines KMeans-Modells und von BigQuery ML-SQL-Funktionen Kampagnen für die Zielgruppe zu erstellen Verwenden Sie drei Attribute für das Clustering. Anschließend visualisieren Sie die Ergebnisse, indem Sie eine Reihe von 2D-Streudiagrammen erstellen. Verwenden Sie die Tabelle bigquery-public-data.ml_datasets.census_adult_income.
Texteinbettungen in BigQuery ML mit den Rezensionsinhalten in bigquery-public-data.imdb.reviews generieren.

Eine Liste der unterstützten Modelle und Aufgaben für maschinelles Lernen finden Sie in der BigQuery ML-Dokumentation.

DataFrame-Prompts

Erstellen Sie ein Pandas-DataFrame für die Daten in project_id:dataset.table. Analysieren Sie die Daten auf Nullwerte und stellen Sie dann die Verteilung der einzelnen Spalten mit dem Diagrammtyp dar. Verwenden Sie Violin-Diagramme für Messwerte und Balkendiagramme für Kategorien.
filename.csv lesen und DataFrame erstellen Führen Sie eine Analyse des DataFrame aus, um zu ermitteln, was mit den Werten geschehen muss. Gibt es beispielsweise fehlende Werte, die ersetzt oder entfernt werden müssen, oder doppelte Zeilen, die korrigiert werden müssen? Mithilfe der Datendatei können Sie die Verteilung des in US-Dollar investierten Geldes pro Stadt ermitteln. Stellen Sie die 20 besten Ergebnisse in einem Balkendiagramm dar, in dem die Ergebnisse in absteigender Reihenfolge als „Standort“ im Vergleich zu „Durchschnittlich investierter Betrag (USD)“ angezeigt werden.
Klassifizierungsmodell für project_id:dataset.table mit BigQuery DataFrames erstellen und bewerten.
Erstellen Sie ein Zeitreihen-Prognosemodell für project_id:dataset.table mit BigQuery DataFrames und visualisieren Sie die Modellbewertungen.
Visualisieren Sie die Umsatzzahlen des letzten Jahres in der BigQuery-Tabelle project_id:dataset.table mit BigQuery DataFrames.
Finden Sie die Merkmale, mit denen sich die Pinguinart aus der Tabelle bigquery-public_data.ml_datasets.penguins mithilfe von BigQuery DataFrames am besten vorhersagen lässt.

PySpark-Prompts

Ein Klassifizierungsmodell für project_id:dataset.table mit Serverless for Apache Spark erstellen und bewerten.
Gruppieren Sie ähnliche Kunden, um Kampagnen für die Zielgruppe zu erstellen. Führen Sie aber zuerst eine Dimensionsreduzierung mit einem PCA-Modell durch. Verwenden Sie PySpark, um dies für die Tabelle project_id:dataset.table zu tun.

Gemini in BigQuery deaktivieren

Wenn Sie Gemini in BigQuery für ein Google Cloud -Projekt deaktivieren möchten, muss ein Administrator die Gemini for Google Cloud API deaktivieren. Weitere Informationen finden Sie unter Dienste deaktivieren.

Wenn Sie Gemini in BigQuery für einen bestimmten Nutzer deaktivieren möchten, muss der Administrator ihm die Rolle Gemini for Google Cloud User (roles/cloudaicompanion.user) entziehen. Weitere Informationen finden Sie unter Einzelne IAM-Rolle widerrufen.

Preise

Während der Vorschauphase werden Ihnen die Ausführung von Code in der Notebook-Laufzeit und alle verwendeten BigQuery-Slots in Rechnung gestellt. Weitere Informationen finden Sie unter Colab Enterprise-Preise.

Unterstützte Regionen

Hier finden Sie die unterstützten Regionen für den Data Science Agent von Colab Enterprise.