Data Science Agent verwenden
In diesem Leitfaden wird beschrieben, wie Sie den Data Science Agent in Colab Enterprise verwenden können, um Data-Science-Aufgaben in Ihren Notebooks zu erledigen.
Weitere Informationen dazu, wie und wann Gemini für Google Cloud Ihre Daten verwendet
Dieses Dokument richtet sich an Datenanalysten, Data Scientists und Datenentwickler, die mit Colab Enterprise arbeiten. Es wird davon ausgegangen, dass Sie wissen, wie Sie Code in einer Notebook-Umgebung schreiben.
Funktionen des Data Science Agent
Der Data Science Agent kann Sie bei Aufgaben unterstützen, die von der explorativen Datenanalyse bis hin zur Generierung von Machine-Learning-Vorhersagen und ‑Prognosen reichen. Sie können den Data Science Agent für Folgendes verwenden:
- Pläne generieren: Sie können einen Plan generieren und ändern, um eine bestimmte Aufgabe zu erledigen.
- Explorative Datenanalyse: Untersuchen Sie ein Dataset, um seine Struktur zu verstehen, potenzielle Probleme wie fehlende Werte und Ausreißer zu erkennen und die Verteilung der wichtigsten Variablen zu analysieren.
- Datenbereinigung: Bereinigen Sie Ihre Daten. Entfernen Sie beispielsweise Datenpunkte, die Ausreißer sind.
- Data Wrangling: Konvertieren Sie kategoriale Merkmale in numerische Darstellungen, indem Sie Techniken wie One-Hot-Codierung oder Label-Codierung verwenden. Neue Funktionen für die Analyse erstellen
- Datenanalyse: Analysieren Sie die Beziehungen zwischen verschiedenen Variablen. Korrelationen zwischen numerischen Features berechnen und Verteilungen kategorialer Features untersuchen Suchen Sie nach Mustern und Trends in den Daten.
- Datenvisualisierung: Erstellen Sie Visualisierungen wie Histogramme, Boxplots, Streudiagramme und Balkendiagramme, die die Verteilungen einzelner Variablen und die Beziehungen zwischen ihnen darstellen.
- Feature Engineering: Neue Features aus einem bereinigten Dataset erstellen.
- Datenaufteilung: Teilen Sie ein aufbereitetes Dataset in Trainings-, Validierungs- und Test-Datasets auf.
- Modelltraining: Trainieren Sie ein Modell mit den Trainingsdaten.
- Modelloptimierung: Ein Modell mithilfe des Validierungssatzes optimieren.
Sehen Sie sich alternative Modelle wie
DecisionTreeRegressor
undRandomForestRegressor
an und vergleichen Sie ihre Leistung. - Modellbewertung: Das leistungsstärkste Modell anhand des Test-Datasets bewerten.
Beschränkungen
- Der Data Science-Agent unterstützt die folgenden Datenquellen:
- CSV-Dateien
- BigQuery-Tabellen
- Der vom Data Science Agent generierte Code wird nur in der Laufzeit Ihres Notebooks ausgeführt.
- Ihr Notebook muss sich in einer Region befinden, die vom Data Science Agent unterstützt wird. Weitere Informationen finden Sie unter Standorte.
- Der Data Science Agent wird in Projekten, in denen VPC Service Controls aktiviert ist, nicht unterstützt.
- Wenn Sie den Data Science Agent zum ersten Mal ausführen, kann es zu einer Latenz von etwa fünf bis zehn Minuten kommen. Das passiert nur einmal pro Projekt bei der Ersteinrichtung.
Hinweise
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
-
Rufen Sie in der Google Cloud -Konsole die Colab Enterprise-Seite Meine Notebooks auf.
-
Wählen Sie im Menü Region die Region aus, in der sich Ihr Notebook befindet.
-
Klicken Sie auf das Notebook, das Sie öffnen möchten.
-
Klicken Sie in der Symbolleiste auf die Schaltfläche
Gemini, um das Chatdialogfeld zu öffnen. -
So laden Sie eine CSV-Datei hoch:
- Klicken Sie im Chat-Dialogfeld auf Dateien hinzufügen.
-
Autorisieren Sie gegebenenfalls Ihr Google-Konto.
Warten Sie einen Moment, bis Colab Enterprise eine Laufzeit startet und den Dateibrowser aktiviert.
- Klicken Sie im Bereich Dateien auf In Sitzungsspeicher hochladen.
- Suchen Sie den Speicherort der Datei und klicken Sie auf Öffnen.
-
Klicken Sie auf OK, um zu bestätigen, dass die Dateien dieser Laufzeit gelöscht werden, wenn die Laufzeit gelöscht wird.
Die Datei wird in den Bereich Dateien hochgeladen.
-
Klicken Sie neben der hochgeladenen Datei auf das Menü
Aktionen und wählen Sie Zu Gemini hinzufügen aus.Die Datei wird dem Chatdialogfeld hinzugefügt.
-
Geben Sie im Gemini-Chatdialogfeld einen Prompt ein und klicken Sie auf
Senden. Ideen für Prompts finden Sie unter [Funktionen des Data Science-Agents](#capabilities) und [Beispiel-Prompts](#sample-prompts).Sie könnten beispielsweise „Analysiere die von mir hochgeladenen Daten“ eingeben.
-
Gemini antwortet auf Ihren Prompt. Die Antwort kann Code-Snippets zum Ausführen, allgemeine Ratschläge für Ihr Projekt, nächste Schritte zum Erreichen Ihrer Ziele oder Informationen zu bestimmten Problemen in Ihren Daten oder Ihrem Code enthalten.
Nachdem Sie die Antwort bewertet haben, haben Sie folgende Möglichkeiten:
- Wenn Gemini in seiner Antwort Code bereitstellt, können Sie auf Folgendes klicken:
- Klicken Sie auf Akzeptieren, um den Code Ihrem Notebook hinzuzufügen.
- Klicken Sie auf Akzeptieren und ausführen, um den Code Ihrem Notebook hinzuzufügen und auszuführen.
- Abbrechen, um den vorgeschlagenen Code zu löschen.
- Stellen Sie Folgefragen und setzen Sie die Diskussion bei Bedarf fort.
- Wenn Gemini in seiner Antwort Code bereitstellt, können Sie auf Folgendes klicken:
-
Klicken Sie auf
Schließen, um das Dialogfeld Gemini zu schließen. - Mit dem Machine-Learning-Algorithmus „k-Nearest Neighbors“ (k-NN) können Sie fehlende Werte finden und einfügen.
- Erstelle ein Diagramm der Gehälter nach Erfahrungsniveau. Verwenden Sie die Spalte
experience_level
, um die Gehälter zu gruppieren, und erstellen Sie für jede Gruppe ein Boxplot mit den Werten aus der Spaltesalary_in_usd
. - Verwenden Sie den XGBoost-Algorithmus, um ein Modell zur Bestimmung der Variablen
class
einer bestimmten Frucht zu erstellen. Teilen Sie die Daten in Trainings- und Test-Datasets auf, um ein Modell zu generieren und dann die Genauigkeit des Modells zu bewerten. Erstellen Sie eine Wahrheitsmatrix, um die Vorhersagen für jede Klasse zu sehen, einschließlich aller korrekten und falschen Vorhersagen. - Erstelle einen Pandas-DataFrame für meine Daten. Analysieren Sie die Daten auf Nullwerte und visualisieren Sie dann die Verteilung der einzelnen Spalten mit Violin-Diagrammen für Messwerte und Balkendiagrammen für Kategorien.
- Lesen Sie die CSV-Datei für den Datensatz ein und erstellen Sie einen DataFrame. Führen Sie eine Analyse für den DataFrame aus, um zu ermitteln, was mit Werten geschehen muss (fehlende Werte ersetzen oder entfernen, doppelte Zeilen entfernen), und bestimmen Sie die Verteilung des in USD investierten Geldbetrags pro Stadt. Stelle die Ergebnisse in einem Balkendiagramm in absteigender Reihenfolge dar, wobei die Achsen „Standort“ und „Durchschnittlich investierter Betrag (USD)“ lauten. Zeige nur die 20 besten Ergebnisse an.
- Prognostiziere
target_variable
ausfilename.csv
für die nächsten sechs Monate. - Klassifizierungsmodell für
target_variable
anhand vonfilename.csv
erstellen und bewerten Informationen zur Verwendung des Data Science Agent mit BigQuery finden Sie unter Colab Enterprise Data Science Agent mit BigQuery verwenden.
Lesen Sie die Übersicht über Gemini für Google Cloud.
Weitere Informationen zum Schreiben und Bearbeiten von Code mit Gemini-Unterstützung finden Sie unter:
Weitere Informationen dazu, wie Gemini für Google Cloud Ihre Daten verwendet
Erforderliche Rollen
Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Colab Enterprise User (roles/aiplatform.colabEnterpriseUser
) für das Projekt zuzuweisen, damit Sie die Berechtigungen erhalten, die Sie zur Verwendung des Data Science Agent in Colab Enterprise benötigen.
Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.
Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.
Data Science Agent verwenden
So verwenden Sie den Data Science Agent von Colab Enterprise:
Gemini in Colab Enterprise deaktivieren
Wenn Sie Gemini in Colab Enterprise für ein Google Cloud -Projekt deaktivieren möchten, muss ein Administrator die Gemini for Google Cloud API deaktivieren. Weitere Informationen finden Sie unter Dienste deaktivieren.
Wenn Sie Gemini in Colab Enterprise für einen bestimmten Nutzer deaktivieren möchten, muss der Administrator ihm die Rolle Gemini for Google Cloud User (roles/cloudaicompanion.user
) entziehen. Weitere Informationen finden Sie unter Einzelne IAM-Rolle widerrufen.
Beispiel-Prompts
Die folgenden Beispiele zeigen die Arten von Prompts, die Sie mit dem Data Science Agent verwenden können.
Unterstützte Regionen
Eine Liste der unterstützten Regionen für den Data Science Agent von Colab Enterprise finden Sie unter Standorte.
Abrechnung
Während der Vorschau werden Ihnen nur die Kosten für die Ausführung von Code in der Laufzeit des Notebooks berechnet. Weitere Informationen finden Sie unter Colab Enterprise-Preise.