Data Science Agent verwenden

In diesem Leitfaden wird beschrieben, wie Sie den Data Science Agent in Colab Enterprise verwenden können, um Data Science-Aufgaben in Ihren Notebooks zu erledigen.

Weitere Informationen dazu, wie und wann Gemini for Google Cloud Ihre Daten verwendet

Dieses Dokument richtet sich an Datenanalysten, Data Scientists und Datenentwickler, die mit Colab Enterprise arbeiten. Es wird davon ausgegangen, dass Sie wissen, wie Sie Code in einer Notebook-Umgebung schreiben.

Funktionen des Data Science Agent

Der Data Science Agent kann Sie bei Aufgaben unterstützen, die von der explorativen Datenanalyse bis hin zur Generierung von Machine-Learning-Vorhersagen und ‑Prognosen reichen. Sie können den Data Science Agent für Folgendes verwenden:

  • Pläne erstellen: Sie können einen Plan erstellen und ändern, um eine bestimmte Aufgabe zu erledigen.
  • Explorative Datenanalyse: Untersuchen Sie ein Dataset, um seine Struktur zu verstehen, potenzielle Probleme wie fehlende Werte und Ausreißer zu erkennen und die Verteilung der wichtigsten Variablen zu analysieren.
  • Datenbereinigung: Bereinigen Sie Ihre Daten. Entfernen Sie beispielsweise Datenpunkte, die Ausreißer sind.
  • Data Wrangling: Konvertieren Sie kategoriale Merkmale in numerische Darstellungen, indem Sie Techniken wie One-Hot-Codierung oder Label-Codierung verwenden. Neue Funktionen für die Analyse erstellen
  • Datenanalyse: Analysieren Sie die Beziehungen zwischen verschiedenen Variablen. Korrelationen zwischen numerischen Features berechnen und Verteilungen kategorialer Features untersuchen Suchen Sie nach Mustern und Trends in den Daten.
  • Datenvisualisierung: Erstellen Sie Visualisierungen wie Histogramme, Boxplots, Streudiagramme und Balkendiagramme, die die Verteilungen einzelner Variablen und die Beziehungen zwischen ihnen darstellen.
  • Feature Engineering: Erstellen Sie neue Features aus einem bereinigten Dataset.
  • Datenaufteilung: Teilen Sie ein aufbereitetes Dataset in Trainings-, Validierungs- und Test-Datasets auf.
  • Modelltraining: Trainieren Sie ein Modell mit den Trainingsdaten.
  • Modelloptimierung: Ein Modell mithilfe des Validierungssatzes optimieren. Sehen Sie sich alternative Modelle wie DecisionTreeRegressor und RandomForestRegressor an und vergleichen Sie ihre Leistung.
  • Modellbewertung: Das leistungsstärkste Modell anhand des Test-Datasets bewerten.

Beschränkungen

  • Der Data Science Agent unterstützt die folgenden Datenquellen:
    • CSV-Dateien
    • BigQuery-Tabellen
  • Der vom Data Science Agent generierte Code wird nur in der Laufzeit Ihres Notebooks ausgeführt.
  • Ihr Notebook muss sich in einer Region befinden, die vom Data Science Agent unterstützt wird. Weitere Informationen finden Sie unter Standorte.
  • Der Data Science Agent wird nicht in Projekten unterstützt, in denen VPC Service Controls aktiviert ist.
  • Wenn Sie den Data Science Agent zum ersten Mal ausführen, kann es zu einer Latenz von etwa fünf bis zehn Minuten kommen. Das geschieht nur einmal pro Projekt bei der Ersteinrichtung.
  • Die Suche nach BigQuery-Tabellen mit der Funktion @mention ist auf Ihr aktuelles Projekt beschränkt. Mit der Tabellenauswahl können Sie projektübergreifend suchen.
  • Die Funktion @mention sucht nur nach BigQuery-Tabellen. Wenn Sie nach Datendateien suchen möchten, die Sie hochladen können, verwenden Sie das Symbol +.

Hinweise

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the APIs

  8. Erforderliche Rollen

    Bitten Sie Ihren Administrator, Ihnen die IAM-Rolle Colab Enterprise User (roles/aiplatform.colabEnterpriseUser) für das Projekt zuzuweisen, um die Berechtigungen zu erhalten, die Sie zum Verwenden des Data Science Agent in Colab Enterprise benötigen. Weitere Informationen zum Zuweisen von Rollen finden Sie unter Zugriff auf Projekte, Ordner und Organisationen verwalten.

    Sie können die erforderlichen Berechtigungen auch über benutzerdefinierte Rollen oder andere vordefinierte Rollen erhalten.

    Daten referenzieren

    Damit der Data Science Agent von Colab Enterprise auf Ihre Daten zugreifen und sie verarbeiten kann, können Sie eine CSV-Datei hochladen oder auf eine BigQuery-Tabelle verweisen.

    CSV-Datei

    1. Rufen Sie in der Google Cloud -Konsole die Colab Enterprise-Seite Meine Notebooks auf.

      Zu „Meine Notebooks“

    2. Wählen Sie im Menü Region die Region aus, in der sich Ihr Notebook befindet.

    3. Klicken Sie auf das Notebook, das Sie öffnen möchten.

    4. Klicken Sie in der Symbolleiste auf die Schaltfläche  Gemini, um das Chatdialogfeld zu öffnen.

    5. Klicken Sie im Chatdialogfeld auf Dateien hinzufügen> Hochladen.
    6. Autorisieren Sie gegebenenfalls Ihr Google-Konto.

      Warten Sie einen Moment, bis Colab Enterprise eine Laufzeit startet und den Dateibrowser aktiviert.

    7. Suchen Sie den Speicherort der Datei und klicken Sie auf Öffnen.
    8. Klicken Sie auf OK, um zu bestätigen, dass die Dateien dieser Laufzeit gelöscht werden, wenn die Laufzeit gelöscht wird.

      Die Datei wird in den Bereich Dateien hochgeladen und im Chatfenster angezeigt.

    BigQuery-Tabelle

    1. Rufen Sie in der Google Cloud -Konsole die Colab Enterprise-Seite Meine Notebooks auf.

      Zu „Meine Notebooks“

    2. Wählen Sie im Menü Region die Region aus, in der sich Ihr Notebook befindet.

    3. Klicken Sie auf das Notebook, das Sie öffnen möchten.

    4. Klicken Sie in der Symbolleiste auf die Schaltfläche  Gemini, um das Chatdialogfeld zu öffnen.

    5. Sie haben folgende Möglichkeiten, auf Ihre Daten zu verweisen:

      • Wählen Sie mit der Tabellenauswahl eine oder mehrere Tabellen aus:

        1. Klicken Sie auf  Zu Gemini hinzufügen > BigQuery-Tabellen.
        2. Wählen Sie im Fenster BigQuery-Tabellen eine oder mehrere Tabellen in Ihrem Projekt aus. Sie können projektübergreifend nach Tabellen suchen und Tabellen über die Suchleiste filtern.
      • Geben Sie den Namen einer BigQuery-Tabelle direkt in Ihrem Prompt an. Beispiel: „Hilf mir, eine explorative Datenanalyse durchzuführen und Statistiken zu den Daten in dieser Tabelle zu erhalten: PROJECT_ID:DATASET.TABLE.“

        Ersetzen Sie Folgendes:

        • PROJECT_ID: Ihre Projekt-ID.
        • DATASET: der Name des Datasets, das die Tabelle enthält, die Sie analysieren.
        • TABLE: Der Name der Tabelle, die Sie analysieren.
      • Geben Sie @ ein, um in Ihrem aktuellen Projekt nach einer BigQuery-Tabelle zu suchen.

    Data Science Agent verwenden

    So verwenden Sie den Data Science Agent in Colab Enterprise:

    1. Geben Sie im Gemini-Chatdialogfeld einen Prompt ein und klicken Sie auf  Senden. Ideen für Prompts finden Sie unter Funktionen des Data Science Agent und Beispiel-Prompts.

      Sie könnten beispielsweise „Analysiere die von mir hochgeladenen Daten“ eingeben.

    2. Gemini antwortet auf Ihren Prompt. Die Antwort kann Code-Snippets zum Ausführen, allgemeine Ratschläge für Ihr Projekt, nächste Schritte zur Erreichung Ihrer Ziele oder Informationen zu bestimmten Problemen in Ihren Daten oder Ihrem Code enthalten.

      Nachdem Sie die Antwort bewertet haben, haben Sie folgende Möglichkeiten:

      • Wenn Gemini in der Antwort Code bereitstellt, können Sie auf Folgendes klicken:
        • Klicken Sie auf Akzeptieren, um den Code Ihrem Notebook hinzuzufügen.
        • Klicken Sie auf Akzeptieren und ausführen, um den Code Ihrem Notebook hinzuzufügen und auszuführen.
        • Abbrechen, um den vorgeschlagenen Code zu löschen.
      • Stellen Sie Folgefragen und setzen Sie die Diskussion bei Bedarf fort.
    3. Klicken Sie auf  Schließen, um das Dialogfeld Gemini zu schließen.

    Gemini in Colab Enterprise deaktivieren

    Wenn Sie Gemini in Colab Enterprise für ein Google Cloud -Projekt deaktivieren möchten, muss ein Administrator die Gemini for Google Cloud API deaktivieren. Weitere Informationen finden Sie unter Dienste deaktivieren.

    Wenn Sie Gemini in Colab Enterprise für einen bestimmten Nutzer deaktivieren möchten, muss der Administrator ihm die Rolle Gemini for Google Cloud User (roles/cloudaicompanion.user) entziehen. Weitere Informationen finden Sie unter Einzelne IAM-Rolle widerrufen.

    Beispiel-Prompts

    Die folgenden Beispiele zeigen die Arten von Prompts, die Sie mit dem Data Science Agent verwenden können.

    • Mit dem Machine-Learning-Algorithmus „k-Nearest Neighbors“ (k-NN) können Sie fehlende Werte finden und ergänzen.
    • Erstelle ein Diagramm der Gehälter nach Erfahrungsniveau. Verwenden Sie die Spalte experience_level, um die Gehälter zu gruppieren, und erstellen Sie für jede Gruppe ein Boxplot mit den Werten aus der Spalte salary_in_usd.
    • Verwenden Sie den XGBoost-Algorithmus, um ein Modell zur Bestimmung der Variablen class einer bestimmten Frucht zu erstellen. Teilen Sie die Daten in Trainings- und Test-Datasets auf, um ein Modell zu generieren und dann die Genauigkeit des Modells zu bewerten. Erstellen Sie eine Wahrheitsmatrix, um die Vorhersagen für jede Klasse zu sehen, einschließlich aller korrekten und falschen Vorhersagen.
    • Erstelle einen Pandas-DataFrame für meine Daten. Analysieren Sie die Daten auf Nullwerte und visualisieren Sie dann die Verteilung der einzelnen Spalten mit Violin-Diagrammen für Messwerte und Balkendiagrammen für Kategorien.
    • Lesen Sie die CSV-Datei für den Datensatz ein und erstellen Sie einen DataFrame. Führen Sie eine Analyse für den DataFrame aus, um zu ermitteln, was mit Werten geschehen muss (fehlende Werte ersetzen oder entfernen, doppelte Zeilen entfernen), und ermitteln Sie die Verteilung des in USD investierten Geldbetrags pro Stadt. Stelle die Ergebnisse in einem Balkendiagramm in absteigender Reihenfolge als „Standort“ im Vergleich zu „Durchschnittlich investierter Betrag (USD)“ dar und zeige nur die 20 besten Ergebnisse an.
    • Prognostiziere target_variable aus filename.csv für die nächsten sechs Monate.
    • Klassifizierungsmodell für target_variable anhand von filename.csv erstellen und bewerten

    Unterstützte Regionen

    Eine Liste der unterstützten Regionen für den Data Science Agent in Colab Enterprise finden Sie unter Standorte.

    Abrechnung

    Während der Vorschau werden Ihnen nur die Kosten für die Ausführung von Code in der Laufzeit des Notebooks berechnet. Weitere Informationen finden Sie unter Colab Enterprise-Preise.

    Nächste Schritte