データ サイエンス エージェントを使用する

このガイドでは、Colab Enterprise のデータ サイエンス エージェントを使用して、ノートブックでデータ サイエンス タスクを実行する方法について説明します。このガイドの手順では、データ サイエンス プロジェクトの CSV ファイルをアップロードする方法を示しますが、BigQuery テーブルを使用することもできます。詳細については、BigQuery で Colab Enterprise データ サイエンス エージェントを使用するをご覧ください。

Gemini for Google Cloud がデータを使用する方法とタイミングに関する説明をご覧ください。

このドキュメントは、Colab Enterprise を使用するデータ アナリスト、データ サイエンティスト、データ デベロッパーを対象としています。ノートブック環境でコードを記述する方法を理解していることを前提としています。

データ サイエンス エージェントの機能

データ サイエンス エージェントは、探索的データ分析から ML 予測、予測の生成まで、さまざまなタスクを支援します。データ サイエンス エージェントは、次の目的で使用できます。

  • プランを生成する: 特定のタスクを完了するためのプランを生成して変更できます。
  • データ探索: データセットを探索して、その構造を理解し、欠損値や外れ値などの潜在的な問題を特定して、主要な変数の分布を調べることができます。
  • データ クリーニング: データをクリーニングします。たとえば、外れ値のデータポイントを削除できます。
  • データ ラングリング: ワンホット エンコードやラベル エンコードなどの手法を使用して、カテゴリ特徴を数値表現に変換します。分析用の新しい特徴を作成できます。
  • データ分析: さまざまな変数間の関係を分析します。数値特徴間の相関を計算し、カテゴリ特徴の分布を調べることができます。データのパターンと傾向を探すことができます。
  • データの可視化: 個々の変数の分布とそれらの関係を表すヒストグラム、箱ひげ図、散布図、棒グラフなどの可視化を行います。
  • 特徴量エンジニアリング: クリーンアップされたデータセットから新しい特徴量をエンジニアリングします。
  • データ分割: エンジニアリングされたデータセットをトレーニング データセット、検証データセット、テスト データセットに分割します。
  • モデルのトレーニング: トレーニング データを使用してモデルをトレーニングします。
  • モデルの最適化: 検証セットを使用してモデルを最適化します。DecisionTreeRegressorRandomForestRegressor などの代替モデルを調べて、パフォーマンスを比較できます。
  • モデルの評価: テスト データセットで、パフォーマンスが最も優れたモデルを評価します。

制限事項

  • データ サイエンス エージェントは、次のデータソースをサポートしています。
    • CSV ファイル
    • BigQuery テーブル
  • データ サイエンス エージェントによって生成されたコードは、ノートブックのランタイムでのみ実行されます。
  • ノートブックは、Data Science Agent でサポートされているリージョンに存在する必要があります。場所をご覧ください。
  • データ サイエンス エージェントは、VPC Service Controls が有効になっているプロジェクトではサポートされていません。
  • データ サイエンス エージェントを初めて実行するときに、5~10 分程度のレイテンシが発生することがあります。これは、初期設定時にプロジェクトごとに 1 回だけ発生します。

始める前に

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Enable the APIs

  8. 必要なロール

    Colab Enterprise で Data Science エージェントを使用するために必要な権限を取得するには、プロジェクトに対する Colab Enterprise ユーザー roles/aiplatform.colabEnterpriseUser)IAM ロールを付与するよう管理者に依頼してください。ロールの付与については、プロジェクト、フォルダ、組織に対するアクセス権の管理をご覧ください。

    必要な権限は、カスタムロールや他の事前定義ロールから取得することもできます。

    データ サイエンス エージェントを使用する

    Colab Enterprise の Data Science Agent の使用を開始するには、次の操作を行います。

    1. Google Cloud コンソールで、Colab Enterprise の [マイ ノートブック] ページに移動します。

      [マイ ノートブック] に移動

    2. [リージョン] メニューで、ノートブックを含むリージョンを選択します。

    3. 開きたいノートブックをクリックします。

    4. ツールバーで、 [Gemini] ボタンをクリックして、チャット ダイアログを開きます。

    5. CSV ファイルをアップロードするには:

      1. チャット ダイアログで、ファイルを追加)をクリックします。
      2. 必要に応じて Google アカウントを認可します。

        Colab Enterprise がランタイムを起動してファイル ブラウジングを有効にするまでしばらく待ちます。

      3. [ファイル] ペインで、 [セッション ストレージにアップロード] をクリックします。
      4. ファイルの場所を参照し、[開く] をクリックします。
      5. [OK] をクリックして、ランタイムの削除時にこのランタイムのファイルが削除されることを確認します。

        ファイルが [ファイル] ペインにアップロードされます。

      6. アップロードしたファイルの横にある 操作)メニューをクリックし、[Gemini に追加] を選択します。

        ファイルがチャット ダイアログに追加されます。

    6. [Gemini] チャット ダイアログでプロンプトを入力し、 [送信] をクリックします。プロンプトのアイデアを得るには、Data Science エージェントの機能を確認し、サンプル プロンプトをご覧ください。

      たとえば、「アップロードしたデータの分析を提供してください」と入力します。

    7. Gemini がプロンプトに応答します。レスポンスには、実行するコード スニペット、プロジェクトに関する一般的なアドバイス、目標を達成するための次のステップ、データやコードの特定の問題に関する情報などが含まれます。

      レスポンスを評価した後、次の操作を行うことができます。

      • Gemini がレスポンスでコードを提供した場合は、次の操作を行うことができます。
        • [承諾] をクリックして、コードをノートブックに追加します。
        • [受け入れて実行] をクリックして、コードをノートブックに追加し、コードを実行します。
        • [キャンセル] をクリックして、提案されたコードを削除します。
      • 必要に応じてフォローアップの質問をし、話し合いを続けます。
    8. [Gemini] ダイアログを閉じるには、[ 閉じる] をクリックします。

    Gemini in Colab Enterprise をオフにする

    Google Cloud プロジェクトで Gemini in Colab Enterprise をオフにするには、管理者が Gemini for Google Cloud API を無効にする必要があります。サービスの無効化をご覧ください。

    特定のユーザーに対して Gemini in Colab Enterprise をオフにするには、管理者がそのユーザーの Gemini for Google Cloud ユーザーroles/cloudaicompanion.user)ロールを取り消す必要があります。単一の IAM ロールを取り消すをご覧ください。

    サンプル プロンプト

    次の例は、データ サイエンス エージェントで使用できるプロンプトのタイプを示しています。

    • k 近傍法(KNN)ML アルゴリズムを使用して、欠損値を見つけて入力します。
    • 経験レベル別の給与のプロットを作成します。experience_level 列を使用して給与をグループ化し、salary_in_usd 列の値を示すグループごとに箱ひげ図を作成します。
    • XGBoost アルゴリズムを使用して、特定の果物の class 変数を決定するモデルを作成します。データをトレーニング データセットとテスト データセットに分割してモデルを生成し、モデルの精度を評価します。混同行列を作成して、各クラスの予測を表示します。これには、正しい予測と正しくない予測の両方が含まれます。
    • データの pandas データフレームを作成します。データの null 値を分析し、測定値にはバイオリン プロット、カテゴリには棒グラフを使用して、各列の分布を可視化します。
    • データセットの CSV ファイルを読み込んで DataFrame を作成します。DataFrame で分析を実行して、値の処理(欠損値の置換または削除、重複する行の削除)を決定し、都市の場所ごとに投資された金額(米ドル)の分布を決定します。上位 20 件の結果のみを表示し、棒グラフに「地域」と「平均投資額(米ドル)」を降順で表示します。
    • 今後 6 か月間の filename.csv からの target_variable を予測します。
    • target_variablefilename.csv で分類モデルを構築して評価します。

    サポートされるリージョン

    Colab Enterprise の Data Science Agent でサポートされているリージョンについては、ロケーションをご覧ください。

    課金

    プレビュー期間中は、ノートブックのランタイムで実行されたコードに対してのみ課金されます。詳細については、Colab Enterprise の料金をご覧ください。

    次のステップ