BigQuery で Colab Enterprise データ サイエンス エージェントを使用する

Colab Enterprise と BigQuery のデータ サイエンス エージェント(DSA)を使用すると、探索的データ分析の自動化、ML タスクの実行、分析情報の提供をすべて Colab Enterprise ノートブック内で行うことができます。

始める前に

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Enable the APIs

  8. BigQuery の Colab Enterprise を初めて使用する場合は、ノートブックを作成するページのセットアップ手順をご覧ください。

    制限事項

    • データ サイエンス エージェントは、次のデータソースをサポートしています。
      • CSV ファイル
      • BigQuery テーブル
    • データ サイエンス エージェントによって生成されたコードは、ノートブックのランタイムでのみ実行されます。
    • データ サイエンス エージェントは、VPC Service Controls が有効になっているプロジェクトではサポートされていません。
    • データ サイエンス エージェントを初めて実行するときに、5~10 分程度のレイテンシが発生することがあります。これは、初期設定時にプロジェクトごとに 1 回だけ発生します。

    データ サイエンス エージェントを使用する場合

    データ サイエンス エージェントは、探索的データ分析から ML 予測、予測の生成まで、さまざまなタスクを支援します。DSA を使用すると、次のことができます。

    • プランを生成する: 特定のタスクを完了するためのプランを生成して変更できます。
    • データ探索: データセットを探索して、その構造を理解し、欠損値や外れ値などの潜在的な問題を特定して、主要な変数の分布を調べることができます。
    • データ クリーニング: データをクリーニングします。たとえば、外れ値のデータポイントを削除できます。
    • データ ラングリング: ワンホット エンコードやラベル エンコードなどの手法を使用して、カテゴリ特徴を数値表現に変換します。分析用の新しい特徴を作成できます。
    • データ分析: さまざまな変数間の関係を分析します。数値特徴間の相関を計算し、カテゴリ特徴の分布を調べることができます。データのパターンと傾向を探すことができます。
    • データの可視化: 個々の変数の分布とそれらの関係を表すヒストグラム、箱ひげ図、散布図、棒グラフなどの可視化を行います。
    • 特徴量エンジニアリング: クリーンアップされたデータセットから新しい特徴量をエンジニアリングします。
    • データ分割: エンジニアリングされたデータセットをトレーニング データセット、検証データセット、テスト データセットに分割します。
    • モデルのトレーニング: トレーニング データ(X_trainy_train)を使用してモデルをトレーニングします。
    • モデルの最適化: 検証セットを使用してモデルを最適化します。DecisionTreeRegressorRandomForestRegressor などの代替モデルを調べて、パフォーマンスを比較できます。
    • モデルの評価: テスト データセット(X_test_imputedy_test)で、パフォーマンスが最も優れたモデルを評価します。

    BigQuery でデータ サイエンス エージェントを使用する

    次の手順は、BigQuery でデータ サイエンス エージェントを使用する方法を示しています。

    1. Colab Enterprise ノートブックを作成または開きます。
    2. CSV ファイルをアップロードするか、テーブル セレクタで 1 つ以上の BigQuery テーブルを選択するか、プロンプトで BigQuery テーブルを参照します。
    3. 実行するデータ分析や作成するプロトタイプに関する説明をプロンプトに入力します。詳しくは、サンプル プロンプトをご覧ください。
    4. 結果を確認します。

    CSV ファイルを分析する

    BigQuery のデータ サイエンス エージェントを使用して CSV を分析する手順は次のとおりです。

    1. [BigQuery] ページに移動します。

      [BigQuery] に移動

    2. BigQuery Studio のウェルカム ページの [新規作成] で、[ノートブック] をクリックします。

      または、タブバーで + アイコンの横にある プルダウン矢印をクリックし、[ノートブッ] > [空のノートブック] をクリックします。

    3. ツールバーで、sparkGemini の切り替え)ボタンをクリックして、チャット ダイアログを開きます。

    4. CSV ファイルをアップロードします。

      1. チャット ダイアログで、ファイルを追加)をクリックします。

      2. 必要に応じて Google アカウントを認可します。

      3. アクション ペインで、ファイルをアップロード)をクリックします。

      4. CSV ファイルの場所を参照し、[開く] をクリックします。

      5. ファイル名の横にある その他の操作)アイコンをクリックし、[Add to Gemini] を選択します。

    5. チャット ウィンドウにプロンプトを入力します。例: Identify trends and anomalies in this file.

    6. 送信)をクリックします。

      結果はチャット ウィンドウに表示されます。

      DSA によって生成されたデータ分析プラン

    7. エージェントにプランの変更を依頼することも、[承認して実行] をクリックして実行することもできます。プランが実行されると、生成されたコードとテキストがノートブックに表示されます。停止するには、[キャンセル] をクリックします

    BigQuery テーブルを分析する

    BigQuery テーブルを分析するには、テーブル セレクタで 1 つ以上のテーブルを選択するか、プロンプトでテーブルへの参照を指定します。

    1. [BigQuery] ページに移動します。

      [BigQuery] に移動

    2. BigQuery Studio のウェルカム ページの [新規作成] で、[ノートブック] をクリックします。

      または、タブバーで + アイコンの横にある プルダウン矢印をクリックし、[ノートブッ] > [空のノートブック] をクリックします。

    3. ツールバーで、sparkGemini の切り替え)ボタンをクリックして、チャット ダイアログを開きます。

    4. チャット ウィンドウにプロンプトを入力します。

    5. テーブル セレクタを使用して 1 つ以上のテーブルを選択します。

      1. (コンテキストを追加)> [BigQuery テーブル] をクリックします。

      2. [BigQuery テーブル] ウィンドウで、プロジェクト内の 1 つ以上のテーブルを選択します。検索バーを使用すると、複数プロジェクトにわたってテーブルを検索し、テーブルをフィルタできます。

    6. プロンプトで BigQuery テーブルを直接参照することもできます。たとえば、「探索的データ分析を行い、次のテーブルのデータに関する分析情報を取得してください: project_id:dataset.table」と入力します。

      次のように置き換えます。

      • project_id: プロジェクト ID
      • dataset: 分析するテーブルを含むデータセットの名前
      • table: 分析するテーブルの名前
    7. 送信)をクリックします。

      結果はチャット ウィンドウに表示されます。

    8. エージェントにプランの変更を依頼することも、[承認して実行] をクリックして実行することもできます。プランが実行されると、生成されたコードとテキストがノートブックに表示されます。停止するには、[キャンセル] をクリックします

    サンプル プロンプト

    使用するプロンプトの複雑さに関係なく、データ サイエンス エージェントは、ニーズに合わせて調整できるプランを生成します。

    次の例は、DSA で使用できるプロンプトのタイプを示しています。

    • k 近傍法(KNN)ML 機アルゴリズムを使用して、欠損値を調査して入力します。
    • 経験レベル別の給与のプロットを作成します。experience_level 列を使用して給与をグループ化し、salary_in_usd 列の値を示すグループごとに箱ひげ図を作成します。
    • XGBoost アルゴリズムを使用して、特定の果物の class 変数を決定するモデルを作成します。データをトレーニング データセットとテスト データセットに分割して、モデルを生成し、モデルの精度を判断します。混同行列を作成して、各クラスの予測を表示します。これには、正しい予測と正しくない予測の両方が含まれます。
    • データの pandas データフレームを作成します。データの null 値を分析し、グラフタイプを使用して各列の分布をグラフ化します。測定値にはバイオリン プロット、カテゴリには棒グラフを使用します。
    • データセットの CSV を読み込んで DataFrame を作成します。DataFrame で分析を実行して、値の処理(欠損値の置換または削除、重複する行の修正)を決定し、都市の場所ごとに投資された金額(米ドル)の分布を決定します。上位 20 件の結果のみをグラフ化し、棒グラフに「地域」と「平均投資額(米ドル)」を降順で表示します。
    • 今後 6 か月間の filename.csv からの target_variable を予測します。
    • target_variablefilename.csv で分類モデルを構築して評価します。

    Gemini in BigQuery をオフにする

    Google Cloud プロジェクトで Gemini in BigQuery をオフにするには、管理者が Gemini for Google Cloud API を無効にする必要があります。サービスの無効化をご覧ください。

    特定のユーザーに対して Gemini in BigQuery をオフにするには、管理者がそのユーザーの Gemini for Google Cloud ユーザーroles/cloudaicompanion.user)ロールを取り消す必要があります。単一の IAM ロールを取り消すをご覧ください。

    料金

    プレビュー期間中は、ノートブックのランタイムで実行されたコードに対してのみ課金されます。詳細については、Colab Enterprise の料金をご覧ください。

    サポートされるリージョン

    Colab Enterprise の Data Science Agent でサポートされているリージョンについては、ロケーションをご覧ください。