使用資料科學代理

本指南說明如何使用 Colab Enterprise 中的資料科學代理,輔助您在筆記本中執行資料科學工作。

瞭解 Gemini for Google Cloud 如何使用您的資料,以及使用時機

本文件適用於使用 Colab Enterprise 的資料分析師、數據資料學家和資料開發人員。本文假設您已瞭解如何在筆記本環境中編寫程式碼。

數據資料學虛擬服務專員的功能

資料科學虛擬服務專員可協助您執行各種工作,包括探索性資料分析,以及生成機器學習預測和預報。數據資料學虛擬服務專員的用途包括:

  • 生成計畫:生成及修改計畫,以完成特定工作。
  • 資料探索:探索資料集以瞭解其結構、找出潛在問題 (例如缺少值和離群值),並檢查重要變數的分布情形。
  • 資料清理:清理資料。舉例來說,您可以移除離群值資料點。
  • 資料重整:使用 one-hot 編碼或標籤編碼等技術,將類別特徵轉換為數值表示法。建立新的分析功能。
  • 資料分析:分析不同變數之間的關係。計算數值特徵之間的關聯性,並探索類別特徵的分布情形。找出資料中的模式和趨勢。
  • 資料視覺化:建立直方圖、盒鬚圖、散布圖和長條圖等視覺化圖表,呈現個別變數的分布情形和變數間的關係。
  • 特徵工程:從經過清理的資料集設計新特徵。
  • 資料分割:將經過設計的資料集分割為訓練、驗證和測試資料集。
  • 模型訓練:使用訓練資料訓練模型。
  • 模型最佳化:使用驗證集將模型最佳化。 探索 DecisionTreeRegressorRandomForestRegressor 等替代模型,並比較其效能。
  • 模型評估:根據測試資料集評估效能最佳的模型。

限制

  • 資料科學代理程式支援下列資料來源:
    • CSV 檔案
    • BigQuery 資料表
  • 資料科學代理產生的程式碼只會在筆記本的執行階段中執行。
  • 筆記本必須位於 Data Science Agent 支援的區域。 請參閱「地點」一文。
  • 如果專案已啟用 VPC Service Controls,則不支援使用 Data Science Agent。
  • 首次執行 Data Science Agent 時,可能會出現約五到十分鐘的延遲。每個專案在初始設定期間只會發生一次。

事前準備

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI, Dataform, and Compute Engine APIs.

    Enable the APIs

  8. 必要的角色

    如要取得使用 Colab Enterprise 資料科學代理所需的權限,請要求管理員授予您專案的「Colab Enterprise 使用者」 (roles/aiplatform.colabEnterpriseUser) IAM 角色。如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。

    您或許還可透過自訂角色或其他預先定義的角色取得必要權限。

    使用資料科學代理

    如要開始使用 Colab Enterprise 的資料科學虛擬服務專員,請按照下列步驟操作:

    1. 前往 Google Cloud 控制台的 Colab Enterprise「我的筆記本」頁面。

      前往「我的筆記本」

    2. 在「Region」(區域) 選單中,選取包含筆記本的區域。

    3. 按一下要開啟的筆記本。

    4. 在工具列中,按一下「 Gemini」按鈕,開啟對話方塊。

    5. 如要上傳 CSV 檔案,請按照下列步驟操作:

      1. 在對話方塊中,按一下 「新增檔案」
      2. 視需要授權 Google 帳戶。

        請稍候片刻,Colab Enterprise 會啟動執行階段並啟用檔案瀏覽功能。

      3. 在「檔案」窗格中,按一下 「上傳至工作階段儲存空間」
      4. 瀏覽至檔案所在位置,然後按一下「開啟」
      5. 按一下「確定」,確認刪除執行階段時,系統會一併刪除其檔案。

        檔案會上傳至「檔案」窗格。

      6. 在上傳的檔案旁邊,按一下「動作」選單,然後選取「新增至 Gemini」

        檔案會新增至對話方塊。

    6. 在「Gemini」對話方塊中輸入提示,然後按一下「傳送」圖示。如需提示構想,請參閱 [資料科學代理程式功能](#capabilities)和 [範例提示](#sample-prompts)。

      舉例來說,你可以輸入「分析我上傳的資料」。

    7. Gemini 會根據提示回覆。回覆內容可能包括要執行的程式碼片段、專案的一般建議、達成目標的後續步驟,或是資料/程式碼中特定問題的相關資訊。

      評估回覆內容後,您可以採取下列動作:

      • 如果 Gemini 在回覆中提供程式碼,您可以按一下:
        • 按一下「接受」,將程式碼新增至筆記本。
        • 接受並執行,將程式碼新增至筆記本並執行。
        • 輕觸「取消」即可刪除建議的程式碼。
      • 視需要提出後續問題,繼續討論。
    8. 如要關閉「Gemini」對話方塊,請按一下「關閉」圖示

    停用 Gemini in Colab Enterprise

    如要為 Google Cloud 專案停用 Gemini in Colab Enterprise,管理員必須停用 Gemini for Google Cloud API。請參閱「停用服務」。

    如要為特定使用者停用 Gemini in Colab Enterprise,管理員必須撤銷該名使用者的「Gemini for Google Cloud 使用者」 (roles/cloudaicompanion.user) 角色。詳情請參閱撤銷單一 IAM 角色

    提示範例

    以下範例說明可搭配 Data Science Agent 使用的提示類型。

    • 使用 k-Nearest Neighbors (KNN) 機器學習演算法,找出並填入遺漏值。
    • 根據經驗等級繪製薪資圖。使用 experience_level 欄分組薪資,並為每個群組建立盒鬚圖,顯示 salary_in_usd 欄中的值。
    • 使用 XGBoost 演算法建立模型,判斷特定水果的 class 變數。將資料分成訓練和測試資料集,產生模型,然後評估模型的準確度。建立混淆矩陣,顯示每個類別的預測結果,包括所有正確和不正確的預測。
    • 為我的資料建立 pandas DataFrame。分析資料中的空值,然後使用小提琴圖 (適用於測量值) 和長條圖 (適用於類別),將每個資料欄的分布情形視覺化。
    • 讀取資料集的 CSV 檔案並建構 DataFrame,對 DataFrame 執行分析,判斷如何處理值 (取代或移除遺漏值、移除重複的資料列),並判斷每個城市地點以美元計價的投資金額分配情形。以長條圖呈現結果,並依「地點」與「平均投資金額 (美元)」的降序排列,只顯示前 20 項結果。
    • 預測未來六個月的 target_variable filename.csv
    • filename.csv 上建構及評估分類模型。target_variable

    支援的地區

    如要查看 Colab Enterprise 數據資料學虛擬服務專員支援的地區,請參閱「地點」。

    帳單

    在預先發布版期間,系統只會針對筆記本執行階段中執行的程式碼收費。詳情請參閱 Colab Enterprise 定價

    後續步驟