使用資料科學代理
本指南說明如何使用 Colab Enterprise 中的資料科學代理,輔助您在筆記本中執行資料科學工作。
瞭解 Gemini for Google Cloud 如何使用您的資料,以及使用時機。
本文件適用於使用 Colab Enterprise 的資料分析師、數據資料學家和資料開發人員。本文假設您已瞭解如何在筆記本環境中編寫程式碼。
數據資料學虛擬服務專員的功能
資料科學虛擬服務專員可協助您執行各種工作,包括探索性資料分析,以及生成機器學習預測和預報。數據資料學虛擬服務專員的用途包括:
- 生成計畫:生成及修改計畫,以完成特定工作。
- 資料探索:探索資料集以瞭解其結構、找出潛在問題 (例如缺少值和離群值),並檢查重要變數的分布情形。
- 資料清理:清理資料。舉例來說,您可以移除離群值資料點。
- 資料重整:使用 one-hot 編碼或標籤編碼等技術,將類別特徵轉換為數值表示法。建立新的分析功能。
- 資料分析:分析不同變數之間的關係。計算數值特徵之間的關聯性,並探索類別特徵的分布情形。找出資料中的模式和趨勢。
- 資料視覺化:建立直方圖、盒鬚圖、散布圖和長條圖等視覺化圖表,呈現個別變數的分布情形和變數間的關係。
- 特徵工程:從經過清理的資料集設計新特徵。
- 資料分割:將經過設計的資料集分割為訓練、驗證和測試資料集。
- 模型訓練:使用訓練資料訓練模型。
- 模型最佳化:使用驗證集將模型最佳化。
探索
DecisionTreeRegressor
和RandomForestRegressor
等替代模型,並比較其效能。 - 模型評估:根據測試資料集評估效能最佳的模型。
限制
- 資料科學代理程式支援下列資料來源:
- CSV 檔案
- BigQuery 資料表
- 資料科學代理產生的程式碼只會在筆記本的執行階段中執行。
- 筆記本必須位於 Data Science Agent 支援的區域。 請參閱「地點」一文。
- 如果專案已啟用 VPC Service Controls,則不支援使用 Data Science Agent。
- 首次執行 Data Science Agent 時,可能會出現約五到十分鐘的延遲。每個專案在初始設定期間只會發生一次。
事前準備
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
-
前往 Google Cloud 控制台的 Colab Enterprise「我的筆記本」頁面。
-
在「Region」(區域) 選單中,選取包含筆記本的區域。
-
按一下要開啟的筆記本。
-
在工具列中,按一下「
Gemini」按鈕,開啟對話方塊。 -
如要上傳 CSV 檔案,請按照下列步驟操作:
- 在對話方塊中,按一下 「新增檔案」。
-
視需要授權 Google 帳戶。
請稍候片刻,Colab Enterprise 會啟動執行階段並啟用檔案瀏覽功能。
- 在「檔案」窗格中,按一下 「上傳至工作階段儲存空間」。
- 瀏覽至檔案所在位置,然後按一下「開啟」。
-
按一下「確定」,確認刪除執行階段時,系統會一併刪除其檔案。
檔案會上傳至「檔案」窗格。
-
在上傳的檔案旁邊,按一下「動作」
選單,然後選取「新增至 Gemini」。檔案會新增至對話方塊。
-
在「Gemini」對話方塊中輸入提示,然後按一下「傳送」圖示
。如需提示構想,請參閱 [資料科學代理程式功能](#capabilities)和 [範例提示](#sample-prompts)。舉例來說,你可以輸入「分析我上傳的資料」。
-
Gemini 會根據提示回覆。回覆內容可能包括要執行的程式碼片段、專案的一般建議、達成目標的後續步驟,或是資料/程式碼中特定問題的相關資訊。
評估回覆內容後,您可以採取下列動作:
- 如果 Gemini 在回覆中提供程式碼,您可以按一下:
- 按一下「接受」,將程式碼新增至筆記本。
- 接受並執行,將程式碼新增至筆記本並執行。
- 輕觸「取消」即可刪除建議的程式碼。
- 視需要提出後續問題,繼續討論。
- 如果 Gemini 在回覆中提供程式碼,您可以按一下:
-
如要關閉「Gemini」對話方塊,請按一下「關閉」圖示
。 - 使用 k-Nearest Neighbors (KNN) 機器學習演算法,找出並填入遺漏值。
- 根據經驗等級繪製薪資圖。使用
experience_level
欄分組薪資,並為每個群組建立盒鬚圖,顯示salary_in_usd
欄中的值。 - 使用 XGBoost 演算法建立模型,判斷特定水果的
class
變數。將資料分成訓練和測試資料集,產生模型,然後評估模型的準確度。建立混淆矩陣,顯示每個類別的預測結果,包括所有正確和不正確的預測。 - 為我的資料建立 pandas DataFrame。分析資料中的空值,然後使用小提琴圖 (適用於測量值) 和長條圖 (適用於類別),將每個資料欄的分布情形視覺化。
- 讀取資料集的 CSV 檔案並建構 DataFrame,對 DataFrame 執行分析,判斷如何處理值 (取代或移除遺漏值、移除重複的資料列),並判斷每個城市地點以美元計價的投資金額分配情形。以長條圖呈現結果,並依「地點」與「平均投資金額 (美元)」的降序排列,只顯示前 20 項結果。
- 預測未來六個月的
target_variable
filename.csv
。 - 在
filename.csv
上建構及評估分類模型。target_variable
如要瞭解如何搭配 BigQuery 使用 Data Science Agent,請參閱「搭配 BigQuery 使用 Colab Enterprise Data Science Agent」。
如要進一步瞭解如何使用 Gemini 輔助功能撰寫及編輯程式碼,請參閱下列文章:
必要的角色
如要取得使用 Colab Enterprise 資料科學代理所需的權限,請要求管理員授予您專案的「Colab Enterprise 使用者」 (roles/aiplatform.colabEnterpriseUser
) IAM 角色。如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。
使用資料科學代理
如要開始使用 Colab Enterprise 的資料科學虛擬服務專員,請按照下列步驟操作:
停用 Gemini in Colab Enterprise
如要為 Google Cloud 專案停用 Gemini in Colab Enterprise,管理員必須停用 Gemini for Google Cloud API。請參閱「停用服務」。
如要為特定使用者停用 Gemini in Colab Enterprise,管理員必須撤銷該名使用者的「Gemini for Google Cloud 使用者」 (roles/cloudaicompanion.user
) 角色。詳情請參閱撤銷單一 IAM 角色。
提示範例
以下範例說明可搭配 Data Science Agent 使用的提示類型。
支援的地區
如要查看 Colab Enterprise 數據資料學虛擬服務專員支援的地區,請參閱「地點」。
帳單
在預先發布版期間,系統只會針對筆記本執行階段中執行的程式碼收費。詳情請參閱 Colab Enterprise 定價。