搭配 BigQuery 使用 Colab Enterprise Data Science Agent
Colab Enterprise 和 BigQuery 的數據資料學虛擬服務專員 (DSA) 可讓您自動執行探索性資料分析、執行機器學習工作,以及在 Colab Enterprise 筆記本中提供洞察資料。
事前準備
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Verify that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI, Dataform, and Compute Engine APIs.
- 資料科學代理程式支援下列資料來源:
- CSV 檔案
- BigQuery 資料表
- 資料科學代理產生的程式碼只會在筆記本的執行階段中執行。
- 如果專案已啟用 VPC Service Controls,則不支援使用 Data Science Agent。
- 首次執行 Data Science Agent 時,可能會出現約五到十分鐘的延遲。每個專案在初始設定期間只會發生一次。
- 生成計畫:生成及修改計畫,以完成特定工作。
- 資料探索:探索資料集以瞭解其結構、找出潛在問題 (例如缺少值和離群值),並檢查重要變數的分布情形。
- 資料清理:清理資料。舉例來說,您可以移除離群值資料點。
- 資料重整:使用 one-hot 編碼或標籤編碼等技術,將類別特徵轉換為數值表示法。建立新的分析功能。
- 資料分析:分析不同變數之間的關係。計算數值特徵之間的關聯性,並探索類別特徵的分布情形。找出資料中的模式和趨勢。
- 資料視覺化:建立直方圖、盒鬚圖、散布圖和長條圖等視覺化圖表,呈現個別變數的分布情形和變數間的關係。
- 特徵工程:從經過清理的資料集設計新特徵。
- 資料分割:將經過設計的資料集分割為訓練、驗證和測試資料集。
- 訓練模型:使用訓練資料 (
X_train
、y_train
) 訓練模型。 - 模型最佳化:使用驗證集將模型最佳化。
探索
DecisionTreeRegressor
和RandomForestRegressor
等替代模型,並比較其效能。 - 模型評估:在測試資料集 (
X_test_imputed
、y_test
) 中評估成效最佳的模型。 - 建立或開啟 Colab Enterprise 筆記本。
- 在提示中上傳 CSV 檔案或參照 BigQuery 資料表。
- 輸入提示,說明要執行的資料分析或要建構的原型。如需協助,請參閱提示範例。
- 查看結果。
前往「BigQuery」頁面
在 BigQuery Studio 歡迎頁面中,按一下「建立新項目」下方的「筆記本」。
或者,在分頁列中,按一下 + 圖示旁的下拉式箭頭 >「空白筆記本」。
,然後依序點選「筆記本」在工具列中,按一下「spark 切換 Gemini」按鈕,開啟對話方塊。
上傳 CSV 檔案。
在對話方塊中,按一下「新增檔案」。
視需要授權 Google 帳戶。
在動作窗格中,按一下
「上傳檔案」。瀏覽至 CSV 檔案所在位置,然後按一下「開啟」。
按一下檔案名稱旁邊的「更多動作」
圖示,然後選擇「新增至 Gemini」。
在對話視窗中輸入提示。例如:
Identify trends and anomalies in this file.
按一下
「傳送」。結果會顯示在聊天視窗中。
你可以要求專員變更計畫,也可以按一下「接受並執行」來執行計畫。計畫執行時,筆記本中會顯示生成的程式碼和文字。按一下「取消」即可停止。
前往「BigQuery」頁面
在 BigQuery Studio 歡迎頁面中,按一下「建立新項目」下方的「筆記本」。
或者,在分頁列中,按一下 + 圖示旁的下拉式箭頭 >「空白筆記本」。
,然後依序點選「筆記本」在工具列中,按一下「spark 切換 Gemini」按鈕,開啟對話方塊。
在對話視窗中輸入提示。舉例來說:「請協助我執行探索性資料分析,並取得這個表格中資料的洞察資訊:project_id:dataset.table。」
更改下列內容:
project_id
:您的專案 IDdataset
:包含您要分析之資料表的資料集名稱table
:您要分析的資料表名稱
按一下
「傳送」。結果會顯示在聊天視窗中。
你可以要求專員變更計畫,也可以按一下「接受並執行」來執行計畫。計畫執行時,筆記本中會顯示生成的程式碼和文字。按一下「取消」即可停止。
- 使用 K 近鄰 (KNN) 機器學習演算法,調查並填補遺漏值。
- 根據經驗程度繪製薪資圖。使用
experience_level
欄分組薪資,並為每個群組建立盒鬚圖,顯示salary_in_usd
欄中的值。 - 使用 XGBoost 演算法建立模型,判斷特定水果的
class
變數。將資料分成訓練和測試資料集,以產生模型並判斷模型的準確度。建立混淆矩陣,顯示每個類別的預測結果,包括所有正確和不正確的預測。 - 為我的資料建立 pandas DataFrame。分析空值資料,然後使用圖表類型繪製每個資料欄的分布圖。使用小提琴圖表示測量值,並使用長條圖表示類別。
- 讀取資料集的 CSV 檔案並建構 DataFrame,對 DataFrame 執行分析,判斷需要對值執行的作業 (取代或移除遺漏值、修正重複的資料列),並判斷每個城市地點的美元投資金額分配情形。以長條圖繪製結果,依地點與平均投資金額 (美元) 遞減排序,只繪製前 20 個結果。
- 預測未來六個月的
target_variable
filename.csv
。 - 在
filename.csv
上建構及評估分類模型。target_variable
如果您是 BigQuery 中的 Colab Enterprise 新手,請參閱「建立筆記本」頁面的設定步驟。
限制
何時使用資料科學虛擬服務專員
資料科學代理可協助您執行各種工作,包括探索性資料分析,以及生成機器學習預測和預報。動態搜尋廣告可用於:
在 BigQuery 中使用資料科學代理程式
下列一般步驟說明如何在 BigQuery 中使用 Data Science Agent。
分析 CSV 檔案
如要在 BigQuery 中使用 Data Science Agent 分析 CSV 檔案,請按照下列步驟操作。
分析 BigQuery 資料表
如要分析 BigQuery 資料表,請在提示中提供該資料表的參照。
提示範例
無論您使用的提示有多複雜,數據資料學虛擬服務專員都會產生計畫,您可以根據需求調整。
以下範例說明動態搜尋廣告可使用的提示類型。
關閉 Gemini in BigQuery
如要為 Google Cloud 專案停用 Gemini in BigQuery,管理員必須停用 Gemini for Google Cloud API。請參閱「停用服務」。
如要為特定使用者停用 Gemini in BigQuery,管理員必須撤銷該名使用者的「Gemini for Google Cloud 使用者」 (roles/cloudaicompanion.user
) 角色。詳情請參閱撤銷單一 IAM 角色。
定價
在預先發布版期間,系統只會針對筆記本執行階段中執行的程式碼收費。詳情請參閱 Colab Enterprise 定價。
支援的地區
如要查看 Colab Enterprise 資料科學代理程式支援的地區,請參閱「位置」。