建立管道
本文說明如何在 BigQuery 中建立管道。管道由 Dataform 提供支援。
事前準備
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery, Dataform, and Vertex AI APIs.
-
如何建立管道:
程式碼建立者 (
roles/dataform.codeCreator
) -
如要編輯及執行管道,請按照下列步驟操作:
Dataform 編輯器 (
roles/dataform.editor
) 前往「BigQuery」頁面
在「Explorer」窗格中,找出已啟用程式碼資產的專案。
按一下專案旁的
「查看動作」,然後按一下「變更預設程式碼區域」。「區域」請選取要用於程式碼資產的區域。
按一下 [選取]。
前往「BigQuery」頁面
在編輯器窗格的分頁列中,按一下「+」符號旁的
箭頭,然後點選「Pipeline」(管道)。選用:如要重新命名管道,請按一下管道名稱,然後輸入新名稱。
按一下「立即開始」,然後前往「設定」分頁標籤。
在「驗證」部分,選擇使用 Google 帳戶使用者憑證或服務帳戶授權管道。
- 如要使用 Google 帳戶使用者憑證 (預覽),請選取「以我的使用者憑證執行」。
- 如要使用服務帳戶,請選取「以所選服務帳戶執行」,然後選取服務帳戶。
在「Location」(位置) 區段中,選取管道的處理區域。
- 如要選取特定區域,請選取「區域」,然後在「區域」選單中選取區域。
- 如要選取多區域,請選取「多區域」,然後在「多區域」選單中選取多區域。
管道處理區域不一定要與程式碼資產的預設儲存區域相符。
如要在管道中新增筆記本,請在「Notebook options」(筆記本選項) 部分執行下列操作:
在「執行階段範本」欄位中,接受預設的筆記本執行階段,或搜尋並選取現有的執行階段。
- 如要查看預設執行階段的規格,請按一下旁邊的箭頭。
- 如要建立新的執行階段,請參閱建立執行階段範本。
在「Cloud Storage bucket」(Cloud Storage 值區) 欄位中,按一下「Browse」(瀏覽),然後選取或建立 Cloud Storage 值區,用於儲存管道中筆記本的輸出內容。
按照「將主體新增至值區層級政策」一文的說明,將自訂 Dataform 服務帳戶新增為主體,加入您打算用來儲存排定管線執行作業輸出的 Cloud Storage 值區,並將「儲存空間管理員」(
roles/storage.admin
) 角色授予這個主體。所選自訂 Dataform 服務帳戶必須獲得所選值區的 Storage 管理員 IAM 角色。
前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。
在「Explorer」窗格中,展開專案和「Pipelines」資料夾,然後選取管道。
如要新增程式碼資產 (例如 SQL 查詢、筆記本或資料準備),請按照下列步驟操作:
SQL 查詢
按一下「新增工作」,然後選取「查詢」。 您可以建立新查詢,或匯入現有查詢。
選用:在「Query task details」(查詢工作詳細資料) 窗格的「Run after」(在下列工作完成後執行) 選單中,選取查詢工作前要執行的工作。
查詢內容會因前一個工作而異。
建立新的查詢
按一下「編輯查詢」旁的箭頭選單
,然後選取「在內容中」或「在新分頁中」。搜尋現有查詢。
選取查詢名稱,然後按下 Enter 鍵。
按一下 [儲存]。
選用:如要重新命名查詢,請點選管道窗格中的查詢名稱,按一下「編輯查詢」,點選畫面頂端的現有查詢名稱,然後輸入新名稱。
匯入現有查詢
按一下「編輯查詢」旁的
箭頭選單,然後按一下「匯入副本」。搜尋要匯入的現有查詢,或從搜尋窗格選取現有查詢。匯入查詢時,原始查詢不會變更,因為查詢的來源檔案會複製到管道中。
按一下「編輯」開啟匯入的查詢。
按一下 [儲存]。
筆記本
按一下「新增工作」,然後選取「記事本」。 您可以建立新筆記本,或匯入現有筆記本。 如要變更筆記本執行階段範本的設定,請參閱筆記本選項。
選用步驟:在「Notebook task details」(筆記本工作詳細資料) 窗格中,選取「Run after」(在下列項目完成後執行) 選單,然後選取要先於筆記本執行的工作。
筆記本會根據前一個工作而定。
建立新筆記本
按一下「編輯記事本」旁的箭頭選單
,然後選取「在內容中」或「在新分頁中」。搜尋現有筆記本。
選取筆記本名稱,然後按下 Enter 鍵。
按一下 [儲存]。
選用:如要重新命名筆記本,請按一下管道窗格中的筆記本名稱,然後按一下「編輯筆記本」,按一下畫面頂端的現有筆記本名稱,然後輸入新名稱。
匯入現有筆記本
按一下「編輯記事本」旁的箭頭選單
,然後點選「匯入副本」。搜尋要匯入的現有筆記本,或從搜尋窗格選取現有筆記本。匯入筆記本時,原始筆記本不會有任何變更,因為筆記本的來源檔案會複製到管道中。
如要開啟匯入的筆記本,請按一下「編輯」。
按一下 [儲存]。
資料準備
按一下「新增工作」,然後選取「資料準備」。 您可以建立新的資料準備作業,也可以匯入現有作業。
選用:在「資料準備工作詳細資料」窗格的「Run after」(在下列工作完成後執行) 選單中,選取要先於資料準備工作執行的工作。
資料準備作業會因前一個工作而異。
建立新的資料準備作業
按一下「編輯資料準備」旁的箭頭選單
,然後選取「在內容中」或「在新分頁中」。搜尋現有的資料準備作業。
選取資料準備名稱,然後按 Enter 鍵。
按一下 [儲存]。
選用:如要重新命名資料準備作業,請按一下管道窗格中的資料準備作業名稱,然後依序點選「編輯資料準備作業」和畫面頂端的名稱,並輸入新名稱。
匯入現有的資料準備作業
按一下「編輯資料準備」旁的箭頭下拉式選單
,然後點選「匯入副本」。搜尋要匯入的現有資料準備作業,或從搜尋窗格選取現有資料準備作業。匯入資料準備時,原始資料不會變更,因為資料準備的來源檔案會複製到管道中。
如要開啟匯入的資料準備作業,請按一下「編輯」。
按一下 [儲存]。
前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。
在「Explorer」窗格中,展開專案和「Pipelines」資料夾,然後選取管道。
按一下選取的工作。
如要變更前置工作,請在「Run after」(在下列工作完成後執行)選單中,選取要排在查詢或筆記本之前的工作。
如要編輯所選工作的內容,請按一下「編輯」。
在新開啟的分頁中編輯工作內容,然後儲存變更。
前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。
在「Explorer」窗格中,展開專案和「Pipelines」資料夾,然後選取管道。
按一下選取的工作。
在「工作詳細資料」窗格中,按一下「刪除」圖示。
前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。
在「Explorer」窗格中,展開專案和「Pipelines」資料夾,然後選取管道。
按一下「共用」,然後選取「管理權限」。
按一下「新增使用者/群組」。
在「新增主體」欄位中,輸入至少一位使用者或群組的名稱。
在「指派角色」中選取角色。
按一下 [儲存]。
前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。
在「Explorer」窗格中,展開專案和「Pipelines」資料夾,然後選取管道。
按一下「共用」,然後選取「共用連結」。系統會將管道網址複製到電腦的剪貼簿。
前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。
在「Explorer」窗格中,展開專案和「Pipelines」資料夾,然後選取管道。
按一下「執行」。如果您在驗證時選取「使用我的使用者憑證執行」,則必須授權您的 Google 帳戶 (預覽版)。
選用:如要檢查執行作業,請查看過去的手動執行作業。
- 前往 Google 帳戶頁面。
- 按一下「BigQuery Pipelines」。
- 按一下 [移除存取權]。
- 進一步瞭解 BigQuery 管道。
- 瞭解如何管理管道。
- 瞭解如何排定管道。
管道的必要角色
如要取得建立管道所需的權限,請要求管理員將專案的下列 IAM 角色授予您:
如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。
如要進一步瞭解 Dataform IAM,請參閱「使用 IAM 控管存取權」。
筆記本選項的必要角色
如要取得在筆記本選項中選取執行階段範本所需的權限,請要求管理員授予您專案的筆記本執行階段使用者 (roles/aiplatform.notebookRuntimeUser
) IAM 角色。如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。
如果沒有這個角色,可以選取預設的筆記本執行階段規格。
設定程式碼資產的預設區域
如果您是第一次建立程式碼資產,請設定程式碼資產的預設區域。程式碼資產建立後,就無法變更區域。
BigQuery Studio 中的所有程式碼資產都使用相同的預設區域。如要設定程式碼資產的預設區域,請按照下列步驟操作:
如需可用區域清單,請參閱 BigQuery Studio 位置。
建立管道
如要建立管道,請按照下列步驟操作:
筆記本選項
新增管道工作
如要將工作新增至管道,請按照下列步驟操作:
編輯 pipeline 任務
如要編輯管道工作,請按照下列步驟操作:
刪除管道工作
如要從管道中刪除工作,請按照下列步驟操作:
分享管道
如要共用管道,請按照下列步驟操作:
分享管道連結
執行管道
如要手動執行管道的目前版本,請按照下列步驟操作:
授權給您的 Google 帳戶
如要使用Google 帳戶使用者憑證驗證資源,您必須手動授予 BigQuery 管道權限,才能取得 Google 帳戶的存取權杖,並代表您存取來源資料。您可以使用 OAuth 對話方塊介面手動核准。
您只需要授予 BigQuery 管道一次權限。
如要撤銷授予的權限,請按照下列步驟操作:
如果管道包含筆記本,您也必須手動授予 Colab Enterprise 權限,才能取得 Google 帳戶的存取權權杖,並以您的名義存取來源資料。你只需要授予一次權限。您可以在 Google 帳戶頁面撤銷這項權限。