建立管道

本文說明如何在 BigQuery 中建立管道。管道由 Dataform 提供支援。

事前準備

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Make sure that billing is enabled for your Google Cloud project.

  4. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Make sure that billing is enabled for your Google Cloud project.

  7. Enable the BigQuery, Dataform, and Vertex AI APIs.

    Enable the APIs

  8. 管道的必要角色

    如要取得建立管道所需的權限,請要求管理員將專案的下列 IAM 角色授予您:

    如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。

    您或許還可透過自訂角色或其他預先定義的角色取得必要權限。

    如要進一步瞭解 Dataform IAM,請參閱「使用 IAM 控管存取權」。

    筆記本選項的必要角色

    如要取得在筆記本選項中選取執行階段範本所需的權限,請要求管理員授予您專案的筆記本執行階段使用者 (roles/aiplatform.notebookRuntimeUser) IAM 角色。如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。

    您或許還可透過自訂角色或其他預先定義的角色取得必要權限。

    如果沒有這個角色,可以選取預設的筆記本執行階段規格。

    設定程式碼資產的預設區域

    如果您是第一次建立程式碼資產,請設定程式碼資產的預設區域。程式碼資產建立後,就無法變更區域。

    BigQuery Studio 中的所有程式碼資產都使用相同的預設區域。如要設定程式碼資產的預設區域,請按照下列步驟操作:

    1. 前往「BigQuery」頁面

      前往 BigQuery

    2. 在「Explorer」窗格中,找出已啟用程式碼資產的專案。

    3. 按一下專案旁的 「查看動作」,然後按一下「變更預設程式碼區域」

    4. 「區域」請選取要用於程式碼資產的區域。

    5. 按一下 [選取]。

    如需可用區域清單,請參閱 BigQuery Studio 位置

    建立管道

    如要建立管道,請按照下列步驟操作:

    1. 前往「BigQuery」頁面

      前往 BigQuery

    2. 在編輯器窗格的分頁列中,按一下「+」符號旁的箭頭,然後點選「Pipeline」(管道)

    3. 選用:如要重新命名管道,請按一下管道名稱,然後輸入新名稱。

    4. 按一下「立即開始」,然後前往「設定」分頁標籤。

    5. 在「驗證」部分,選擇使用 Google 帳戶使用者憑證或服務帳戶授權管道。

      • 如要使用 Google 帳戶使用者憑證 (預覽),請選取「以我的使用者憑證執行」
      • 如要使用服務帳戶,請選取「以所選服務帳戶執行」,然後選取服務帳戶。
    6. 在「Location」(位置) 區段中,選取管道的處理區域。

      1. 如要選取特定區域,請選取「區域」,然後在「區域」選單中選取區域。
      2. 如要選取多區域,請選取「多區域」,然後在「多區域」選單中選取多區域。

      管道處理區域不一定要與程式碼資產的預設儲存區域相符。

    筆記本選項

    1. 如要在管道中新增筆記本,請在「Notebook options」(筆記本選項) 部分執行下列操作:

      1. 在「執行階段範本」欄位中,接受預設的筆記本執行階段,或搜尋並選取現有的執行階段。

        • 如要查看預設執行階段的規格,請按一下旁邊的箭頭。
        • 如要建立新的執行階段,請參閱建立執行階段範本
      2. 在「Cloud Storage bucket」(Cloud Storage 值區) 欄位中,按一下「Browse」(瀏覽),然後選取或建立 Cloud Storage 值區,用於儲存管道中筆記本的輸出內容。

      3. 按照「將主體新增至值區層級政策」一文的說明,將自訂 Dataform 服務帳戶新增為主體,加入您打算用來儲存排定管線執行作業輸出的 Cloud Storage 值區,並將「儲存空間管理員」(roles/storage.admin) 角色授予這個主體。

        所選自訂 Dataform 服務帳戶必須獲得所選值區的 Storage 管理員 IAM 角色。

    新增管道工作

    如要將工作新增至管道,請按照下列步驟操作:

    1. 前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。

      前往 BigQuery

    2. 在「Explorer」窗格中,展開專案和「Pipelines」資料夾,然後選取管道。

    3. 如要新增程式碼資產 (例如 SQL 查詢、筆記本或資料準備),請按照下列步驟操作:

      SQL 查詢

      1. 按一下「新增工作」,然後選取「查詢」。 您可以建立新查詢,或匯入現有查詢。

      2. 選用:在「Query task details」(查詢工作詳細資料) 窗格的「Run after」(在下列工作完成後執行) 選單中,選取查詢工作前要執行的工作。

        查詢內容會因前一個工作而異。

      建立新的查詢

      1. 按一下「編輯查詢」旁的箭頭選單 ,然後選取「在內容中」或「在新分頁中」

      2. 搜尋現有查詢。

      3. 選取查詢名稱,然後按下 Enter 鍵。

      4. 按一下 [儲存]

      5. 選用:如要重新命名查詢,請點選管道窗格中的查詢名稱,按一下「編輯查詢」,點選畫面頂端的現有查詢名稱,然後輸入新名稱。

      匯入現有查詢

      1. 按一下「編輯查詢」旁的箭頭選單,然後按一下「匯入副本」

      2. 搜尋要匯入的現有查詢,或從搜尋窗格選取現有查詢。匯入查詢時,原始查詢不會變更,因為查詢的來源檔案會複製到管道中。

      3. 按一下「編輯」開啟匯入的查詢。

      4. 按一下 [儲存]

      筆記本

      1. 按一下「新增工作」,然後選取「記事本」。 您可以建立新筆記本,或匯入現有筆記本。 如要變更筆記本執行階段範本的設定,請參閱筆記本選項

      2. 選用步驟:在「Notebook task details」(筆記本工作詳細資料) 窗格中,選取「Run after」(在下列項目完成後執行) 選單,然後選取要先於筆記本執行的工作。

        筆記本會根據前一個工作而定。

      建立新筆記本

      1. 按一下「編輯記事本」旁的箭頭選單 ,然後選取「在內容中」或「在新分頁中」

      2. 搜尋現有筆記本。

      3. 選取筆記本名稱,然後按下 Enter 鍵。

      4. 按一下 [儲存]

      5. 選用:如要重新命名筆記本,請按一下管道窗格中的筆記本名稱,然後按一下「編輯筆記本」,按一下畫面頂端的現有筆記本名稱,然後輸入新名稱。

      匯入現有筆記本

      1. 按一下「編輯記事本」旁的箭頭選單 ,然後點選「匯入副本」

      2. 搜尋要匯入的現有筆記本,或從搜尋窗格選取現有筆記本。匯入筆記本時,原始筆記本不會有任何變更,因為筆記本的來源檔案會複製到管道中。

      3. 如要開啟匯入的筆記本,請按一下「編輯」

      4. 按一下 [儲存]

      資料準備

      1. 按一下「新增工作」,然後選取「資料準備」。 您可以建立新的資料準備作業,也可以匯入現有作業。

      2. 選用:在「資料準備工作詳細資料」窗格的「Run after」(在下列工作完成後執行) 選單中,選取要先於資料準備工作執行的工作。

        資料準備作業會因前一個工作而異。

      建立新的資料準備作業

      1. 按一下「編輯資料準備」旁的箭頭選單 ,然後選取「在內容中」或「在新分頁中」

      2. 搜尋現有的資料準備作業。

      3. 選取資料準備名稱,然後按 Enter 鍵。

      4. 按一下 [儲存]

      5. 選用:如要重新命名資料準備作業,請按一下管道窗格中的資料準備作業名稱,然後依序點選「編輯資料準備作業」和畫面頂端的名稱,並輸入新名稱。

      匯入現有的資料準備作業

      1. 按一下「編輯資料準備」旁的箭頭下拉式選單 ,然後點選「匯入副本」

      2. 搜尋要匯入的現有資料準備作業,或從搜尋窗格選取現有資料準備作業。匯入資料準備時,原始資料不會變更,因為資料準備的來源檔案會複製到管道中。

      3. 如要開啟匯入的資料準備作業,請按一下「編輯」

      4. 按一下 [儲存]

    編輯 pipeline 任務

    如要編輯管道工作,請按照下列步驟操作:

    1. 前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。

      前往 BigQuery

    2. 在「Explorer」窗格中,展開專案和「Pipelines」資料夾,然後選取管道。

    3. 按一下選取的工作。

    4. 如要變更前置工作,請在「Run after」(在下列工作完成後執行)選單中,選取要排在查詢或筆記本之前的工作。

    5. 如要編輯所選工作的內容,請按一下「編輯」

    6. 在新開啟的分頁中編輯工作內容,然後儲存變更。

    刪除管道工作

    如要從管道中刪除工作,請按照下列步驟操作:

    1. 前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。

      前往 BigQuery

    2. 在「Explorer」窗格中,展開專案和「Pipelines」資料夾,然後選取管道。

    3. 按一下選取的工作。

    4. 在「工作詳細資料」窗格中,按一下「刪除」圖示。

    分享管道

    如要共用管道,請按照下列步驟操作:

    1. 前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。

      前往 BigQuery

    2. 在「Explorer」窗格中,展開專案和「Pipelines」資料夾,然後選取管道。

    3. 按一下「共用」,然後選取「管理權限」

    4. 按一下「新增使用者/群組」

    5. 在「新增主體」欄位中,輸入至少一位使用者或群組的名稱。

    6. 在「指派角色」中選取角色。

    7. 按一下 [儲存]

    1. 前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。

      前往 BigQuery

    2. 在「Explorer」窗格中,展開專案和「Pipelines」資料夾,然後選取管道。

    3. 按一下「共用」,然後選取「共用連結」。系統會將管道網址複製到電腦的剪貼簿。

    執行管道

    如要手動執行管道的目前版本,請按照下列步驟操作:

    1. 前往 Google Cloud 控制台的「BigQuery」BigQuery頁面。

      前往 BigQuery

    2. 在「Explorer」窗格中,展開專案和「Pipelines」資料夾,然後選取管道。

    3. 按一下「執行」。如果您在驗證時選取「使用我的使用者憑證執行」,則必須授權您的 Google 帳戶 (預覽版)。

    4. 選用:如要檢查執行作業,請查看過去的手動執行作業

    授權給您的 Google 帳戶

    如要使用Google 帳戶使用者憑證驗證資源,您必須手動授予 BigQuery 管道權限,才能取得 Google 帳戶的存取權杖,並代表您存取來源資料。您可以使用 OAuth 對話方塊介面手動核准。

    您只需要授予 BigQuery 管道一次權限。

    如要撤銷授予的權限,請按照下列步驟操作:

    1. 前往 Google 帳戶頁面
    2. 按一下「BigQuery Pipelines」
    3. 按一下 [移除存取權]

    如果管道包含筆記本,您也必須手動授予 Colab Enterprise 權限,才能取得 Google 帳戶的存取權權杖,並以您的名義存取來源資料。你只需要授予一次權限。您可以在 Google 帳戶頁面撤銷這項權限。

    後續步驟