在 Dataform 建立及執行工作流程
本快速入門導覽課程會逐步說明如何在 Dataform 中建立工作流程,並在 BigQuery 中執行:
事前準備
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the BigQuery and Dataform APIs.
-
建立及管理存放區、工作區和工作流程調用:
Dataform 管理員 (
roles/dataform.admin
) -
在 BigQuery 中執行工作流程:
-
BigQuery 資料編輯者 (
roles/bigquery.dataEditor
) -
BigQuery 工作使用者 (
roles/bigquery.jobUser
)
-
BigQuery 資料編輯者 (
前往 Google Cloud 控制台的「Dataform」頁面。
按一下
「建立存放區」。在「建立存放區」頁面中執行下列操作:
在「Repository ID」(存放區 ID) 欄位中輸入
quickstart-repository
。在「Region」(區域) 清單中選取「
europe-west4
」。點選「建立」。
前往 Google Cloud 控制台的「Dataform」頁面。
按一下「
quickstart-repository
」。按一下「建立開發工作區」
。在「建立開發工作區」視窗中執行下列操作:
在「Workspace ID」(工作區 ID) 欄位中輸入
quickstart-workspace
。點選「建立」。
系統隨即會顯示開發工作區頁面。
按一下「Initialize workspace」(初始化工作區)。
在「Files」(檔案) 窗格中,點按
definitions/
旁的 「更多」選單。點選「建立檔案」。
在「建立新檔案」窗格中,執行下列步驟:
在「Add a file path」(新增檔案路徑) 欄位中,輸入
definitions/quickstart-source.sqlx
。點選「建立檔案」。
在「檔案」窗格中,展開定義資料夾。
按一下「
definitions/quickstart-source.sqlx
」。在檔案中輸入下列程式碼片段:
config { type: "view" } SELECT "apples" AS fruit, 2 AS count UNION ALL SELECT "oranges" AS fruit, 5 AS count UNION ALL SELECT "pears" AS fruit, 1 AS count UNION ALL SELECT "bananas" AS fruit, 0 AS count
按一下「格式」。
在「Files」(檔案) 窗格中,點按
definitions/
旁的 「更多」選單,然後選取「建立檔案」。在「Add a file path」(新增檔案路徑) 欄位中,輸入
definitions/quickstart-table.sqlx
。點選「建立檔案」。
在「檔案」窗格中,展開
definitions/
目錄。選取
quickstart-table.sqlx
,然後輸入下列資料表類型和SELECT
陳述式:config { type: "table" } SELECT fruit, SUM(count) as count FROM ${ref("quickstart-source")} GROUP BY 1
按一下「格式」。
前往 Google Cloud 控制台的「Dataform」頁面。
在
quickstart-workspace
頁面上,按一下「Start execution」(開始執行)。按一下「All actions」(所有動作)。
按一下「Start execution」(開始執行)。
在開啟的對話方塊中,按一下「允許」,授予 BigQuery Pipelines 存取 Google 帳戶的權限。
Dataform 會使用預設存放區設定,在名為
dataform
的 BigQuery 資料集中建立工作流程的內容。在
quickstart-repository
頁面上,按一下「Workflow Execution Logs」(工作流程執行記錄)。如要查看執行作業的詳細資料,請點選最新的執行作業。
前往 Google Cloud 控制台的「BigQuery」頁面。
在「Explorer」面板中展開專案,然後選取
dataform
。按一下
「Actions」(動作) 選單,然後選取「Delete」(刪除)。在「Delete dataset」(刪除資料集) 對話方塊中,在欄位輸入
delete
,然後按一下「Delete」(刪除)。前往 Google Cloud 控制台的「Dataform」頁面。
按一下「
quickstart-repository
」。在「Development workspaces」(開發工作區) 分頁,按一下
quickstart-workspace
旁的 「More」(更多) 選單,然後選取「Delete」(刪除)。按一下「Delete」(刪除) 確認操作。
前往 Google Cloud 控制台的「Dataform」頁面。
在
quickstart-repository
旁邊,按一下 「More」(更多) 選單,然後選取「Delete」(刪除)。在「Delete repository」(刪除存放區) 視窗中,輸入存放區名稱來確認刪除。
按一下「Delete」(刪除) 確認操作。
如要進一步瞭解 Dataform,請參閱 Dataform 總覽。
如要進一步瞭解 Dataform 功能,請參閱這篇文章。
如要進一步瞭解 Dataform Core,請參閱「Dataform Core 總覽」。
如要瞭解如何覆寫存放區的預設 Dataform 設定,請參閱「設定 Dataform 工作流程設定」。
如要進一步瞭解如何在 BigQuery 管理資料集,請參閱「管理資料集」。
如要進一步瞭解如何管理 BigQuery 中的資料表,請參閱「管理資料表」。
必要的角色
如要取得在 Dataform 中建立及執行工作流程所需的權限,請要求管理員在將代管 Dataform 存放區的專案中,授予您下列 IAM 角色:
如要進一步瞭解如何授予角色,請參閱「管理專案、資料夾和機構的存取權」。
建立 Dataform 存放區
建立並初始化 Dataform 開發工作區
建立檢視表
在接下來的章節中,您會定義 view,做為資料表的資料來源。
建立用來定義 view 的 SQLX 檔案
定義 view
建立資料表
接下來您將在 SQLX 檔案中定義資料表類型,然後編寫 SELECT
陳述式,在同一個檔案中定義資料表結構。
建立 SQLX 檔案來定義資料表
定義資料表類型、結構與依附元件
定義資料表類型後,Dataform 會擲回查詢驗證錯誤,因為 BigQuery 中尚不存在 quickstart-source
。稍後在本教學課程中執行工作流程時,這項錯誤就會解決。
在 BigQuery 中執行工作流程
在 Dataform 中查看執行記錄檔
清除所用資源
如要避免系統向您的 Google Cloud 帳戶收取本頁所用資源的費用,請按照下列步驟操作。
刪除在 BigQuery 中建立的資料集
如要避免系統依 BigQuery 資產收取費用,請刪除名為 dataform
的資料集。
刪除 Dataform 開發工作區
建立 Dataform 開發工作區不會產生任何費用,但如要刪除開發工作區,請按照下列步驟操作:
刪除 Dataform 存放區
建立 Dataform 存放區不會產生任何費用,但如要刪除存放區,請按照下列步驟操作: