本頁面由 Cloud Translation API 翻譯而成。

Cloud Data Fusion 簡介：Studio

本頁介紹 Cloud Data Fusion Studio，這是一個可點選及拖曳的圖形介面，可從預先建構的程式庫中建構資料管道，並提供可用於設定、執行及管理管道的介面。在 Studio 中建構管道時，通常會遵循下列程序：

連結至內部部署或雲端資料來源。
準備及轉換資料。
連線至目的地。
測試管道。
執行管道。
排定及觸發管道。

設計及執行管道後，您可以在 Cloud Data Fusion 的 Pipeline Studio 頁面上管理管道：

使用偏好設定和執行階段引數，為管道設定參數，以便重複使用。
自訂運算設定檔、管理資源，並微調管道效能，以便管理管道執行作業。
編輯管道來管理管道生命週期。
使用 Git 整合功能管理管道原始碼控管。

Cloud Data Fusion Studio 中的使用者歷程

事前準備

Cloud Data Fusion：工作室總覽

工作室包含下列元件。

管理

Cloud Data Fusion 可讓您在每個執行個體中建立多個命名空間。在工作室中，管理員可以集中管理所有命名空間，或個別管理每個命名空間。

Studio 提供下列管理員控管功能：

系統管理: Studio 中的 System Admin 模組可讓您建立新的命名空間，並在系統層級定義集中的運算設定檔，這些設定可套用至該執行個體中的每個命名空間。詳情請參閱「管理 Studio 管理功能」。
命名空間管理: Studio 中的 Namespace Admin 模組可讓您管理特定命名空間的設定。您可以為每個命名空間定義運算設定檔、執行階段偏好設定、驅動程式、服務帳戶和 Git 設定。詳情請參閱「管理 Studio 管理功能」。

Pipeline Design Studio

您可以在 Cloud Data Fusion 網頁介面中的 Pipeline Design Studio 中設計及執行管道。設計及執行資料管道包含下列步驟：

連結至來源：Cloud Data Fusion 可連結至內部部署和雲端資料來源。Studio 介面提供預設的系統外掛程式，這些外掛程式已預先安裝在 Studio 中。您可以從外掛程式存放區 (稱為「Hub」) 下載其他外掛程式。詳情請參閱「外掛程式總覽」。
資料準備：Cloud Data Fusion 可讓您使用強大的資料準備外掛程式 Wrangler 準備資料。在 Studio 中針對整個資料集執行邏輯之前，Wrangler 可協助您在單一位置查看、探索及轉換小型資料樣本。這樣一來，您就能快速套用轉換作業，瞭解轉換作業對整個資料集的影響。您可以建立多個轉換，並將這些轉換加入至方程式。詳情請參閱 Wrangler 總覽。
轉換：轉換外掛程式會在資料從來源載入後進行變更，例如複製記錄、將檔案格式變更為 JSON，或使用 JavaScript 外掛程式建立自訂轉換。詳情請參閱「外掛程式總覽」。
連線至目的地：準備資料並套用轉換後，您可以連線至要載入資料的目的地。Cloud Data Fusion 支援連結至多個目的地。詳情請參閱「外掛程式總覽」。
預覽：設計管道後，您可以執行預覽工作，在部署及執行管道前先偵錯。如果遇到任何錯誤，您可以在草稿模式中修正錯誤。Studio 會使用來源資料集的前 100 列產生預覽畫面。Studio 會顯示預覽工作的狀態和時間長度。您隨時可以停止工作。您也可以在預覽工作執行時監控記錄事件。詳情請參閱「預覽資料」。
管理管道設定：預覽資料後，您可以部署管道並管理下列管道設定：
- 運算設定：您可以變更執行管道的運算資料，例如，您想要針對自訂的 Dataproc 叢集執行管道，而不是預設的 Dataproc 叢集。
- 管道設定：您可以為每個管道啟用或停用檢測功能，例如計時指標。根據預設，系統會啟用檢測功能。
- 引擎設定：Spark 是預設執行引擎。您可以為 Spark 傳遞自訂參數。
- 資源：您可以為 Spark 驅動程式和執行程式指定記憶體和 CPU 數量。驅動程式會調度管理 Spark 工作。執行緒會處理 Spark 中的資料處理作業。
- 管道快訊：您可以設定管道，在管道執行完畢後傳送快訊並開始後置處理工作。您可以在設計管道時建立管道快訊。部署管道後，您可以查看警示。如要變更快訊設定，您可以編輯管道。
- 轉換下推：如果您希望管道在 BigQuery 中執行特定轉換，可以啟用轉換下推。
詳情請參閱「管理管道設定」。
使用巨集、偏好設定和執行階段引數重複使用管道：Cloud Data Fusion 可讓您重複使用資料管道。有了可重複使用的資料管道，您就能透過單一管道，將資料整合模式套用至各種用途和資料集。可重複使用的管道可提供更佳的管理性。您可以在執行時設定管道的大部分設定，而非在設計時硬式編碼。在 Pipeline Design Studio 中，您可以使用巨集將變數新增至外掛程式設定，以便在執行階段指定變數替代字元。詳情請參閱「管理巨集、偏好設定和執行階段引數」。
執行：查看管道設定後，您可以啟動管道執行作業。您可以在管道執行階段期間查看狀態變更，例如佈建、啟動、執行和成功。
排程和協調：可以設定批次資料管道，按照指定的時間表和頻率執行。建立及部署管道後，您可以建立排程。在 Pipeline Design Studio 中，您可以建立批次資料管道觸發條件，在管道執行完畢後執行管道，藉此協調管道。這就是所謂的下游和上游管道。您可以在下游管道上建立觸發條件，讓管道根據一或多個上游管道的完成情況執行。

建議做法：您也可以使用 Composer 在 Cloud Data Fusion 中自動調度管道。詳情請參閱「排程管道」和「協調管道」。
編輯管道：Cloud Data Fusion 可讓您編輯已部署的管道。編輯已部署的管道時，系統會建立同名的新管道版本，並將其標示為最新版本。這可讓您以逐步的方式開發管道，而非複製管道，因為複製管道會建立名稱不同的新管道。詳情請參閱「編輯管道」。
原始碼控管：Cloud Data Fusion 可讓您透過使用 GitHub 管理管道的來源控管，更妥善地管理開發和實際作業環境之間的管道。
記錄和監控：如要監控管道指標和記錄，建議您啟用 Stackdriver 記錄服務，以便搭配 Cloud Data Fusion 管道使用 Cloud Logging。

後續步驟

進一步瞭解如何管理 YouTube 工作室的管理員。