關於代管遷移

代管遷移作業是一項自動化功能,可協助您將資料從自助式管理的 Hive Metastore 遷移至 Dataproc Metastore 服務,且不會有任何大規模停機時間 (又稱為旗幟日)。

代管遷移架構

下圖顯示受管理遷移作業的大致架構。

Dataproc Metastore 受管理遷移作業

代管遷移流程

如要完成代管遷移作業,服務會執行兩個遷移程序:「開始遷移」和「完成遷移」。你隨時可以透過「取消遷移」程序取消遷移。 您也可以執行多項作業指令,但這些指令並非完成遷移作業的必要條件。例如 list migrationsdelete migrations

服務在完成這項程序的同時,也會在各種遷移狀態遷移階段之間移動。這些狀態和階段代表在背景中發生的程序。舉例來說,MIGRATING 狀態表示服務正從 Cloud SQL 資料庫將資料轉移至 Dataproc Metastore。

開始遷移

  • Dataproc Metastore 會與您的私有 IP Cloud SQL 執行個體建立連線。連線建立後,Dataproc Metastore 會將 Cloud SQL 執行個體做為 Hive Metastore (HMS) 後端資料庫。在遷移期間,這個資料庫也會繼續做為資料的真實來源。遷移作業進行期間,Cloud SQL 仍會讀取及寫入中繼資料。

  • 系統會啟動變更資料擷取 (CDC) pipeline。這個管道會讓專案中的 Cloud SQL 執行個體,與 Dataproc Metastore 管理專案中的 Spanner 保持同步。也就是說,Cloud SQL 執行個體中 HMS 資料庫的所有變更,都會透過 Datastream 擷取並寫入 Dataproc Metastore Spanner 資料庫。

成功啟動遷移程序後,您就可以開始將資料工作負載路徑導向 Dataproc Metastore。此時,Cloud SQL 仍是資料的單一事實來源。

完成遷移

將工作負載遷移至 Dataproc Metastore 後,即可完成遷移作業。呼叫完整遷移程序時,會發生下列情況:

  • Dataproc Metastore 會進入唯讀模式,直到完整遷移程序完成為止。
  • CDC 串流會將所有傳輸中的資料轉移至 Dataproc Metastore。
  • Dataproc Metastore 會連線至 Spanner,並與 Cloud SQL 斷開連線。Dataproc Metastore 現在是 HMS 資料的單一事實來源。

Proxy 和管道注意事項

Proxy

Dataproc Metastore 會使用 Cloud SQL Auth Proxy 鏈結至 SOCKS5 Proxy,連線至您的私人 IP Cloud SQL 執行個體。SOCKS5 Proxy 伺服器會透過服務附件公開,如先前的架構圖所示。

  • 每次遷移都需要專屬的 NAT 子網路。這是因為 NAT 子網路只能有一個服務連結。

  • 為避免跨區域延遲問題,請提供與 Cloud SQL 執行個體位於相同區域的子網路,以代管 SOCKS5 Proxy。例如 proxy_subnetnat_subnet

變更資料擷取管道

變更資料擷取管道會使用虛擬私有雲對等互連,在 Datastream 和私人 IP Cloud SQL 之間建立連線

  • 每次遷移時,系統都會建立新的私人連線,並建立新的對等互連連線。

  • 如果有多個遷移作業正在進行,則代管 Cloud SQL 執行個體的虛擬私有雲網路會有相同數量的對等互連連線。請確認虛擬私有雲網路有足夠容量,可代管所有必要的對等互連連線。

後續步驟