マネージド移行について

マネージド移行は、大幅なダウンタイムなしにセルフマネージド Hive Metastore から Dataproc Metastore サービスにデータを移行する際に役立つ自動化された機能です(別名でフラグデーとしても知られています)。

マネージド移行アーキテクチャ

次の図は、マネージド移行アーキテクチャの概要を示しています。

Dataproc Metastore マネージド移行

マネージド移行フロー

マネージド移行を完了するには、サービスで移行の開始移行の完了の 2 つの移行プロセスを実行します。移行は、移行キャンセル プロセスでいつでもキャンセルできます。移行を完了するために必要ではない、実行できる操作コマンドも多数あります。たとえば、移行の一覧表示移行の削除です。

サービスがこのプロセスを通じて移動するにつれて、さまざまな移行状態と移行フェーズの間でも移動します。これらの状態とフェーズは、バックグラウンドで生起しているプロセスを表します。たとえば、MIGRATING 状態は、サービスが Cloud SQL データベースから Dataproc Metastore にデータをアクティブに転送していることを示します。

移行の開始

  • Dataproc Metastore は、プライベート IP Cloud SQL インスタンスとの接続を確立します。接続が確立されると、Dataproc Metastore は Cloud SQL インスタンスを Hive Metastore(HMS)バックエンド データベースとして使用します。また、移行中もデータの信頼できる情報源として残ります。移行がアクティブな場合でも、Cloud SQL でメタデータの読み取りと書き込みは行われます。

  • 変更データ キャプチャ パイプラインが開始されます。このパイプラインにより、プロジェクト内の Cloud SQL インスタンスと Dataproc Metastore マネージド プロジェクトの Spanner の同期が維持されます。つまり、Cloud SQL インスタンスでの HMS データベースに対するすべての変更は、Datastream を介してキャプチャされ、Dataproc Metastore Spanner データベースに書き込まれます。

移行開始プロセスが正常に完了したら、Dataproc Metastore へのデータ ワークロードのルーティングを開始できます。この時点では、まだ Cloud SQL がデータの信頼できる情報源です。

移行を完了する

Dataproc Metastore へのワークロードの移行が完了すると、移行を完了できます。移行を完了プロセスが呼び出されると、次のようになります。

  • 移行を完了プロセスが完了するまで、Dataproc Metastore は読み取り専用モードに移行します。
  • CDC ストリームでは、処理中のすべてのデータが Dataproc Metastore に転送されます。
  • Dataproc Metastore は Spanner に接続し、Cloud SQL から切断されます。Dataproc Metastore が HMS データの信頼できる情報源として機能するようになりました。

次のステップ