マネージド移行は、大幅なダウンタイムなしにセルフマネージド Hive Metastore から Dataproc Metastore サービスにデータを移行する際に役立つ自動化された機能です(別名でフラグデーとしても知られています)。
マネージド移行アーキテクチャ
次の図は、マネージド移行アーキテクチャの概要を示しています。
マネージド移行フロー
マネージド移行を完了するには、サービスで移行の開始と移行の完了の 2 つの移行プロセスを実行します。移行は、移行キャンセル プロセスでいつでもキャンセルできます。移行を完了するために必要ではない、実行できる操作コマンドも多数あります。たとえば、移行の一覧表示や移行の削除です。
サービスがこのプロセスを通じて移動するにつれて、さまざまな移行状態と移行フェーズの間でも移動します。これらの状態とフェーズは、バックグラウンドで生起しているプロセスを表します。たとえば、MIGRATING
状態は、サービスが Cloud SQL データベースから Dataproc Metastore にデータをアクティブに転送していることを示します。
移行の開始
Dataproc Metastore は、プライベート IP Cloud SQL インスタンスとの接続を確立します。接続が確立されると、Dataproc Metastore は Cloud SQL インスタンスを Hive Metastore(HMS)バックエンド データベースとして使用します。また、移行中もデータの信頼できる情報源として残ります。移行がアクティブな場合でも、Cloud SQL でメタデータの読み取りと書き込みは行われます。
変更データ キャプチャ(CDC)パイプラインが開始されました。このパイプラインにより、プロジェクト内の Cloud SQL インスタンスと Dataproc Metastore マネージド プロジェクトの Spanner の同期が維持されます。つまり、Cloud SQL インスタンスでの HMS データベースに対するすべての変更は、Datastream を介してキャプチャされ、Dataproc Metastore Spanner データベースに書き込まれます。
移行開始プロセスが正常に完了したら、Dataproc Metastore へのデータ ワークロードのルーティングを開始できます。この時点では、まだ Cloud SQL がデータの信頼できる情報源です。
移行を完了する
Dataproc Metastore へのワークロードの移行が完了すると、移行を完了できます。移行を完了プロセスが呼び出されると、次のようになります。
- 移行を完了プロセスが完了するまで、Dataproc Metastore は読み取り専用モードに移行します。
- CDC ストリームでは、処理中のすべてのデータが Dataproc Metastore に転送されます。
- Dataproc Metastore は Spanner に接続し、Cloud SQL から切断されます。Dataproc Metastore が HMS データの信頼できる情報源として機能するようになりました。
プロキシとパイプラインに関する考慮事項
プロキシ
Dataproc Metastore は、SOCKS5 プロキシに連結された Cloud SQL Auth プロキシを使用して、プライベート IP Cloud SQL インスタンスに接続します。SOCKS5 プロキシ サーバーは、前のアーキテクチャ図に示すように、サービス アタッチメントを介して公開されます。
各移行には、専用の NAT サブネットが必要です。これは、NAT サブネットに複数のサービス アタッチメントを設定できないためです。
リージョン間のレイテンシの問題を回避するには、SOCKS5 プロキシをホストする Cloud SQL インスタンスと同じリージョンにあるサブネットを指定します。たとえば、
proxy_subnet
やnat_subnet
です。
変更データ キャプチャ パイプライン
変更データ キャプチャ パイプラインは、VPC ピアリングを使用して Datastream とプライベート IP Cloud SQL の間の接続を確立します。
移行ごとに新しいプライベート接続が作成され、新しいピアリング接続が確立されます。
Cloud SQL インスタンスをホストしている VPC ネットワークには、アクティブな移行と同じ数のピアリング接続があります。VPC ネットワークに。必要なすべてのピアリング接続をホストするための容量があることを確認してください。