BigQuery Migration Service を使用してデータ ウェアハウスの移行を簡素化し、速やかに実現する方法
Google Cloud Japan Team
※この投稿は米国時間 2022 年 10 月 5 日に、Google Cloud blog に投稿されたものの抄訳です。
クラウドへのデータ移行は大変な作業です。特に、データ ウェアハウスや従来の環境からデータを移行する場合は、体系的なアプローチが必要です。通常、このような移行には手動で行う作業があり、ミスが発生しやすくなります。移行作業は複雑で、計画、システムのセットアップ、クエリの変換、スキーマの分析、データの移動、検証、パフォーマンスの最適化など、いくつものステップを伴います。移行のリスクを軽減するには、構造化されたアプローチと、結果を予測しやすくするための一貫性のあるツールセットが必要です。
典型的なデータ ウェアハウスの移行: ミスが発生しやすく、手間がかかり、試行錯誤が必要
Google Cloud では、BigQuery Migration Service を使用することで移行を簡素化します。BigQuery Migration Service は、移行の確実な計画と実行を可能にし、結果を予測しやすくする一連のマネージド ツールです。無料で使用でき、高い精度で一貫性のある結果を得ることができます。
PayPal、HSBC、Vodafone、Major League Baseball などの大手ブランドが、BigQuery Migration Service を使用して、BigQuery の力を引き出し、新しいユースケースをデプロイし、データサイロを解消し、データの潜在能力を最大限に活用するまでにかかる時間を短縮しています。BigQuery Migration Service は使い方が非常に簡単で、オープンかつカスタマイズ可能です。そのため、お客様はご自身で移行することも、Google の幅広い移行専門パートナーから選択することもできます。
BigQuery Migration Service は、移行のほとんどのプロセスを自動化します。エンドツーエンドの移行プロセスを、評価、SQL 変換、データ転送、検証の 4 つのコンポーネントに分割します。ユーザーは、これらの各フェーズで、いくつかのボタンを押すだけで移行を加速することができます。このブログでは、これらの各フェーズを詳しく見ていくとともに、データ ウェアハウスの移行のリスクとコストを削減する方法をご説明します。
ステップ 1: 評価
BigQuery Migration Service は、ソース ワークロードのログとメタデータをプロファイリングして、BigQuery での依存関係、リスク、最適化された移行状態を示した詳細な計画を作成します。
評価フェーズでは、BigQuery Migration Service の直感的なインターフェースに従って一連のステップを進めていくと、豊富な分析情報と実行可能なステップが含まれた Google データポータル レポートが自動的に作成されます。評価機能は、現在 Teradata と Redshift でご利用いただけます。近日中に他のソースにも拡張される予定です。
ステップ 2: SQL 変換
このフェーズは、多くの場合に移行プロセスの中でも最も難しい部分になります。BigQuery Migration Service は、ほとんどの SQL フレーバーを BigQuery へ、意味的に正しく、人間が判読できる形式にすばやく変換します。Amazon Redshift SQL、Apache HiveQL、Apache Spark SQL、Azure Synapse T-SQL、IBM Netezza SQL/NZPLSQL、MySQL、Oracle SQL/PL/SQL/Exadata、Presto SQL、PostgreSQL、Snowflake SQL、SQL Server T-SQL、Teradata SQL/SPL/BTEQ、Vertica SQL から、高スループットのバッチモードと Google 翻訳のようなインタラクティブ モードで、SQL ステートメントをインテリジェントに変換できます。
正規表現を解析するほとんどの既存のサービスとは異なり、BigQuery の SQL 変換は真にコンパイラ ベースであり、マクロ置換、ユーザー定義関数、出力名マッピング、その他のソース コンテキストに応じた細かい内容を扱うための高度でカスタマイズ可能な機能が用意されています。出力は詳細にわたり、「次のアクション」が明確に示されています。データ エンジニアとデータ アナリストは、業界をリードする自動化された SQL 変換サービスを活用することで、膨大な時間を節約できます。
ステップ 3: データ転送
BigQuery は、ソースシステムから BigQuery へのデータ転送サービスを、ガイド付きのシンプルなウィザードで提供します。ユーザーは転送構成を作成し、プルダウン リストからデータソースを選択します。
[転送先の設定] では、データソースへの接続オプションへとユーザーを案内し、安全にソースシステムとターゲット システムに接続します。
BigQuery のデータ転送で重要な機能として、ジョブのスケジュール機能があります。大規模なデータ転送は、オペレーション システムに大きな負担となり、データソースに影響を及ぼす可能性があります。BigQuery Migration Service では、転送ジョブをユーザーが指定した時間に実行するように柔軟にスケジュールして、本番環境に悪影響が生じないようにすることができます。
ステップ 4: 検証
このフェーズでは、移行の完了後に、移行元のソースと BigQuery のデータの整合性を確認します。検証では、柔軟な構成とオーケストレーションが可能なルールを使用して、移行元のソースと BigQuery との間で、行単位、列単位、またはテーブル単位で左から右へのきめ細かい比較を行うことができます。ラベル付け、集約、グループ化、フィルタリングによって、詳細な検証を行うことができます。
今後の概念実証や移行に BigQuery Migration Service の活用をご希望の場合は、GCP パートナーか GCP の営業担当にお問い合わせください。または、Google Cloud のドキュメントをご覧になり、ご自身でお試しください。
- Google Cloud プロダクト マネージャー Mohit Virendra
- Google Cloud プロダクト マネージャー Sami Akbay