Cloud Data Fusion が BigQuery とのリアルタイム データ統合に対応
Google Cloud Japan Team
※この投稿は米国時間 2021 年 2 月 4 日に、Google Cloud blog に投稿されたものの抄訳です。
企業では現在、リアルタイムのデータ統合、分析、アクションを求める声が高まっています。通常、これらを支える貴重なデータ(トランザクションデータと運用データ)はオンプレミスかパブリック クラウドにある従来のリレーショナル データベースに保存されていて、継続的な分析には不向きです。昔ながらの方法による移行や ETL の一括読み込みでも、データ ウェアハウスにデータを読み込むという目標は達成できますが、レイテンシが高いこうしたやり方では最新のインサイトに基づく正確な意思決定を実現できません。
Cloud Data Fusion は、クラウドネイティブのフルマネージド データ統合および取り込みサービスで、デベロッパー、データ エンジニア、ビジネス アナリストなどが効率的に ETL / ELT ジョブを構築および管理するのを支援します。本日、Data Fusion のレプリケーション アプリケーションの公開プレビューがリリースされたことをお知らせいたします。このアプリケーションを使うことで、レイテンシを低く抑えながら、SQL Server や MySQL などのトランザクション データベースやオペレーショナル データベースから直接 BigQuery にリアルタイムでデータをレプリケートできます。
ここからは、Data Fusion のレプリケーションの特長を詳しくご紹介していきます。
技術的なボトルネックを減らすことで、シチズン デベロッパーでもレプリケーションを簡単に設定できる環境を実現
Cloud Data Fusion には、ETL デベロッパーやデータ アナリストなどのシチズン デベロッパーでもデータ レプリケーションを簡単に設定できる、ウィザード形式のシンプルなインターフェースが用意されています。このインターフェースは使い勝手が良く、標準的な作りになっているため、オペレーショナル データベースのタイプごとに複雑な専用ツールを開発することなく、セルフサービスで BigQuery にデータを継続的にレプリケートできます。
実現可能性の評価と実行可能な推奨事項
レプリケーションの開始前に、スキーマの非互換性、接続性の問題、不足している機能を特定して、その是正措置を提案する評価ツールも用意されています。このツールを使うことで、ユーザーはレプリケーション中に発生する可能性のある問題を事前に把握できるため、開発と反復処理にかかる時間が短縮されます。
最新の運用データにリアルタイムで簡単にアクセスして BigQuery 内で分析を実行
変更データ キャプチャ(CDC)が、ストリーム内で変更されたデータの表現を提供するので、直近で変更されたレコードだけに焦点を当ててコンピューティング処理を行うことで、機密性の高い本番環境システムのネットワーク下り(外向き)料金が最小限に抑えられます。Data Fusion の今回のリリースでは、直接 BigQuery にログベースのレプリケーションを行うことができます。変更プロバイダである Debezium と連携することで、さまざまなデータベースの CDC ログを一般的な形式で利用できるようにしています。現在、Microsoft SQL Server(SQL Server CDC を使用)と MySQL(MySQL Binary Log を使用)に対応しています。CDC ストリームに対応しているため、Google Cloud ユーザーは BigQuery の最新データにアクセスして分析とアクションを行うことができます。
大規模なトランザクション データベースに対応できるエンタープライズ クラスのスケーラビリティ
ダウンタイムが発生しないスナップショット レプリケーションによって BigQuery への最初のデータ読み込みが行われるため、データ ウェアハウスでは継続的に変更を受け取ることができます。最初のスナップショットが完了すると、スループットの高い、変更の継続的なレプリケーションがリアルタイムで開始されます。
エンドツーエンドで運用を把握
Data Fusion には、スループット、レイテンシ、レプリケーション ジョブのエラーをモニタリングするための運用ダッシュボードも用意されています。これらのダッシュボードは、レプリケーションのパフォーマンスに関するリアルタイムの分析情報を提供します。ユーザーは潜在的なボトルネックを先回りで特定し、データ配信の SLA をモニタリングできます。
Google Cloud の主要な機能と統合を活用
現在 Data Fusion に対応しているすべての Google Cloud リージョンでレプリケーションをご利用いただけます。今回のリリースには顧客管理の暗号鍵(CMEK)と VPC-SC のサポートが含まれています。Google Cloud Platform に Cloud Data Fusion を統合することで、最高水準のエンタープライズ セキュリティとプライバシーを実現しながら、データ ウェアハウスの最新データを分析に使用できるようにしています。
今すぐレプリケーションをお試しください。まずは Data Fusion の新しいインスタンスを作成してレプリケーション アプリを追加しましょう。その際はスタートガイドをお手元にご用意ください。
-プロダクト マネージャー Bhooshan Mogal