コンテンツに移動
データ分析

BigQuery Omni の新機能、クロスクラウド転送を使ってデータサイロを解消

2022年12月9日
https://storage.googleapis.com/gweb-cloudblog-publish/images/da_2022_664XTb0.max-2500x2500.jpg
Google Cloud Japan Team

※この投稿は米国時間 2022 年 12 月 2 日に、Google Cloud blog に投稿されたものの抄訳です。

Google は 2021 年、データサイロの解消を支援するために BigQuery Omni をリリースしました。BigQuery Omni は、世界中の組織で、複数のクラウド環境にまたがるデータの分析に使用されています。そして今、私たちはマルチクラウド分析に大きな進化をもたらします。それがクロスクラウド分析です。アナリストとデータ サイエンティストは、クロスクラウド分析ツールを使って、異なるクラウド間で簡単かつ安全、しかも費用対効果の高い方法でデータを分散させて、希望する分析ツールを利用できます。2022 年 4 月、Google は SQL に対応した LOAD ステートメントのプレビュー版を公開しました。これは AWS / Azure の blob データをマネージド テーブルとして BigQuery に取り込んで高度な分析を行えるようにするものです。このプレビュー期間中にさまざまなことが明らかになりました。特に目を引くものをご紹介します。

  1. クロスクラウドの操作は、アナリストがどこにいても行えるようにする必要がある。アナリストが分散されたデータを扱うには、ワークスペースがサイロ化されていないことが必要です。アナリストが、データのコピーまたは権限の設定、付与を行うために SQL ワークスペースを離れることを求められると、ワークフローが崩れ、インサイトが失われます。同じ SQL で、BigQuery のスケジュールされたクエリを使って定期的にデータをコピーすることもできます。SQL で管理可能なワークフローが多ければ多いほど良いのです。

  2. ネットワークは実装の詳細であり、レイテンシも同様である。操作が終了するのをアナリストが待つ時間が長くなるほど、ワークフロー全体がエンドツーエンドで完了する可能性が低くなります。BigQuery のユーザーは一つの操作に高いパフォーマンスを期待します。それは複数のデータセンターにまたがって管理される操作であっても同様です。

  3. データの民主化はセキュリティを犠牲にして成り立つものではない。データ管理者は、データ アナリストとエンジニアに権限を与えるうえで、リスクが増大しないようにする必要があります。放っておくと、データ管理者とセキュリティ チームは、クラウド境界間のユーザー認証情報が堅持されないようなソリューションを模索するようになります。

  4. 費用管理には費用の透明性が求められる。データ転送の費用は高くなることがあります。マルチクラウドでデータを扱う組織にとって、これが最大の懸念だという話も頻繁に耳にします。個々の操作と請求書を統合させ、透明性を実現することは、クロスクラウドの操作が有効に行われるようになるために欠かせません。管理者が予算編成のために、費用に上限を設定できるようにすることは必須です。

このフィードバックを受けて、Google は今年、クロスクラウド転送プロダクトを改良することに多くの時間を割き、次のような中核的要素についてリリースを最適化してきました。

  • ユーザビリティ: LOAD SQL では、データのフィルタリングと読み込みを、同じエディタで、クラウドをまたいで行うことができます。LOAD SQL は JSON、CSV、AVRO、ORC、PARQUET などのデータ形式に対応しています。テーブルの追加と切り捨ての両方のセマンティクスを使うことで、LOAD は定期的同期とテーブル セマンティクス全体の更新の両方に対応しています。Hive パーティショニングや JSON データ型のようなデータレイクの標準形式も SQL で扱えるようになりました。  

  • セキュリティ: フェデレーション ID モデルでは、データアクセスやコピーのための認証情報をクラウド プロバイダ間で共有または保存する必要がありません。宛先テーブルの CMEK サポートにも対応するようになりました。これにより、データが BigQuery や VPC-SC の境界に書き込まれる際のデータの安全性が向上し、データの漏洩リスクが低減されるようになりました。

  • レイテンシ: データの移動は BigQuery Write API で管理されるため、ユーザーは複雑なパイプを待つことなく、必要なデータだけを簡単に移動できます。最も一般的な読み込みジョブについて、ジョブのレイテンシが大幅に短縮されました。パフォーマンスは日に日に向上しています。

  • 費用の監査可能性: 請求書一つで、クロスクラウドの LOAD を使った計算と転送の費用がすべてわかります。ジョブごとに統計情報が示されるので、予算の管理に有効です。

プレビュー期間中、どのようにすればクロスクラウド転送を利用して、分析情報を取得するまでの時間を短縮し、データチームに価値を提供できるようになるのかを示す良い実例が明らかになりました。

クロスクラウド アーキテクチャを使い始めるのは難しいように感じるかもしれません。しかし、クロスクラウド転送では、全面的な移行を行わずにデータの一部を移行することが可能なため、概念実証を迅速に開始するのに役立ちます。Kargo はクロスクラウド転送を利用して BigQuery のパフォーマンス テストに要する時間を短縮しました。「今年初め、BigQuery の概念実証の試みとしてクロスクラウド転送を試用しました。ユーザビリティとパフォーマンスの有効性も概念実証で確認しました」と、Kargo のエンジニアリング担当マネージャーである Dinesh Anchan 氏は話します。

このサービスを使って、主要なデータセットをクラウド間で結合する例もありました。お客様に共通する問題の一つは、クロスクラウドで行う請求データの管理です。blob ストレージ用に提供時にスキーマが変化するファイルの統合に、クロスクラウド転送が使用されています。「クロスクラウド転送を使ってみて気に入りました。GCP、AWS、Azure をまたいで請求ファイルを統合することができました。SQL ステートメントを使って請求ファイルを BigQuery に読み込めるクロスクラウド転送は、素晴らしいソリューションです」と、大手研究機関のエンジニアリング リードは話します。

BigQuery Omni の数あるクロスクラウド機能の中でも、最初の機能をリリースすることになりました。Google Cloud Next のセッションをぜひご覧ください。Omni テーブルやローカルの変換への対応など、マルチクラウド分析の分野で行われる今後のリリースが紹介されています。アナリストやデータ サイエンティスト必見の内容です。Google がクロスクラウドに注力しているのは、クラウドの境界がイノベーションの妨げになってはならないからです。今後も関連情報をぜひご覧ください。

リリース情報と料金

クロスクラウド転送は、すべての BigQuery Omni リージョンで利用できるようになりました。データ転送の費用については、BigQuery Omni の料金ページをご覧ください。

ご利用方法

アナリストにとって、かつてクラウド間のデータ転送がこれほど簡単だったことはありません。スタートガイド(AWS / Azure)をご覧になって、SQL のこの機能をお試しください。限定トライアルとして、BigQuery をご利用のお客様は BigQuery Omni を無料でお試しいただけます。オンデマンド バイトスキャンを使って、2022 年 9 月 15 日から 2023 年 3 月 31 日までの間(試用期間)、AWS / Azure でテータスキャンができます。ご注意: この場合も、クロスクラウド転送のデータ転送料金は適用されます。


- データ分析担当プロダクト マネージャー Joe Malone
- テクニカル リード Rushabh Desai
投稿先