コンテンツに移動
データ分析

Google Cloud 上に統合アナリティクス データ プラットフォームを構築

2021年8月27日
Google Cloud Japan Team

※この投稿は米国時間 2021 年 8 月 12 日に、Google Cloud blog に投稿されたものの抄訳です。

データを利用しない企業は存在しません。しかし、生成されるデータから価値を創出する方法を、すべての組織が知っているわけではありません。データドリブンな企業になるための歩みは、データ処理のための適切なエコシステムを総合的なアプローチで作り上げることから始まります。組織における従来のデータ エコシステムは、データサービスを提供するポイント ソリューションから構成されていました。しかし、多くの企業にとって、そのポイント ソリューションによるアプローチは、もはや十分ではなくなりました。

お客様から最も多く寄せられる質問の一つに、「データレイクが必要か。それともデータ ウェアハウスを検討すべきか。両方とも検討するのがおすすめか」というものがあります。これまで、これら 2 つのアーキテクチャは、特定のデータタイプとユーザー スキルセットを対象にした別個のシステムとみなされてきました。データ ウェアハウスとデータレイクの境界線は、次第にあいまいになってきています。これにより、両者の長所を取り入れた総合的なプラットフォームを構築する機会が生まれています。

何も犠牲にせず、データ収集からデータ分析、さらには機械学習に至るまでデータの管理および処理ステージ全体をカバーするエンドツーエンドのソリューションを作成するとしたら、どうなるでしょうか。さまざまなフォーマットのデータを大量に保存でき、レイテンシに関しても妥協しないデータ プラットフォームができることになります。同時に、このプラットフォームなら、データ ライフサイクル全体であらゆるユーザーのニーズを満たすことができます。

新たな傾向

どんなエンドツーエンドのデータ ソリューションの構築にも適用できるような万能のアプローチはありません。新たに、データ レイクハウス、データメッシュ、データボルトなどのコンセプトが出現しています。これらは、特定の技術的ニーズおよび組織的ニーズに対応することを目指すものです。中には、さまざまな形やフォーマットで以前から存在していたものもありますが、いずれも Google Cloud 環境内で自然に機能しています。データのイネーブルメントからチームのイネーブルメントに至るスペクトラムの両端を見てみましょう。

データメッシュは、データ所有権に対する分散型アプローチを促進します。これにより、単一の中央チームを介したデータアクセスおよびスチュワードシップを強制されることなく、個々の事業分野が標準的な方法でデータのパブリッシュとサブスクライブを行うことができます。一方、データ レイクハウスでは、元データと処理済みデータを近くにまとめることで、組織全体で必要とされる合理的な集中型データ リポジトリが可能になります。ELT によってデータの転送時に処理を行えるので、システム間でデータセットをコピーする必要がなくなります。これにより、データ探索とガバナンスが容易になります。データ レイクハウスは、信頼できる単一の情報源にデータを保管してデータのコピーの作成を最小限にとどめる役割を果たします。このアーキテクチャでは、Spark などさまざまな処理エンジンからアクセスできるオープン フォーマットで低コストのストレージが実現すると同時に、強力な管理機能と最適化機能も提供されます。また、セキュリティとガバナンスの一貫性はあらゆるレイクハウスにとって要となります。最後に、データボルトは、データドリブン アクティビティとモデルドリブン アクティビティを分離するよう設計されています。raw ボルトにデータが統合されることにより、同時読み込みが可能になり、大規模実装のスケーリングが容易になります。

Google Cloud では、それらを分離したままにする必要はありません。実際、データ分析プロダクトのポートフォリオ内での相互運用が可能なため、異なる場所に存在するデータへのアクセスを容易に提供でき、データレイクとデータ ウェアハウスが単一のプラットフォームに効率的にまとまります。

これを実現している技術革新をいくつか見てみましょう。BigQueryの Storage API では、データ ウェアハウスをデータレイクのように扱い BigQuery 内のデータにアクセスすることが可能です。たとえば、Spark を使ってデータ ウェアハウス内のデータにアクセスできます。その際、同じ場所にアクセスする他のジョブのパフォーマンスには、一切影響が及びません。これは、基盤となるアーキテクチャでコンピューティングとストレージが分離することによって実現しています。同様に、Google Cloud のインテリジェントなデータ ファブリック サービス、Dataplex は、GCS および BigQuery 上に構築されたさまざまなレイクハウス ストレージ層にデータ ガバナンスおよびセキュリティ機能を提供します。

Google は今後もデータレイクとデータ ウェアハウス機能に関連する専門的なプロダクトとソリューションを提供していきます。ただしいずれは、用語が変化するほど大々的な両システムの融合が見られるのではないかと予想しています。Google Cloud では、この組み合わせを「アナリティクス データ プラットフォーム」と考えています。

戦術的か戦略的か

Google Cloud のデータ分析プラットフォームは、オープン性、インテリジェンス、柔軟性、緊密な統合によって差別化されています。市場には、戦術的ソリューションを提供するテクノロジーが数多く存在し、それらはなじみがあって使いやすいと思われているかもしれません。しかし、これはどちらかと言えば、サイロ化したソリューションを単にクラウドにリフト&シフトするだけの短期的アプローチと考えられます。対照的に、Google Cloud 上に構築されたアナリティクス データ プラットフォームでは、Google の AI Platform と緊密に統合された最新のデータ ウェアハウジング機能とデータレイク機能が実現します。また、組み込みのストリーミング、ML、BI ユースケース向けの地理空間機能とインメモリ ソリューションも提供されます。Google Cloud には、組織データのニーズに応じた適切なデータ プラットフォーム作成に向けた一連のプロダクト、ツール、サービスをご用意しています。

ほんとうの意味でのデータドリブン組織になるための第一歩は、技術的なニーズとビジネスニーズを満たすアナリティクス データ プラットフォームの設計と実装です。組織全体にわたるデータの所有、パブリッシュ、共有を各チームで行えるようにしたい事例でも、発見しやすいよう元データと処理済みデータを合理的に保管したい事例でも、個々の企業のニーズを最も満たすソリューションは存在します。 

Google Cloud 上に構築された統合アナリティクス データ プラットフォームの要素と、プラットフォーム アーキテクチャと組織構造の違いに関する詳細については、統合アナリティクス プラットフォームのホワイトペーパーをお読みください。

-Google Cloud、AI およびスマート アナリティクス担当ソリューション マネージャー Susan Pierce

-データ アナリティクス担当 EMEA 地域ソリューション リード Firat Tekiner

投稿先