データ分析

アーキテクチャの集約: データレイクとデータウェアハウスの集約

2021年9月9日

Google Cloud Japan Team

※この投稿は米国時間 2021 年 8 月 26 日に、Google Cloud blog に投稿されたものの抄訳です。

長い間、データウェアハウスの管理は難題となっていました。過去 40 年間ほどは良好に機能していた従来のオンプレミスシステムは、経費が高額であることが明らかになったほか、データの更新頻度、スケーリング、高コストといった多くの課題を抱えています。また、最新のビジネスで必要とされる AI 機能やリアルタイム機能の提供が容易ではありません。このような状況は、クラウドで新たに作り上げたデータウェアハウスにさえ見られます。それらのデータウェアハウスは、最新のデータウェアハウスであるという証拠や主張を提示しているものの、いまだに AI 機能を備えていません。実際のところ、従来のオンプレミス環境をクラウドに持ち込み、バージョンアップやバージョン変更を施したにすぎません。

オンプレミスのデータレイクも、別の課題を抱えています。このようなデータレイクは、各種の資料上では多数の利点を誇り、低コストであることやスケーリング能力に優れていることを謳っています。しかし、実際には投下した資本に見合う価値を実現していません。その原因は、主にこのようなデータレイクの運用化、生産性実現、有効利用が容易ではないことにあります。また、これにより、総合的な所有コスト総額が膨らむことになります。データレイクによって発生する顕著なデータガバナンスの問題もあります。既存の IAM モデルやセキュリティモデルとデータレイクは良好に連携できません。さらに、データレイクのデータは、Hadoop 環境との共有が容易ではないことから、サイロ化する結果になります。

最終的に選ぶものはさまざまですが、お客様は意味のある選択をしようとします。それは純粋なデータウェアハウスであることもあれば、純粋なデータレイク、またはこの 2 つの組み合わせであることもあります。これにより、実際のデータとユースケースを扱う現実のお客様はほぼ例外なくトレードオフに直面することになります。したがって、このような過去の手法により設定されるモデルでは、組織の中の各チームがデータレイクをばらばらに立ち上げるという状況が必然的に発生していました。また、このようなデータレイクの間が相互に接続されていない、ということもしばしばありました。この結果、データウェアハウスのユーザーとデータレイクのユーザーとの間に使用状況の違いが発生します。

データウェアハウスのユーザーは、ビジネス重視の傾向を示し、分析の改善方法に関するアイデアを持っていますが、多くの場合、ビジネスを詳細に分析して深い知見を導き出す能力は持っていません。一方、データレイクのユーザーは元データ重視であり、データを分析するツールと能力を有しています。分析に多くの時間をかけているために、こうしたユーザーはデータそのものに重点を置いており、ビジネスに目を向けることは多くありません。このような分断は、高収益、低コスト、低リスク、新たな商機につながるはずの知見を得る機会をビジネスから奪います。

以来、この 2 つのシステムは、企業の主要な 2 つのデータアナリティクスシステムとして共存し、相互に補完して、共有する IT 環境で同じ地位を保っていました。また、ビジネスのあらゆるデジタルトランスフォーメーションと全面的なデータドリブン環境への移行の中核にあるデータシステムでもあります。従来のオンプレミスシステムからクラウドと SaaS のソリューションに移行する組織が増加するに伴い、集約を進めたアナリティクスプラットフォームの実現に向けて、企業がこれらのシステムの境界を再考する時期に来ています。

このような再考は、データレイクとデータウェアハウスの集約のほか、複数の組織にわたるデータチームの集約にもつながっています。クラウドは、このような集約を促すマネージドサービスを提供します。これにより、あらゆるデータ要員が、データシステムが何であっても、そこにあるデータから見識と価値を得ることができるようになります。データレイクとデータウェアハウスを集約した環境による利点はさまざまな形態で現れます。このような利点の多くは、管理されているスケーラブルなサーバーレステクノロジーを提供する能力によって生まれます。その結果、ストレージとコンピューティングの概念上の違いは曖昧になります。データの保存場所や保存形式の明示的な管理はもはや重要ではなくなっています。インフラストラクチャの制限に煩わされることなく、誰でもデータにアクセスできるように、ユーザーが「民主化」されます。データを使用するユーザーから見れば、データがデータレイクにあるかデータウェアハウスにあるかは特に問題ではありません。どのシステムからデータが得られているかを気にとめるユーザーもいません。ユーザーにとって重要なことは、どのようなデータがあって、それが信用できるかどうかです。どの程度の量のデータを取り込むことができるか、その取り込みがリアルタイムであるかどうかも重要です。また、ユーザーは、さまざまなデータストアでデータを発見し、管理しているほか、サイロ化した環境から統合されたデータエコシステムにデータを移動しています。最も重要なことは、あらゆる人々やツールがデータを分析でき、処理できることです。

Google は、クラウドネイティブでスケーラビリティとセキュリティに優れた集約済みソリューションを Google Cloud で提供し、幅広い選択肢と優れた相互運用性をお客様にお届けしています。Google のクラウドネイティブアーキテクチャは、コスト削減と効率向上を組織に実現します。たとえば、BigQuery によるストレージとコンピューティングの全面的な分離機能を使用すると、連携クエリを通じて BigQuery コンピューティングを他のストレージメカニズムに持ち込むことができます。BigQuery Storage API を使用すると、データウェアハウスをデータレイクのように扱うことができます。これにより、BigQuery に存在するデータにアクセスできます。たとえば、Spark を使用して、データウェアハウスに置かれたデータにアクセスできますが、そのデータにアクセスしている他のどのジョブのパフォーマンスも影響を受けません。さらに、Google のインテリジェントなデータファブリックサービスである Dataplex は、GCS と BigQuery 上に構築されたさまざまなストレージ階層にわたり、データのガバナンスとセキュリティの機能を提供します。

データウェアハウスとデータレイクの集約からは多数の利点が得られます。その詳細については、こちらのホワイトペーパーをご覧ください。

-データ分析担当 EMEA 地域ソリューションリード Firat Tekiner

-Google Cloud、アナリティクスデータプラットフォーム担当ソリューションマネージャー Susan Pierce

投稿先