アーキテクチャの集約: データレイクとデータ ウェアハウスの集約
Google Cloud Japan Team
※この投稿は米国時間 2021 年 8 月 26 日に、Google Cloud blog に投稿されたものの抄訳です。
長い間、データ ウェアハウスの管理は難題となっていました。過去 40 年間ほどは良好に機能していた従来のオンプレミス システムは、経費が高額であることが明らかになったほか、データの更新頻度、スケーリング、高コストといった多くの課題を抱えています。また、最新のビジネスで必要とされる AI 機能やリアルタイム機能の提供が容易ではありません。このような状況は、クラウドで新たに作り上げたデータ ウェアハウスにさえ見られます。それらのデータ ウェアハウスは、最新のデータ ウェアハウスであるという証拠や主張を提示しているものの、いまだに AI 機能を備えていません。実際のところ、従来のオンプレミス環境をクラウドに持ち込み、バージョン アップやバージョン変更を施したにすぎません。
オンプレミスのデータレイクも、別の課題を抱えています。このようなデータレイクは、各種の資料上では多数の利点を誇り、低コストであることやスケーリング能力に優れていることを謳っています。しかし、実際には投下した資本に見合う価値を実現していません。その原因は、主にこのようなデータレイクの運用化、生産性実現、有効利用が容易ではないことにあります。また、これにより、総合的な所有コスト総額が膨らむことになります。データレイクによって発生する顕著なデータ ガバナンスの問題もあります。既存の IAM モデルやセキュリティ モデルとデータレイクは良好に連携できません。さらに、データレイクのデータは、Hadoop 環境との共有が容易ではないことから、サイロ化する結果になります。
最終的に選ぶものはさまざまですが、お客様は意味のある選択をしようとします。それは純粋なデータ ウェアハウスであることもあれば、純粋なデータレイク、またはこの 2 つの組み合わせであることもあります。これにより、実際のデータとユースケースを扱う現実のお客様はほぼ例外なくトレードオフに直面することになります。したがって、このような過去の手法により設定されるモデルでは、組織の中の各チームがデータレイクをばらばらに立ち上げるという状況が必然的に発生していました。また、このようなデータレイクの間が相互に接続されていない、ということもしばしばありました。この結果、データ ウェアハウスのユーザーとデータレイクのユーザーとの間に使用状況の違いが発生します。
データ ウェアハウスのユーザーは、ビジネス重視の傾向を示し、分析の改善方法に関するアイデアを持っていますが、多くの場合、ビジネスを詳細に分析して深い知見を導き出す能力は持っていません。一方、データレイクのユーザーは元データ重視であり、データを分析するツールと能力を有しています。分析に多くの時間をかけているために、こうしたユーザーはデータそのものに重点を置いており、ビジネスに目を向けることは多くありません。このような分断は、高収益、低コスト、低リスク、新たな商機につながるはずの知見を得る機会をビジネスから奪います。
以来、この 2 つのシステムは、企業の主要な 2 つのデータ アナリティクス システムとして共存し、相互に補完して、共有する IT 環境で同じ地位を保っていました。また、ビジネスのあらゆるデジタル トランスフォーメーションと全面的なデータドリブン環境への移行の中核にあるデータシステムでもあります。従来のオンプレミス システムからクラウドと SaaS のソリューションに移行する組織が増加するに伴い、集約を進めたアナリティクス プラットフォームの実現に向けて、企業がこれらのシステムの境界を再考する時期に来ています。
このような再考は、データレイクとデータ ウェアハウスの集約のほか、複数の組織にわたるデータチームの集約にもつながっています。クラウドは、このような集約を促すマネージド サービスを提供します。これにより、あらゆるデータ要員が、データシステムが何であっても、そこにあるデータから見識と価値を得ることができるようになります。データレイクとデータ ウェアハウスを集約した環境による利点はさまざまな形態で現れます。このような利点の多くは、管理されているスケーラブルなサーバーレス テクノロジーを提供する能力によって生まれます。その結果、ストレージとコンピューティングの概念上の違いは曖昧になります。データの保存場所や保存形式の明示的な管理はもはや重要ではなくなっています。インフラストラクチャの制限に煩わされることなく、誰でもデータにアクセスできるように、ユーザーが「民主化」されます。データを使用するユーザーから見れば、データがデータレイクにあるかデータ ウェアハウスにあるかは特に問題ではありません。どのシステムからデータが得られているかを気にとめるユーザーもいません。ユーザーにとって重要なことは、どのようなデータがあって、それが信用できるかどうかです。どの程度の量のデータを取り込むことができるか、その取り込みがリアルタイムであるかどうかも重要です。また、ユーザーは、さまざまなデータストアでデータを発見し、管理しているほか、サイロ化した環境から統合されたデータ エコシステムにデータを移動しています。最も重要なことは、あらゆる人々やツールがデータを分析でき、処理できることです。
Google は、クラウド ネイティブでスケーラビリティとセキュリティに優れた集約済みソリューションを Google Cloud で提供し、幅広い選択肢と優れた相互運用性をお客様にお届けしています。Google のクラウド ネイティブ アーキテクチャは、コスト削減と効率向上を組織に実現します。たとえば、BigQuery によるストレージとコンピューティングの全面的な分離機能を使用すると、連携クエリを通じて BigQuery コンピューティングを他のストレージ メカニズムに持ち込むことができます。BigQuery Storage API を使用すると、データ ウェアハウスをデータレイクのように扱うことができます。これにより、BigQuery に存在するデータにアクセスできます。たとえば、Spark を使用して、データ ウェアハウスに置かれたデータにアクセスできますが、そのデータにアクセスしている他のどのジョブのパフォーマンスも影響を受けません。さらに、Google のインテリジェントなデータ ファブリック サービスである Dataplex は、GCS と BigQuery 上に構築されたさまざまなストレージ階層にわたり、データのガバナンスとセキュリティの機能を提供します。
データ ウェアハウスとデータレイクの集約からは多数の利点が得られます。その詳細については、こちらのホワイトペーパーをご覧ください。
-データ分析担当 EMEA 地域ソリューション リード Firat Tekiner
-Google Cloud、アナリティクス データ プラットフォーム担当ソリューション マネージャー Susan Pierce