世界中の組織が、ビッグデータのボリューム、レイテンシ、復元性、データアクセスの要件を管理するためのストレージ ソリューションを探しています。当初、企業は既存の技術スタックを利用して、データレイクでウェアハウスと同じ機能を実現したり、データ ウェアハウスを調整して大量の半構造化データを処理したり、あるいがその両方にデータを保持しようとしたりしていました。
最終的には、こうしたアプローチは、高額な費用、ユーザーの不満、ビジネス全体でのデータの重複という結果につながりました。データ レイクハウスは、新しいハイブリッド データ アーキテクチャとして登場しました。データ ウェアハウスとデータレイクの長所を最大限に生かしながら、両方のシステムの弱点を解消することを狙いとしています。
Google Cloud は、低コストのストレージ、サーバーレス コンピューティング エンジン、高度なデータ マネジメント サービスを基盤とする、クラウドネイティブでスケーラビリティと安全性に優れたデータ レイクハウス ソリューションを提供します。Google Cloud がオープン データ レイクハウスの構築にどのように役立つかをご確認ください。
データ レイクハウスは、データレイクとデータ ウェアハウスを統合したデータ アーキテクチャです。データ レイクハウスは、ML、ビジネス インテリジェンス、予測分析を実現するため、組織は構造化、非構造化、半構造化のすべてのタイプのデータに、低コストで柔軟なストレージを活用しながら、データ構造とデータ マネジメントの機能を提供できます。
データ レイクハウスは、データレイク(元データの大規模なリポジトリ)とデータ ウェアハウス(構造化された一連の構造化データ)の主な利点を組み合わせて単一のプラットフォームを作成する最新のデータ アーキテクチャです。具体的には、データ レイクハウスにより、組織は低コストのストレージを使用して大量の元データを保存しながら、構造とデータ マネジメント 機能を提供できます。
これまで、データ ウェアハウスとデータレイクは、基盤となるシステムの過負荷や同じリソースの競合の発生を避けるために、個別のサイロ化されたアーキテクチャとして実装する必要がありました。企業は、ビジネス インテリジェンス(BI)とレポート用の構造化データを保存するためにデータ ウェアハウスを使用し、機械学習(ML)ワークロード用の非構造化データと半構造化データを保存するためにデータレイクを使用していました。しかし、このアプローチでは、どちらかのアーキテクチャのデータを一緒に処理する必要がある場合に、2 つの異なるシステム間で定期的にデータをシフトする必要がありました。そのため、複雑さと費用が増大し、データの更新頻度、重複、整合性に関する問題が生じていました。
データ レイクハウスは、こうしたサイロを解消し、データが非効率性ではなくビジネスに価値をもたらすために必要な柔軟性、スケーラビリティ、アジリティを実現することを目的としています。
「データ レイクハウス」という用語は、データ ウェアハウスとデータレイクという 2 種類の既存のデータ リポジトリをまとめたものです。では、データ レイクハウス、データレイク、データ ウェアハウスの具体的な違いは何でしょうか?
データ ウェアハウスは、意思決定のためにレポートと分析情報を生成する必要があるビジネス ユーザーに、データと SQL の互換性への迅速なアクセスを提供します。すべてのデータは ETL(抽出、変換、読み込み)フェーズを経る必要があります。つまり、読み込み前にユースケースに基づいて特定の形式(スキーマ)に最適化されるため、高パフォーマンスのクエリとデータの完全性がサポートされるようになります。ただし、この方法では、データへのアクセスの柔軟性が制限され、将来使用するためにデータを移動する必要がある場合に追加の費用が発生します。
データレイク は、大量の非構造化データと構造化データをネイティブ形式で保存します。データ ウェアハウスとは異なり、データは分析中に処理、クリーンアップ、変換されるため、読み込み速度が速くなり、ビッグデータの処理、ML、予測分析に最適です。ただし、データ サイエンスの専門知識が必要なため、データを使用できる人が制限されます。また、適切にメンテナンスされていないと、時間の経過とともにデータ品質が低下する可能性があります。また、データレイクでは、データが未処理であるため、リアルタイム クエリを取得することがさらに難しくなり、使用する前にクリーニング、処理、取り込み、統合が必要になる可能性もあります。
データ レイクハウスは、これら 2 つのアプローチを統合して 1 つの構造を作成し、BI、データ サイエンス、ML などさまざまな目的でデータにアクセスし、活用できるようにします。言い換えれば、データ レイクハウスは、組織の非構造化データ、構造化データ、半構造化データをすべてキャプチャして低コストのストレージに保存すると同時に、すべてのユーザーにニーズに応じてデータを整理および探索する機能を提供します。
データ レイクハウスの主な特長は次のとおりです。
BI アプリからレイクハウス内のソースデータに直接アクセスして、データの重複を削減します。
データ レイクハウスを機能させるには、何を達成しようとしているかを検討することが重要です。データ レイクハウスは、組織内の全員がデータユーザーになれるように、異なるデータソースを一元化し、エンジニアリング作業を簡素化することを目的としています。
データ レイクハウスは、データレイクと同じ低コストのクラウド オブジェクト ストレージを使用して、プロビジョニングとスケーリングを容易にするオンデマンド ストレージを提供します。データレイクと同様に、あらゆるタイプの大量のデータを未加工の形式でキャプチャして保存できます。レイクハウスはこのストアにメタデータ レイヤを統合し、構造化スキーマ、ACID トランザクションのサポート、データ ガバナンス、その他のデータ マネジメントや最適化機能など、ウェアハウスのような機能を提供します。
アーキテクチャの簡素化 データ レイクハウスによって 2 つの異なるプラットフォームのサイロが解消されるため、ユーザーは単一のデータ リポジトリの管理と維持のみに集中できます。ツールはソースデータに直接接続できるため、データ ウェアハウスで使用するデータを抽出または準備する必要はありません。 |
データ品質の改善 データ レイクハウス アーキテクチャでは、構造化データとデータの完全性を確保するためのスキーマを適用できるため、整合性を確保できます。さらに、新しいデータを利用可能にする時間を短縮し、より新しいデータを保証します。 |
コスト削減 大量のデータを低コストのストレージに保存することで、データ ウェアハウスとデータレイクの両方を維持する必要がなくなります。データ レイクハウスは、ETL プロセスや重複排除にかかる費用の削減にも役立ちます。 |
信頼性の向上 データ レイクハウスは、複数のシステム間の ETL データ転送を減らし、データの移動時に発生する可能性のある品質や技術上の問題が発生する可能性を低減します。 |
データ ガバナンスの向上 データとリソースはデータ レイクハウスによって 1 か所に統合されるため、ガバナンスとセキュリティの管理の実装、テスト、提供が容易になります。 |
データの重複が削減される 異なるシステムに存在するデータのコピーが多くなると、整合性がなく、信頼性が低くなる可能性が高くなります。データ レイクハウスを使用すると、意思決定のためにビジネス全体で共有できる単一のデータソースを実現し、データの重複に起因する不整合や余分なストレージ コストを防ぐことができます。 |
多様なワークロード 複数のツールをレイクハウスに直接接続して、分析、SQL、ML、データ サイエンスのワークロードを同じリポジトリからサポートできます。 |
高度なスケーラビリティ データ レイクハウスの低コストのクラウド オブジェクト ストレージを使用すると、コンピューティングをストレージから切り離して、ほぼ無制限の即時スケーラビリティを実現できます。ビジネスニーズに応じてコンピューティング能力とストレージを個別にスケーリングできます。 |
データ レイクハウスのコンセプトは、まだ比較的新しいアーキテクチャです。つまり、データ レイクハウスは進化を続けており、ベスト プラクティスがアーリー アドプターによってまだ定義されていないという事実が最大の課題となっています。
さらに、データ レイクハウスは一から構築するのが複雑です。ほとんどの場合、すぐに使用できるデータ レイクハウス ソリューションを選択するか、オープン レイクハウス アーキテクチャをサポートするために必要なすべてのコンポーネントを提供する Google Cloud などのプラットフォームを使用する必要があります。
データ レイクハウスのアーキテクチャは、次のレイヤで構成されています。
Databricks のレイクハウス プラットフォームや Amazon Redshift Spectrum など、既存のデータ レイクハウスの例はいくつかあります。しかし、テクノロジーが成熟し、データ レイクハウスの導入が進むにつれて、実装はレイクハウスのコンポーネントの結合から特定のデータレイクへと移行しています。
たとえば、Google Cloud のアプローチは、エンタープライズ データ オペレーション、データレイク、データ ウェアハウスのコア機能を統合するというものです。この実装により、BigQuery のストレージとコンピューティング能力がデータ レイクハウス アーキテクチャの中心に据えられます。その後、Dataplex と Analytics Hub を使用して、統合ガバナンス アプローチやその他のウェアハウスのような機能を適用できます。
BigQuery は Google Cloud エコシステムと統合されているだけでなく、パートナーのテクノロジーやオープンソースのテクノロジーを利用して、レイクとウェアハウスの機能を 1 つのシステムにまとめることもできます。
Google は、データ ウェアハウスとデータレイクへのデータアクセスを簡素化する統合ストレージ エンジンである BigLake(現在プレビュー版)のリリースで、このアプローチの構築を続けています。きめ細かなアクセス制御を適用し、分散データ全体でクエリのパフォーマンスを高めます。