あらゆる地域の組織が、ビッグデータのボリューム、レイテンシ、復元力、データアクセスの要件を管理するためのストレージ ソリューションを探しています。当初、企業は既存の技術スタックを利用して、データレイクでウェアハウスと同じ機能を実現したり、データ ウェアハウスを調整して大量の半構造化データを処理したり、あるいがその両方にデータを保持しようとしたりしていました。
最終的に、これらのアプローチは高額な費用、ユーザーの不満、ビジネス全体でのデータの重複という結果につながりました。データ レイクハウスは、新しいハイブリッド データ アーキテクチャとして登場しました。このアーキテクチャは、データ ウェアハウスとデータレイクのあらゆるメリットを享受しながら、両方のシステムの弱点を排除することを目的としています。
Google Cloud は、低コストのストレージ、サーバーレス コンピューティング エンジン、高度なデータ マネジメント サービスを基盤とする、クラウドネイティブでスケーラビリティと安全性に優れたデータ レイクハウス ソリューションを提供します。Google Cloud がオープン データ レイクハウスの構築にどのように役立つかをご確認ください。
データ レイクハウスは、データレイクとデータ ウェアハウスを統合したデータ アーキテクチャです。データ レイクハウスは、ML、ビジネス インテリジェンス、予測分析を実現するため、組織は構造化、非構造化、半構造化のすべてのタイプのデータに、低コストで柔軟なストレージを活用しながら、データ構造とデータ マネジメントの機能を提供できます。
データ レイクハウスは、データレイク(元の形式の元データの大規模なリポジトリ)とデータ ウェアハウス(整理された構造化データセット)の主な利点を組み合わせて、単一のプラットフォームを作成する最新のデータ アーキテクチャです。具体的には、データ レイクハウスにより、組織は低コストのストレージを使用して大量の元データを保存しながら、構造とデータ マネジメント 機能を提供できます。
これまで、基盤となるシステムの過負荷や、同じリソースの競合の発生を避けるために、データ ウェアハウスとデータレイクは別々のサイロ化されたアーキテクチャとして実装する必要がありました。企業は、ビジネス インテリジェンス(BI)とレポート用の構造化データを保存するためにデータ ウェアハウスを使用し、機械学習(ML)ワークロード用の非構造化データと半構造化データを保存するためにデータレイクを使用していました。しかしこのアプローチでは、2 つのアーキテクチャのデータを一緒に処理する必要がある場合に 2 つの別個のシステム間でデータを定期的に入れ替える必要があるため、複雑さ、費用の増加、データの更新頻度、重複、整合性に関する問題が生まれました。
データ レイクハウスは、こうしたサイロを解消し、データが非効率性ではなくビジネスに価値をもたらすために必要な柔軟性、スケーラビリティ、アジリティを実現することを目指しています。
「データ レイクハウス」という用語は、データ ウェアハウスとデータレイクという 2 種類の既存のデータ リポジトリをまとめたものです。では、データ レイクハウス、データレイク、データ ウェアハウスの具体的な違いは何でしょうか?
データ ウェアハウスは、意思決定のためのレポートや分析情報を生成する必要があるビジネス ユーザーに、データにすばやくアクセスし、SQL との互換性を提供します。すべてのデータに ETL(抽出、変換、読み込み)フェーズを経る必要がある。つまり、読み込み前にユースケースに基づいて特定の形式(スキーマ)に最適化されるため、高パフォーマンスのクエリとデータの完全性がサポートされるようになります。しかし、このアプローチではデータへのアクセスの柔軟性が制限され、今後使用するためにデータを移動する必要がある場合に余分なコストが発生します。
データレイク には、大量の非構造化データと構造化データがネイティブ形式で保存されます。データ ウェアハウスとは異なり、データは分析中に処理、クリーンアップ、変換されるため、読み込み速度が速くなり、ビッグデータの処理、ML、予測分析に最適です。しかし、データ サイエンスの専門知識が必要なため、データを使用できる人員が限られており、適切に管理されていないと、時間の経過とともにデータ品質が低下する可能性があります。また、データレイクでは、データが未処理であるため、リアルタイム クエリを取得するのが難しくなります。そのため、データを使用する前にクリーニング、処理、取り込み、統合が必要になる可能性があります。
データ レイクハウスは、これら 2 つのアプローチを統合して 1 つの構造を作成し、BI、データ サイエンス、ML などさまざまな目的でデータにアクセスし、活用できるようにします。言い換えれば、データ レイクハウスは、組織の非構造化データ、構造化データ、半構造化データをすべてキャプチャして低コストのストレージに保存すると同時に、すべてのユーザーにニーズに応じてデータを整理および探索する機能を提供します。
データ レイクハウスの主な特長は次のとおりです。
BI アプリからレイクハウス内のソースデータに直接アクセスして、データの重複を削減します。
データ レイクハウスを機能させるには、何を達成しようとしているのかを考慮することが重要です。データ レイクハウスは、異種データソースを一元化し、組織内の誰もがデータユーザーになれるようにエンジニアリング作業を簡素化することを目的としています。
データ レイクハウスは、データレイクと同じ低コストのクラウド オブジェクト ストレージを使用して、簡単にプロビジョニングとスケーリングを行えるオンデマンド ストレージを提供します。データレイクと同様に、あらゆるタイプの大量のデータを未加工の形でキャプチャして保存できます。レイクハウスはこのストアにメタデータ レイヤを統合し、構造化スキーマ、ACID トランザクションのサポート、データ ガバナンス、その他のデータ マネジメントや最適化機能など、ウェアハウスのような機能を提供します。
アーキテクチャの簡素化 データ レイクハウスによって 2 つの異なるプラットフォームのサイロが解消されるため、ユーザーは単一のデータ リポジトリの管理と維持のみに集中できます。ツールはソースデータに直接接続できるため、データ ウェアハウスで使用するデータの抽出や準備を行う必要はありません。 | データ品質の改善 データ レイクハウス アーキテクチャでは、構造化データとデータの完全性を確保するためのスキーマを適用できるため、整合性を確保できます。さらに、レイクハウスにより、新しいデータが利用可能になるまでの時間が短縮され、より最新のデータを確保できます。 | コスト削減 大量のデータを低コストのストレージに保存できるため、データ ウェアハウスとデータレイクの両方を維持する必要がなくなります。データ レイクハウスは、ETL プロセスと重複排除の費用を削減するのにも役立ちます。 |
信頼性の向上 データ レイクハウスは、複数システム間の ETL データ転送を削減し、データの移動時に品質や技術上の問題が発生する可能性を低減します。 | データ ガバナンスの向上 データとリソースがデータ レイクハウスを使用して 1 か所に統合され、ガバナンスとセキュリティ管理の実装、テスト、提供が容易になります。 | データの重複が削減される 異なるシステムに存在するデータのコピーが多いほど、一貫性がなく、信頼性が低くなる可能性が高くなります。データ レイクハウスを使用すると、意思決定のためにビジネス全体で共有できる単一のデータソースを実現し、データの重複による不整合や余分なストレージ コストを防ぐことができます。 |
多様なワークロード 複数のツールをレイクハウスに直接接続して、同じリポジトリから分析、SQL、ML、データ サイエンスのワークロードをサポートできます。 | 高度なスケーラビリティ データ レイクハウスは低コストのクラウド オブジェクト ストレージであるため、コンピューティングをストレージから切り離して、ほぼ無制限かつ即時のスケーラビリティを提供できます。ビジネスニーズに応じて、コンピューティング能力とストレージを別々にスケーリングできます。 |
アーキテクチャの簡素化
データ レイクハウスによって 2 つの異なるプラットフォームのサイロが解消されるため、ユーザーは単一のデータ リポジトリの管理と維持のみに集中できます。ツールはソースデータに直接接続できるため、データ ウェアハウスで使用するデータの抽出や準備を行う必要はありません。
データ品質の改善
データ レイクハウス アーキテクチャでは、構造化データとデータの完全性を確保するためのスキーマを適用できるため、整合性を確保できます。さらに、レイクハウスにより、新しいデータが利用可能になるまでの時間が短縮され、より最新のデータを確保できます。
コスト削減
大量のデータを低コストのストレージに保存できるため、データ ウェアハウスとデータレイクの両方を維持する必要がなくなります。データ レイクハウスは、ETL プロセスと重複排除の費用を削減するのにも役立ちます。
信頼性の向上
データ レイクハウスは、複数システム間の ETL データ転送を削減し、データの移動時に品質や技術上の問題が発生する可能性を低減します。
データ ガバナンスの向上
データとリソースがデータ レイクハウスを使用して 1 か所に統合され、ガバナンスとセキュリティ管理の実装、テスト、提供が容易になります。
データの重複が削減される
異なるシステムに存在するデータのコピーが多いほど、一貫性がなく、信頼性が低くなる可能性が高くなります。データ レイクハウスを使用すると、意思決定のためにビジネス全体で共有できる単一のデータソースを実現し、データの重複による不整合や余分なストレージ コストを防ぐことができます。
多様なワークロード
複数のツールをレイクハウスに直接接続して、同じリポジトリから分析、SQL、ML、データ サイエンスのワークロードをサポートできます。
高度なスケーラビリティ
データ レイクハウスは低コストのクラウド オブジェクト ストレージであるため、コンピューティングをストレージから切り離して、ほぼ無制限かつ即時のスケーラビリティを提供できます。ビジネスニーズに応じて、コンピューティング能力とストレージを別々にスケーリングできます。
データ レイクハウスのコンセプトは、まだ比較的新しいアーキテクチャです。つまり、データ レイクハウスは進化を続けており、ベスト プラクティスがアーリー アドプターによってまだ定義されていないという事実が最大の課題となっています。
そのうえ、データ レイクハウスは一から構築するのは複雑です。ほとんどの場合、すぐに使用できるデータ レイクハウス ソリューションを選択するか、オープン レイクハウス アーキテクチャをサポートするために必要なすべてのコンポーネントを提供する Google Cloud のようなプラットフォームを使用する必要があります。
データ レイクハウスのアーキテクチャは、次のレイヤで構成されています。
Databricks のレイクハウス プラットフォームや Amazon Redshift Spectrum など、既存のデータ レイクハウスの例はいくつかあります。しかし、テクノロジーが成熟し、データ レイクハウスの導入が進むにつれて、実装はレイクハウスのコンポーネントの結合から特定のデータレイクへと移行しています。
たとえば、Google Cloud のアプローチは、エンタープライズ データ運用、データレイク、データ ウェアハウスの中核となる機能を統合することでした。この実装では、BigQuery のストレージとコンピューティング能力をデータ レイクハウス アーキテクチャの中心に据えます。その後、Dataplex と Analytics Hub を使用して、統合ガバナンス アプローチやその他のウェアハウスのような機能を適用できます。
BigQuery は Google Cloud エコシステムと統合されているだけでなく、パートナーやオープンソースのテクノロジーを使用して、レイクとウェアハウスの優れた機能を単一のシステムにまとめることもできます。
Google は、データ ウェアハウスやデータレイクへのデータアクセスを簡素化する統合ストレージ エンジンである BigLake(現在プレビュー版)のリリースで、このアプローチをさらに発展させていきます。きめ細かなアクセス制御を適用し、分散データ全体でクエリのパフォーマンスを高めます。