データレイクハウスとは

あらゆる組織が、ビッグデータのボリューム、レイテンシ、復元性、データアクセス要件を管理するためのストレージソリューションを探しています。当初、企業は既存の技術スタックを利用して、データレイクでウェアハウスと同じ機能を実現したり、データウェアハウスを調整して大量の半構造化データを処理したり、あるいがその両方にデータを保持しようとしたりしていました。

最終的に、これらのアプローチは高額な費用、ユーザーの不満、ビジネス全体でのデータの重複という結果につながりました。データレイクハウスは、新しいハイブリッドデータアーキテクチャとして登場しました。このアーキテクチャは、データウェアハウスとデータレイクのあらゆるメリットを享受しながら、両方のシステムの弱点を排除することを目的としています。

Google Cloud は、低コストのストレージ、サーバーレスコンピューティングエンジン、高度なデータマネジメントサービスを基盤とする、クラウドネイティブでスケーラビリティと安全性に優れたデータレイクハウスソリューションを提供します。Google Cloud でオープンデータレイクハウスを構築する方法について詳しくご覧ください。

データレイクハウスの定義

データレイクハウスは、データレイクとデータウェアハウスを融合させたデータアーキテクチャです。データレイクハウスは、組織が構造化、非構造化、半構造化のすべてのタイプのデータに低コストで柔軟なストレージを活用するとともに、データ構造とデータマネジメントの機能を提供することで、ML、ビジネスインテリジェンス、予測分析を可能にします。

レイクハウスとは

データレイクハウスは、データレイク（元の形式のままの元データの大型リポジトリ）とデータウェアハウス（整理された構造化データのセット）の主要な利点を組み合わせて単一のプラットフォームを構築する、最新のデータアーキテクチャです。具体的には、データレイクハウスにより、組織は低コストのストレージを使用して大量の元データを保存しながら、構造とデータマネジメント機能を提供できます。

従来、データウェアハウスとデータレイクは、基盤となるシステムへの過負荷や、同じリソースの競合の発生を避けるために、別々のサイロ化されたアーキテクチャとして実装する必要がありました。企業は、ビジネスインテリジェンス（BI）とレポート用の構造化データを保存するためにデータウェアハウスを使用し、人工知能（AI）と機械学習（ML）ワークロード用の非構造化データと半構造化データを保存するためにデータレイクを使用していました。しかし、このアプローチでは、両方のアーキテクチャのデータを一緒に処理する必要がある場合に 2 つの別々のシステム間でデータを定期的に移行する必要があるため、複雑さ、費用の増加、データの更新速度、重複、整合性に関する問題が発生していました。

データレイクハウスは、こうしたサイロを解消し、データが非効率性ではなくビジネスに価値をもたらすようにするために必要な柔軟性、スケーラビリティ、アジリティを提供することを目的としています。

データレイクハウス、データレイク、データウェアハウス

「データレイクハウス」という用語は、データウェアハウスとデータレイクという 2 種類の既存のデータリポジトリをまとめたものです。では、データレイクハウス、データレイク、データウェアハウスの具体的な違いは何でしょうか？

データウェアハウス

データウェアハウスは、意思決定のためのレポートや分析情報を生成する必要があるビジネスユーザーに、データにすばやくアクセスし、SQL との互換性を提供します。すべてのデータに ETL（抽出、変換、読み込み）フェーズを経る必要がある。つまり、読み込み前にユースケースに基づいて特定の形式（スキーマ）に最適化されるため、高パフォーマンスのクエリとデータの完全性がサポートされるようになります。しかし、このアプローチではデータへのアクセスの柔軟性が制限され、今後使用するためにデータを移動する必要がある場合に余分なコストが発生します。

データレイク

データレイクには、大量の非構造化データと構造化データがネイティブ形式で保存されます。データウェアハウスとは異なり、データは分析中に処理、クリーンアップ、変換されるため、読み込み速度が速くなり、ビッグデータの処理、ML、予測分析に最適です。しかし、データサイエンスの専門知識が必要なため、データを使用できる人員が限られており、適切に管理されていないと、時間の経過とともにデータ品質が低下する可能性があります。また、データレイクでは、データが未処理であるため、リアルタイムクエリを取得するのが難しくなります。そのため、データを使用する前にクリーニング、処理、取り込み、統合が必要になる可能性があります。

データレイクハウス

データレイクハウスは、これらの 2 つのアプローチを統合して、BI からデータサイエンス、AI、ML まで、さまざまな目的でデータにアクセスして活用できる単一の構造を作成します。つまり、データレイクハウスは、組織のすべての非構造化データ、構造化データ、半構造化データをキャプチャして低コストのストレージに保存するとともに、すべてのユーザーがニーズに応じてデータを整理、探索できる機能を提供します。

データレイクハウスの特長

データレイクハウスの主な特長は次のとおりです。

単一の低コストデータストア: すべてのデータ型（構造化、非構造化、半構造化）に対応します。
データマネジメント機能: スキーマの適用、データガバナンスの適用、ETL プロセスとデータクレンジングを行います。
ACID（アトミック性、整合性、独立性、耐久性）特性のトランザクションサポート : 複数のユーザーが同時にデータの読み取り / 書き込みを行う場合のデータの整合性を確保します。
標準化されたストレージ形式: 複数のソフトウェアプログラムで使用できます。
エンドツーエンドのストリーミング: データのリアルタイム取り込みと分析情報の生成をサポートします。
コンピューティングリソースとストレージリソースを分離: 多様なワークロードに対応するスケーラビリティを確保します。
オープンソースエンジンとの相互運用: Apache Spark などオープンソースエンジンや BigQuery などの SQL ベースの分析プラットフォームとの相互運用が可能です。
データ全体にわたるエンドツーエンドのガバナンスとメタデータ管理
BI アプリからレイクハウス内のソースデータに直接アクセスして、データの重複を削減します。

データレイクハウスの仕組み

データレイクハウスを機能させるには、何を達成しようとしているのかを考慮することが重要です。データレイクハウスは、異種データソースを一元化し、組織内の誰もがデータユーザーになれるようにエンジニアリング作業を簡素化することを目的としています。

データレイクハウスは、データレイクと同じ低コストのクラウドオブジェクトストレージを使用して、簡単にプロビジョニングとスケーリングを行えるオンデマンドストレージを提供します。データレイクと同様に、あらゆるタイプの大量のデータを未加工の形でキャプチャして保存できます。レイクハウスはこのストアにメタデータレイヤを統合し、構造化スキーマ、ACID トランザクションのサポート、データガバナンス、その他のデータマネジメントや最適化機能など、ウェアハウスのような機能を提供します。

データレイクハウスを使用するメリット

アーキテクチャの簡素化データレイクハウスによって 2 つの異なるプラットフォームのサイロが解消されるため、ユーザーは単一のデータリポジトリの管理と維持のみに集中できます。ツールはソースデータに直接接続できるため、データウェアハウスで使用するデータの抽出や準備を行う必要はありません。	データ品質の改善データレイクハウスアーキテクチャでは、構造化データとデータの完全性を確保するためのスキーマを適用できるため、整合性を確保できます。さらに、レイクハウスにより、新しいデータが利用可能になるまでの時間が短縮され、より最新のデータを確保できます。	コスト削減大量のデータを低コストのストレージに保存できるため、データウェアハウスとデータレイクの両方を維持する必要がなくなります。データレイクハウスは、ETL プロセスと重複排除の費用を削減するのにも役立ちます。
信頼性の向上データレイクハウスは、複数システム間の ETL データ転送を削減し、データの移動時に品質や技術上の問題が発生する可能性を低減します。	データガバナンスの向上データとリソースがデータレイクハウスを使用して 1 か所に統合され、ガバナンスとセキュリティ管理の実装、テスト、提供が容易になります。	データの重複が削減される異なるシステムに存在するデータのコピーが多いほど、一貫性がなく、信頼性が低くなる可能性が高くなります。データレイクハウスを使用すると、意思決定のためにビジネス全体で共有できる単一のデータソースを実現し、データの重複による不整合や余分なストレージコストを防ぐことができます。
多様なワークロード複数のツールをレイクハウスに直接接続して、同じリポジトリから分析、SQL、ML、データサイエンスのワークロードをサポートできます。	高度なスケーラビリティデータレイクハウスは低コストのクラウドオブジェクトストレージであるため、コンピューティングをストレージから切り離して、ほぼ無制限かつ即時のスケーラビリティを提供できます。ビジネスニーズに応じて、コンピューティング能力とストレージを別々にスケーリングできます。

アーキテクチャの簡素化

データレイクハウスによって 2 つの異なるプラットフォームのサイロが解消されるため、ユーザーは単一のデータリポジトリの管理と維持のみに集中できます。ツールはソースデータに直接接続できるため、データウェアハウスで使用するデータの抽出や準備を行う必要はありません。

データ品質の改善

データレイクハウスアーキテクチャでは、構造化データとデータの完全性を確保するためのスキーマを適用できるため、整合性を確保できます。さらに、レイクハウスにより、新しいデータが利用可能になるまでの時間が短縮され、より最新のデータを確保できます。

コスト削減

大量のデータを低コストのストレージに保存できるため、データウェアハウスとデータレイクの両方を維持する必要がなくなります。データレイクハウスは、ETL プロセスと重複排除の費用を削減するのにも役立ちます。

信頼性の向上

データレイクハウスは、複数システム間の ETL データ転送を削減し、データの移動時に品質や技術上の問題が発生する可能性を低減します。

データガバナンスの向上

データとリソースがデータレイクハウスを使用して 1 か所に統合され、ガバナンスとセキュリティ管理の実装、テスト、提供が容易になります。

データの重複が削減される

異なるシステムに存在するデータのコピーが多いほど、一貫性がなく、信頼性が低くなる可能性が高くなります。データレイクハウスを使用すると、意思決定のためにビジネス全体で共有できる単一のデータソースを実現し、データの重複による不整合や余分なストレージコストを防ぐことができます。

多様なワークロード

複数のツールをレイクハウスに直接接続して、同じリポジトリから分析、SQL、ML、データサイエンスのワークロードをサポートできます。

高度なスケーラビリティ

データレイクハウスは低コストのクラウドオブジェクトストレージであるため、コンピューティングをストレージから切り離して、ほぼ無制限かつ即時のスケーラビリティを提供できます。ビジネスニーズに応じて、コンピューティング能力とストレージを別々にスケーリングできます。

データレイクハウスを使用する際の課題

データレイクハウスのコンセプトは、データストレージの究極の柔軟性と、データ処理エンジンや分析エンジンとの選択肢と相互運用性の拡大を求める組織の要望に応える形で、時間の経過とともに進化してきました。さらに、データレイクハウスはゼロから構築するには複雑であり、現在は AI 機能と深く連携させる必要があります。ほとんどの場合、すぐに使えるデータレイクハウスソリューションを選択するか、オープンのレイクハウスアーキテクチャをサポートするために必要なコンポーネントをすべて提供する Google Cloud のようなプラットフォームを使用する必要があります。

データレイクハウスアーキテクチャのレイヤ

データレイクハウスのアーキテクチャは、次のレイヤで構成されています。

ストレージレイヤ: ストレージレイヤは、すべての元データのためのデータレイクレイヤです。通常は、非構造化データ、構造化データセット、半構造化データセットをすべて保存できる低コストのオブジェクトストアです。コンピューティングリソースから分離されているため、コンピューティングを個別にスケーリングできます。
ステージングレイヤ: ステージングレイヤは、データレイクレイヤの上にあるメタデータレイヤです。ストレージ内のすべてのデータオブジェクトに関する詳細なカタログが提供されるため、スキーマの適用、ACID プロパティ、インデックス作成、キャッシュ保存、アクセス制御などのデータマネジメント機能を適用できます。
セマンティックレイヤ: セマンティックレイヤであるレイクハウスレイヤは、すべての使用データを公開します。ユーザーはそこで、クライアントアプリや分析ツールを使用してデータにアクセスし、テストやビジネスインテリジェンスのプレゼンテーションに役立てることができます。

Apache Iceberg がデータレイクハウスを変革

Apache Iceberg は、ACID トランザクション、スキーマの進化、タイムトラベルなどのデータウェアハウスのような機能をオブジェクトストレージに保存されたデータレイクに直接もたらすオープンテーブル形式を提供することで、レイクハウスアーキテクチャに革命をもたらします。これにより、企業は、さまざまな分析エンジンで相互運用可能で、ベンダーロックインを回避できる、スケーラビリティに優れた高パフォーマンスで柔軟なデータプラットフォームを構築できます。

Google Cloud のアプローチは、BigLake を活用したオープンで管理された高パフォーマンスなデータレイクハウスを企業に提供することです。統合ストレージエンジンは、Cloud Storage で Apache Iceberg のネイティブ実装を提供し、Iceberg データでオープンソースエンジンを直接活用できます。BigLake Metastore はデータマネジメントを簡素化し、Dataplex ユニバーサルカタログと統合して統合ガバナンスを実現します。きめ細かなアクセス制御を適用し、分散データ全体でクエリのパフォーマンスを高めます。

このアプローチは、Iceberg による高度な分析、ストリーミング、AI/ML ワークロードをサポートする、マネージド型の高パフォーマンスデータレイクハウスの中心にある BigQuery のストレージやコンピューティング能力と組み合わせることができます。BigQuery は Google Cloud エコシステムと統合されているだけでなく、パートナーテクノロジーやオープンソーステクノロジーを使用して、データレイクとデータウェアハウスの機能を 1 つのシステムにまとめることもできます。