データ マネジメントは、エンタープライズ分析を強化し、優れたカスタマー エクスペリエンスを構築するうえで大きな役割を果たします。データレイクやデータ ウェアハウスについて知識があったとしても、どちらが自身のプロジェクトに適しているかを判断するのは難しいものです。これら 2 つのシステムでは、データの処理方法が異なります。データレイクは、目的をすぐに定義しない、未加工のデータの大きなプールのようなものです。データ ウェアハウスは、特定のタスクのために整理、フィルタリングされたデータのライブラリのようなものです。これらの違いを把握することで、データニーズに合った適切なツールを選択できます。
この 2 つのシステムの主な違いは、データ構造とその用途です。データレイクは未加工の非構造化データ用、データ ウェアハウスは構造化された処理済みデータ用です。
機能 | データレイク | データ ウェアハウス |
データの種類 | あらゆるデータ(未加工、構造化、非構造化) | 処理済みの構造化データ |
目的 | 未定義 | 明確かつ具体的 |
ユーザー | データ サイエンティスト、データ エンジニア | データ アナリスト、ビジネス インテリジェンス アナリスト |
ユーザー補助機能 | 柔軟性が高く、変更が容易 | 変更が難しく、より硬直的 |
処理 | スキーマオンリード(使用時に定義) | スキーマオンライト(保存前に定義) |
メリット |
|
|
機能
データレイク
データ ウェアハウス
データの種類
あらゆるデータ(未加工、構造化、非構造化)
処理済みの構造化データ
目的
未定義
明確かつ具体的
ユーザー
データ サイエンティスト、データ エンジニア
データ アナリスト、ビジネス インテリジェンス アナリスト
ユーザー補助機能
柔軟性が高く、変更が容易
変更が難しく、より硬直的
処理
スキーマオンリード(使用時に定義)
スキーマオンライト(保存前に定義)
メリット
モバイルゲームを開発しており、すべてのユーザーによるすべてのボタンクリックをトラッキングしたいと考えています。次のアップデートでどのクリックが重要になるかはまだわかりません。これらの未加工の JSON イベントはすべて、データレイクに直接送信できます。その後、データ サイエンティストはスクリプトを実行して、その元データからパターンを見つけることができます。
もう 1 つの例として、IoT センサーが挙げられます。毎秒温度データを送信するセンサーが何千台もある場合、その生データをデータレイクにダンプすることで、事前にデータをどのようにフォーマットすべきかを気にすることなく、発生したすべての事象の完全な履歴を保持できます。
売上を追跡する必要がある小売企業について考えてみましょう。システムは毎晩、その日のすべての注文を取得し、住所をクリーンアップして税金を計算し、データ ウェアハウスに保存します。マネージャーはレポートを実行することで、正確な売上情報(シカゴで販売された青いシャツの数など)を確認できます。データはきれいに整理され、グラフ化する準備が整っています。
銀行では、口座の管理にデータ ウェアハウスを利用することもあります。すべての顧客の正確な残高をいつでも把握できる必要があるため、未加工のログではなく、すべての取引を明確に示す構造化されたテーブルを必要としています。
データ サイエンティストは、不正な予約をリアルタイムで特定できる AI モデルを構築する必要があることがよくあります。データはウェブサイトのログ、モバイルアプリのイベント、サードパーティのパートナーなど、さまざまな場所から取得されるため、AI モデルのトレーニングにはデータレイクが最適です。
まず、すべての元イベントを Cloud Storage に送信するパイプラインを設定します。これには、ウェブサイトからの乱雑な JSON ファイルや、モバイルアプリからのバイナリログが含まれます。Cloud Storage はこのような規模に対応できるように構築されているため、この時点でデータのフォーマットについて心配する必要はありません。
AI モデルでデータを活用するには、データをクリーンアップする必要があります。Apache Spark 向け Google Cloud サービスを使用して、サーバーレスの Apache Spark ジョブを実行できます。これにより、サーバーやクラスタを管理することなく、数百万の未加工のログを構造化された形式に変換できます。
データが準備できたら、機械学習ツールにフィードできます。元の未加工データはデータレイクに残っているため、モデルをさらに改善するのに役立つ可能性がある「隠れた」詳細情報をいつでも確認することができます。
データレイクを使用すると、あらゆるデータを低コストで保存できるほか、モデルを構築する際に必要なデータだけを処理できます。
では、小売業におけるデータ サイエンスのユースケースを見てみましょう。来月、会社が販売する冬用コートの数を予測できます。販売データはすでにクリーンアップされ、データベースに保存されているため、このタスクにはデータ ウェアハウスを使用することが適しています。
まず、会社の中心的なデータ ウェアハウスとして機能する BigQuery を使用します。販売データは、日付、価格、商品 ID の列を含む整然としたテーブルにすでに整理されています。データはすでに構造化されているため、クリーンアップに時間を費やす必要はありません。
過去 5 年間の冬季の売上を確認するための SQL クエリを作成する場合など、数十億行のデータがあっても、BigQuery は数秒で答えを見つけます。このスピードにより、さまざまなアイデアを試して、予測を迅速に改良できます。
予測が完了したら、組み込みツールを使用してダッシュボードを作成できます。マーケティング チームは、注文する必要があるコートの数を正確に把握できるようになりました。BigQuery はサーバーレスであるため、実行したクエリに対してのみ料金が発生し、費用を抑えることができます。
このユースケースでは、データ ウェアハウスが最適なツールです。データ ウェアハウスは、すでに使用可能な形式になっているデータを使用して、特定のビジネス上の質問に対して迅速かつ信頼性の高い回答を提供します。
データレイクとデータ ウェアハウスのどちらを選択するかは、構築するものによって決まります。大量の元データがあり、コードで探索したい場合は、データレイクから始めます。特定のビジネス上の課題があり、迅速で信頼性の高いレポートが必要な場合は、データ ウェアハウスが適しています。多くの大企業は、両方の長所を活かすために、実際には両方を併用しています。