Google Cloud Next Tokyo:7/30、31 東京ビッグサイトにて開催!

データレイクとデータ ウェアハウスの比較

データ マネジメントは、エンタープライズ分析を強化し、優れたカスタマー エクスペリエンスを構築するうえで大きな役割を果たします。データレイクやデータ ウェアハウスについて知識があったとしても、どちらが自身のプロジェクトに適しているかを判断するのは難しいものです。これら 2 つのシステムでは、データの処理方法が異なります。データレイクは、目的をすぐに定義しない、未加工のデータの大きなプールのようなものです。データ ウェアハウスは、特定のタスクのために整理、フィルタリングされたデータのライブラリのようなものです。これらの違いを把握することで、データニーズに合った適切なツールを選択できます。

データレイクとデータ ウェアハウスの定義

  • データレイクは、あらゆる規模のデータをすべて保存できる一元的な場所です。保存する前にデータを変更する必要はありません。構造化データ、半構造化データ、非構造化データなど、あらゆる形式のデータを未加工の状態で保存します。そのため、まずは大量のデータを収集し、その活用方法は後で決めるという場合に最適です。
  • データ ウェアハウスは、データの分析とレポート作成のために構築されたシステムです。データレイクとは異なり、すでにクリーンアップと処理が済んだデータのみが保存されます。構造化データは、特定の構造(スキーマ)を使用してデータを整理します。そのため、クエリの実行やビジネス レポートを非常に高速に作成できます。

データレイクとデータ ウェアハウスの主な違いは何ですか。

この 2 つのシステムの主な違いは、データ構造とその用途です。データレイクは未加工の非構造化データ用、データ ウェアハウスは構造化された処理済みデータ用です。

機能

データレイク

データ ウェアハウス

データの種類

あらゆるデータ(未加工、構造化、非構造化)

処理済みの構造化データ

目的

未定義

明確かつ具体的

ユーザー

データ サイエンティスト、データ エンジニア

データ アナリスト、ビジネス インテリジェンス アナリスト

ユーザー補助機能

柔軟性が高く、変更が容易

変更が難しく、より硬直的

処理

スキーマオンリード(使用時に定義)

スキーマオンライト(保存前に定義)

メリット


  • 大量のデータに対して低コスト
  • あらゆるデータ型に対応する柔軟性
  • AI / ML モデル向けのスケーラビリティ
  • 高パフォーマンスの SQL クエリ
  • 高いデータ品質と信頼性
  • SQL ユーザーにとって安全かつ簡単

機能

データレイク

データ ウェアハウス

データの種類

あらゆるデータ(未加工、構造化、非構造化)

処理済みの構造化データ

目的

未定義

明確かつ具体的

ユーザー

データ サイエンティスト、データ エンジニア

データ アナリスト、ビジネス インテリジェンス アナリスト

ユーザー補助機能

柔軟性が高く、変更が容易

変更が難しく、より硬直的

処理

スキーマオンリード(使用時に定義)

スキーマオンライト(保存前に定義)

メリット


  • 大量のデータに対して低コスト
  • あらゆるデータ型に対応する柔軟性
  • AI / ML モデル向けのスケーラビリティ
  • 高パフォーマンスの SQL クエリ
  • 高いデータ品質と信頼性
  • SQL ユーザーにとって安全かつ簡単

業界の例

モバイルゲームを開発しており、すべてのユーザーによるすべてのボタンクリックをトラッキングしたいと考えています。次のアップデートでどのクリックが重要になるかはまだわかりません。これらの未加工の JSON イベントはすべて、データレイクに直接送信できます。その後、データ サイエンティストはスクリプトを実行して、その元データからパターンを見つけることができます。

もう 1 つの例として、IoT センサーが挙げられます。毎秒温度データを送信するセンサーが何千台もある場合、その生データをデータレイクにダンプすることで、事前にデータをどのようにフォーマットすべきかを気にすることなく、発生したすべての事象の完全な履歴を保持できます。

売上を追跡する必要がある小売企業について考えてみましょう。システムは毎晩、その日のすべての注文を取得し、住所をクリーンアップして税金を計算し、データ ウェアハウスに保存します。マネージャーはレポートを実行することで、正確な売上情報(シカゴで販売された青いシャツの数など)を確認できます。データはきれいに整理され、グラフ化する準備が整っています。

銀行では、口座の管理にデータ ウェアハウスを利用することもあります。すべての顧客の正確な残高をいつでも把握できる必要があるため、未加工のログではなく、すべての取引を明確に示す構造化されたテーブルを必要としています。

データレイクを使用した AI モデルの構築

データ サイエンティストは、不正な予約をリアルタイムで特定できる AI モデルを構築する必要があることがよくあります。データはウェブサイトのログ、モバイルアプリのイベント、サードパーティのパートナーなど、さまざまな場所から取得されるため、AI モデルのトレーニングにはデータレイクが最適です。

元データの収集

まず、すべての元イベントを Cloud Storage に送信するパイプラインを設定します。これには、ウェブサイトからの乱雑な JSON ファイルや、モバイルアプリからのバイナリログが含まれます。Cloud Storage はこのような規模に対応できるように構築されているため、この時点でデータのフォーマットについて心配する必要はありません。

大規模な処理

AI モデルでデータを活用するには、データをクリーンアップする必要があります。Apache Spark 向け Google Cloud サービスを使用して、サーバーレスの Apache Spark ジョブを実行できます。これにより、サーバーやクラスタを管理することなく、数百万の未加工のログを構造化された形式に変換できます。

モデルのトレーニング

データが準備できたら、機械学習ツールにフィードできます。元の未加工データはデータレイクに残っているため、モデルをさらに改善するのに役立つ可能性がある「隠れた」詳細情報をいつでも確認することができます。

データレイクを使用すると、あらゆるデータを低コストで保存できるほか、モデルを構築する際に必要なデータだけを処理できます。

データ ウェアハウスを使用した販売予測

では、小売業におけるデータ サイエンスのユースケースを見てみましょう。来月、会社が販売する冬用コートの数を予測できます。販売データはすでにクリーンアップされ、データベースに保存されているため、このタスクにはデータ ウェアハウスを使用することが適しています。

クリーンなデータへのアクセス

まず、会社の中心的なデータ ウェアハウスとして機能する BigQuery を使用します。販売データは、日付、価格、商品 ID の列を含む整然としたテーブルにすでに整理されています。データはすでに構造化されているため、クリーンアップに時間を費やす必要はありません。

高速クエリの実行

過去 5 年間の冬季の売上を確認するための SQL クエリを作成する場合など、数十億行のデータがあっても、BigQuery は数秒で答えを見つけます。このスピードにより、さまざまなアイデアを試して、予測を迅速に改良できます。

分析情報の共有

予測が完了したら、組み込みツールを使用してダッシュボードを作成できます。マーケティング チームは、注文する必要があるコートの数を正確に把握できるようになりました。BigQuery はサーバーレスであるため、実行したクエリに対してのみ料金が発生し、費用を抑えることができます。

このユースケースでは、データ ウェアハウスが最適なツールです。データ ウェアハウスは、すでに使用可能な形式になっているデータを使用して、特定のビジネス上の質問に対して迅速かつ信頼性の高い回答を提供します。

Google Cloud でビジネスの課題を解決する

新規のお客様には、Google Cloud で使用できる無料クレジット $300 分を差し上げます。
お客様独自の課題については、Google Cloud のセールス スペシャリストまで詳しくご相談ください。

データレイクとデータ ウェアハウスのどちらを選択するか

データレイクとデータ ウェアハウスのどちらを選択するかは、構築するものによって決まります。大量の元データがあり、コードで探索したい場合は、データレイクから始めます。特定のビジネス上の課題があり、迅速で信頼性の高いレポートが必要な場合は、データ ウェアハウスが適しています。多くの大企業は、両方の長所を活かすために、実際には両方を併用しています。

次のステップ

$300 分の無料クレジットと 20 以上の無料枠プロダクトを活用して、Google Cloud で構築を開始しましょう。

Google Cloud