Google Cloud Next Tokyo:7/30、31 東京ビッグサイトにて開催!

データ ウェアハウスとは

データ ウェアハウスはエンタープライズ データ ウェアハウス(EDW)とも呼ばれ、複数のデータソース(POS トランザクション、マーケティングの自動化、顧客管理など)からの構造化データと半構造化データの分析、およびレポートに使用されるエンタープライズ データ プラットフォームです。

データ ウェアハウスには、分析データベースと重要な分析コンポーネントおよびプロシージャが含まれています。データ パイプライン、クエリ、ビジネス アプリケーションなど、アドホック分析やカスタム レポートをサポートします。データ ウェアハウスは、現在と過去の膨大なデータを 1 か所に集約して統合し、長期間のデータを表示できるよう設計されています。こうしたデータ ウェアハウスの機能により、データ ウェアハウジングは、情報に基づいたビジネス上の意思決定をサポートするエンタープライズ分析の主要な定番となっています。

Google Cloud の費用対効果に優れたサーバーレスのマルチクラウド エンタープライズ データ ウェアハウスである BigQuery について詳細をご覧ください。

データ ウェアハウスの定義

データ ウェアハウスとは、POS トランザクション、マーケティング オートメーション、顧客管理などの複数のソースからの構造化データおよび半構造化データの分析とレポート作成に使用される企業システムです。データ ウェアハウスはアドホック分析やカスタム レポート作成に適しています。 また、データ ウェアハウスは現在と過去のデータの両方を 1 か所に保存でき、長期間のデータを表示できるよう設計されていることから、ビジネス インテリジェンスにおける主要なコンポーネントとなっています。

従来のデータ ウェアハウスとクラウドベースのデータ ウェアハウス

従来のデータ ウェアハウスはオンプレミスでホストされ、リレーショナル データベース、トランザクション システム、ビジネス アプリケーション、その他のソースシステムからデータが流れ込みます。しかし、従来のデータ ウェアハウスは通常、データのサブセットをバッチでキャプチャし、厳格なスキーマに基づいてデータを保存するように設計されているため、突発的なクエリやリアルタイム分析には適していません。また、オンプレミスのデータ ウェアハウスでは、企業が独自のハードウェアとソフトウェアを購入する必要があるため、スケーリングと維持に費用がかかります。従来のウェアハウスでは、通常、ストレージはコンピューティングに比べて制限されているため、データを迅速に変換してから破棄し、ストレージ容量を空けておきます。

今日のデータ分析アクティビティは、収益の創出、コストの抑制、業務の改善、カスタマー エクスペリエンスの向上など、すべてのコア ビジネス アクティビティの中心に変わりました。データが進化し多様化するにつれて、組織は、組織全体の大量のデータを保存、管理、分析するための、より堅牢なデータ ウェアハウス ソリューションと高度な分析ツールを必要としています。

システムはスケーラブルで信頼性が高くなくてはならず、規制産業にも十分なほどの安全性が求められます。また、さまざまなデータの種類とビッグデータのユースケースをサポートできる柔軟性も備えていなければなりません。また、柔軟な料金設定とコンピューティングをサポートし、容量を推測するのではなく、必要な分だけ料金を支払う必要があります。こうした要件は、ほとんどのレガシー データ ウェアハウスの能力をはるかに上回っています。その結果、多くの企業がクラウドベースのデータ ウェアハウス ソリューションに注目しています。

クラウド データ ウェアハウスは、従来のデータ ウェアハウスから機能を拡張し、クラウド上のフルマネージド サービスで実行されるもので、従来のデータ ウェアハウスとトレードオフの関係にはありません。クラウド データ ウェアハウジングは、変化するビジネス要件に対応する即時のスケーラビリティと、複雑な分析クエリをサポートする強力なデータ処理を提供します。

クラウド データ ウェアハウスでは、クラウド環境本来の柔軟性を備えており、費用の点でも金額を予想できます。クラウド サービス プロバイダが物理インフラストラクチャを管理、保守するため、オンプレミスのデータ ウェアハウス ソリューションと比べて、先行投資ははるかに少なく、リードタイムも短期間です。

クラウドでのデータ ウェアハウジングの仕組み

従来のデータ ウェアハウスと同様に、クラウド データ ウェアハウスは内部と外部のデータソースからデータを収集、統合、保存します。通常、データはデータ パイプラインを使用してソースシステムから転送されます。データはソースシステムから抽出され、変換されてからデータ ウェアハウスに読み込まれます。このプロセスは ETL(抽出、変換、読み込み)と呼ばれます。また、データを中央リポジトリに直接送信し、ELT(抽出、読み込み、変換)プロセスを使用して変換することも可能です。そこから、ユーザーはさまざまなビジネス インテリジェンス(BI)ツールを使用して、データにアクセスし、マイニングして、レポートを作成できます。クラウド データ ウェアハウスは、リアルタイムまたはほぼリアルタイムでデータを活用するために、ストリーミング ユースケースもサポートする必要があります。

クラウド データ ウェアハウスは、パブリック クラウド環境内で構造化データと半構造化データの保存、処理、統合、クレンジング、読み込みなどを提供します。また、クラウド データレイクと組み合わせて使用することで、非構造化データを収集して保存することも可能です。プロバイダによっては、データ ウェアハウスとデータレイクを統合して、企業データの単一のコピーを維持し、一元的に管理することも可能です。

クラウド データ ウェアハウス サービスに関しては、クラウド プロバイダによってさまざまなアプローチが取られる可能性があります。たとえば、一部のクラウド データ ウェアハウスでは、従来のデータ ウェアハウスと同様のクラスタベースのアーキテクチャが使用されている場合があります。一方、最新のサーバーレス アーキテクチャを採用する企業は、データ マネジメントの責任をさらに最小限に抑えています。しかし、ほとんどのクラウド データ ウェアハウスには、データ ストレージと容量管理機能、自動アップグレード機能が組み込まれています。

クラウド データ ウェアハウスには、他にも次のような重要な機能があります。

  • 超並列処理(MPP)
  • カラム型データストア
  • セルフサービス ETL と ELT データ統合
  • 障害復旧機能と自動バックアップ
  • コンプライアンス ツールとデータ ガバナンス ツール
  • BI、AI、ML 向けの組み込みの統合機能

クラウドでのデータ ウェアハウジングのメリット

マネージド サービスが実現するコスト削減とスケーラビリティによって、企業はますます従来のデータ ウェアハウスからクラウドへ移行しています。

クラウド データ ウェアハウジングの主なメリットは次のとおりです。

スケーリングを考慮した設計

クラウド データ ウェアハウスは、ほぼ無制限のストレージと容量を提供する、弾力性のあるものです。ビジネスニーズの変化に応じて簡単にスケールアップまたはスケールダウンでき、支払いは使用した分のみです。

ML と AI のイニシアチブ

お客様は、データ マイニング、ビジネス成果の予測、そしてさらにデータ ライフサイクル管理からビジネス プロセス、運用コストに至るその他の領域を最適化するために、クラウド データ ウェアハウスに対する ML モデルと AI テクノロジーを迅速に活用して運用化できます。

稼働時間が向上

クラウド プロバイダは、シームレスにスケールする、信頼性の高いクラウド インフラストラクチャを使用して、SLA を守り稼働時間を改善する義務があります。オンプレミスのデータ ウェアハウスは、スケールとリソースの制限があり、パフォーマンスに影響を与える可能性があります。

費用の予測可能性

クラウドによって、より柔軟で予測可能な料金設定が実現します。一部のプロバイダでは、1 時間あたりのスループットまたはノード数で課金されます。 一定量のリソースに対して固定料金を請求するプロバイダもあります。いずれの場合にも、リソースが使用中であるかどうかにかかわらず日々休むことなく 24 時間オンプレミスのデータ ウェアハウスを稼働することで発生する莫大なコストを避けることができます。

運用コストの削減

クラウド データ ウェアハウスはフルマネージドであるため、サービスレベル契約(SLA)を満たす義務があるクラウド プロバイダに管理作業の手間を外部委託できます。これによって、運用コストを削減でき、社内チームが成長イニシアチブに集中できます。

リアルタイム分析

クラウド データ ウェアハウスは、ストリーミング データをサポートするより強力なコンピューティングを提供し、リアルタイムでデータをクエリできるようにします。その結果、オンプレミスのデータ ウェアハウスよりもはるかに高速にデータにアクセスして使用できるようになり、より正確な分析情報をより迅速に取得して、より多くの情報に基づいたビジネス上の意思決定を行えます。

データ ウェアハウスを使用する目的

クラウド データ ウェアハウジングは、組織にメリットをもたらす多様なソリューションを提供します。データ ウェアハウスの最も一般的なユースケースをいくつかご紹介します。

リアルタイムの意思決定: リアルタイムでデータを分析することで、課題への能動的な対処、機会の特定、効率の向上、コスト削減、ビジネス イベントへの早期の対応が実現します。

サイロ化されたデータの統合: POS システム、ウェブサイト、メーリング リストなど、組織全体の複数の構造化ソースからデータをすばやく取得して 1 か所にまとめることで、分析を行い、分析情報を得られるようにします。

ビジネス レポートやアドホック分析の実現: 過去のデータを運用データとは別のサーバーに保持することで、オペレーティング システムのパフォーマンスに影響を与えたり、IT 部門から支援を待ったりすることなく、エンドユーザーがオペレーション データにアクセスして独自のクエリやレポートを実行できるようにします。

ML と AI の実装: 履歴データとリアルタイム データを収集して、トラフィックの急増を予測したり、ウェブサイトを閲覧している顧客に関連商品を提案したりするなど、予測的な分析情報を提供できるアルゴリズムを開発します。

一部の企業や業種では、規模が大きいだけでなく、継続的かつリアルタイムなデータ分析が必要です。たとえば、リアルタイムのデータを使用して、一日をとおして動的に価格を調整するサービス プロバイダもあります。保険会社では、ポリシーや売り上げ、保険金請求、給与などを追跡しています。詐欺の予測にも ML を使用しています。ゲーム制作会社は、プレーヤーのエクスペリエンスを向上させるために、ユーザーの行動をリアルタイムに追跡して対応する必要があります。データ ウェアハウスは、これらすべての作業を可能にします。

すでに以下のいずれかが存在する、または行っている企業の場合、データ ウェアハウスが適していると考えられます。

  • 種類が異なる複数のデータソース
  • ビッグデータの分析と可視化 - ともに非同期かつリアルタイム
  • ML モデルやその他の AI を活用したプロセス
  • ストリーミング分析
  • カスタム レポートの生成とアドホック分析
  • データ マイニング
  • データ サイエンスと地理空間分析

クラウドベースのデータ ウェアハウス ソリューションの選び方

クラウドベースのデータ ウェアハウスを選択する際には、ソリューションの仕組みを評価し、クラウド データ ウェアハウスでサポートする必要がある既存のユースケースを深く理解することが重要です。

プロバイダを選択する際には、アーキテクチャ、スケーラビリティ、セキュリティ、料金、パフォーマンスなどの違いを含め、データ ウェアハウス機能以外にも多くの考慮事項があります。たとえば、実装が簡単なソリューションでもスケーリングが容易でなかったり、現在のシステムをアップグレードするために、すべてのデータ アナリストの再トレーニングと追加ライセンスの購入が必要になったりすることがあるかもしれません。

ベンダー間の違いを検討するだけでなく、クラウド データ ウェアハウスへの移行が具体的にどのようなものになるのか、既存の IT 投資や具体的なビジネスニーズとどのように関連するのかを検討することも重要です。

エンタープライズ データ ウェアハウスは、組織の意思決定において中心的な役割を果たします。そのため、ビジネス要件、現在のユースケース、既存のソリューションとのギャップを深く理解していることを確認する必要があります。主要な関係者にプロセスの早い段階から関与してもらうことで、以前のデータ ウェアハウス ソリューションを置き換えることの意味、課題に対処するための機能要件、データソース、ツール、フレームワークなどに関する詳細な技術情報の把握に役立ちます。

Google Cloud でビジネスの課題を解決する

新規のお客様には、Google Cloud で使用できる無料クレジット $300 分を差し上げます。
お客様独自の課題を詳細に検討するには、Google Cloud のセールス スペシャリストまでご相談ください。

次のステップ

$300 分の無料クレジットと 20 以上の無料枠プロダクトを活用して、Google Cloud で構築を開始しましょう。

  • Google Cloud プロダクト
  • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
Google Cloud