Google Cloud を使用した最新の統合データ分析プラットフォームの構築

Google Cloud 上に構築された最新の統合分析データ プラットフォームを構築するために必要な決定事項について学びます。

作成者: Firat Tekiner、Susan Pierce

概要

作成されるデータは尽きることがありません。 IDC の調査によると、2025 年までに世界中のデータは 175 ゼタバイトまで増加します1。日々生成されるデータの量は驚異的であり、企業がアクセシブルで使用しやすい方法でデータを収集、保存、整理することは実際、データ プロフェッショナルの 90% が信頼性の低いデータソースによって業務が滞ったと答えています。 データ アナリストの約 86% は古いデータに悩まされており、データワーカーの 60% 以上は毎月データのクリーニングと準備を行っている間、エンジニアリング リソースを待機しなければならず、影響を受けています2

非効率的な組織構造とアーキテクチャの決定が、企業がデータを集計することと、それを実際に活用することの間にギャップを生む原因となっています。企業はデータ分析システムをモダナイズするためにクラウドへの移行を望んでいますが、それだけではサイロ化したデータソースや脆弱な処理パイプラインといった根本的な問題を解決することはできません。組織のデータ プラットフォームをより効果的なものにするには、データの所有権に関する戦略的意思決定とストレージ メカニズムに関する技術的な意思決定を、包括的な方法で行う必要があります。

この記事では、Google Cloud 上に構築された最新の統合分析データ プラットフォームを構築するために必要な決定事項について説明します。

この 20 年間、ビッグデータは素晴らしいビジネス チャンスをもたらしました。しかし、組織にとって、関連性があり実用的でタイムリーなデータをビジネス ユーザーに提示することは複雑な課題です。調査によると、アナリストの 86% が今でも古いデータに悩まされており3、データから具体的な価値を生み出すにいたっている企業はわずか 32% しかありません4。第一の問題はデータの更新頻度です。 第二の問題は、異種のシステムや以前のシステムを複数のサイロから統合することの難しさに起因するものです。 組織はクラウドに移行しつつありますが、それだけでは、個々の事業部門のニーズに合わせて縦割りで構築された古いレガシー システムが抱えていた本当の問題は解決されません。

クラウドに移行する組織の種類を表す画像

組織データのニーズを検討する際、往々にして過度な一般化をしてしまい、ただ一つの一貫性のあるデータソース、ただ一つのエンタープライズ データ ウェアハウス、ただ一つのセマンティクス、そしてただ一つのビジネス インテリジェンス用ツールからなる、単一で単純化された構造を考えがちです。非常に小規模で高度に一元化された組織であれば、この方法は有効かもしれませんし、IT とデータ エンジニアリングのチームが統合された単一のビジネス ユニットでも有効かもしれません。しかし、実際には、どの組織もそれほど単純ではなく、データの取り込み、処理、使用に関する想定外の複雑さが常に存在し、問題をさらに複雑にしています。

何百ものお客様とお話しする中で見えてきたのは、データと分析に対するより包括的なアプローチの必要性です。複数のビジネス ユニットとユーザー ペルソナのニーズを満たすことができ、データ処理から余分なステップをできるだけ排したプラットフォームが求められています。これは、単に新しいアーキテクチャやソフトウェア・コンポーネントのセットを購入するだけにとどまりません。企業は、全体的なデータ成熟度を把握し、技術的なアップグレードに加えて、システム的、組織的な変更を行う必要に迫られています。

2024 年の終わりまでに、企業の 75% は AI の試験運用から本格的な運用に移行し、ストリーミング データと分析インフラストラクチャは 5 倍増加することでしょう5。独立したデータ サイエンス チームとサイロ化された環境で AI を試験的に運用するのは簡単です。 しかし、これらの分析情報が本番環境システムに解放されることを阻む根本的な問題は、データのオーナーシップをセグメント化してしまう、組織やアーキテクチャにおける軋轢にあります。その結果、組織の事業運営に組み込まれる分析情報のほとんどは記述的なものであり、予測分析は研究チームの領域のものとして追いやられています。

引用の画像: 「Google Cloud は技術だけでなくユーザーも重視することで、データに対する企業の考え方を変革しています。」

データ ライフサイクル全体を念頭に置いたあらゆるユーザー向けのプラットフォーム

データ作業が一人で行われることはほとんどありません。組織内では多くのユーザーがデータに関わっており、データ ライフサイクルで重要な役割を担っています。それぞれが、データ ガバナンス、鮮度、検出可能性、メタデータ、処理のタイムライン、クエリ可能性などについて、異なる視点を持っています。ほとんどの場合、組織内のユーザー全員が異なるシステムとソフトウェアを使用しており、異なる処理ステージで同じデータを操作します。

例としてある企業における機械学習のライフサイクルを見ていきましょう。データ エンジニアは、データ サイエンス チームが利用できる最新のデータを適切なセキュリティとプライバシーの制約のもとで確保する責任を担います。データ サイエンティストは、データ エンジニアから提供される事前集計済みのデータソースの理想的なセットに基づいてトレーニング データセットとテスト データセットを作成し、モデルを構築してテストし、別のチームが分析情報を利用できるようにします。ML エンジニアは、他のデータ処理パイプラインを中断させない方法で、本番環境システムにデプロイするためのモデルのパッケージ化の責任を担います。 プロダクト マネージャーやビジネス アナリストは、Data QnA(BigQuery データでの分析用自然言語インターフェース)や可視化ソフトウェアを使用して、導き出された分析情報を確認したり、IDE やコマンドライン インターフェースを通じて結果セットに直接クエリを実行したりします。このようにユーザーは数え切れないほど存在し、ニーズもそれぞれ異なります。Google はそうしたユーザーすべてに対応するため、包括的なプラットフォームを構築しました。 Google Cloud は、ビジネスニーズに対応したツールで、お客様の現状に応えます。

さまざまなユーザータイプとそのニーズを示す画像

ビッグデータに関する重要な決断: データ ウェアハウスとデータレイクのどちらを選択すべきか?

データ分析のニーズについてお客様と話すとき、「データレイクとデータ ウェアハウスはどちらが必要か?」という質問をよく耳にします。組織内のデータユーザーやニーズは多種多様であり、この質問の答えは、意図する用途、データの種類、人員によって異なるため、回答するのが難しい場合があります。

  • どのデータセットの分析が必要かを認識していて、その構造を明確に理解できており、答えるべき疑問もわかっている場合、データ ウェアハウスが適している可能性が高くなります。
  • 一方、複数のデータタイプにまたがった検索が容易であることが不可欠であり、実行する分析の種類が不明確で、あらかじめ設定された分析情報を提示するよりも探索する機会を求めており、この環境を効果的に管理および探索するためのリソースがある場合は、データレイクの方がニーズに合っている可能性が高いと言えます。

しかし、意思決定に必要なのはこれだけではありません。そこで、それぞれに関するいくつかの組織的な課題について説明します。データ ウェアハウスは多くの場合管理が難しくなります。 過去 40 年間うまく機能してきたレガシー システムは高額な費用がかかることがわかっているほか、データの更新頻度、スケーリング、高コストなど多くの課題を抱えていることが判明しています。 さらに、AI やリアルタイム機能は、後から追加しない限り、簡単に提供できません。 これらの問題は、オンプレミスの従来のデータ ウェアハウスだけに存在するわけではなく、新しく作成されたクラウドベースのデータ ウェアハウスでも見られます。多くは、謳い文句とは裏腹に、統合された AI 機能を搭載していません。 これらの新しいデータ ウェアハウスは、本質的にレガシー環境をクラウドに移植したものにすぎません。データ ウェアハウスのユーザーはアナリストである傾向が高く、多くの場合、特定のビジネス ユニットに組み込まれています。 これらのユーザーはビジネスへの理解を深めるために有用な追加のデータセットについてアイデアがあるかもしれません。 分析、データ処理、ビジネス インテリジェンス機能の要件における改善のアイデアもあるかもしれません。

しかし、従来の組織では、これらのユーザーがデータのオーナーに直接アクセスできないことが多く、データセットやツールを決定する技術的な意思決定者に影響を与えるのも容易ではありません。また、元データから切り離されているため、仮説をテストしたり、基盤となるデータの深い理解を促進したりすることができません。 データレイクにも独自の課題があります。 理論上は低費用で簡単にスケーリングできますが、多くのお客様がオンプレミスのデータレイクで異なる現実を目の当たりにしています。十分なストレージを計画し、プロビジョニングすることは、特にデータの生成量が大きく変動する組織では、費用がかかり、困難を伴う場合があります。オンプレミスのデータレイクは脆弱であることがあり、既存システムのメンテナンスに時間がかかります。新機能の開発に時間を割くべきエンジニアが、データクラスタの維持管理に追われるケースは珍しくありません。率直に言えば、新しい価値を創造するのではなく、価値を維持しているのです。 全体として、多くの企業で総所有コストが予想以上に高くなっています。 それだけでなく、システムをまたぐガバナンスの問題も簡単には解決できていません。部署ごとに異なるセキュリティ モデルを使用している場合はなおさらです。 その結果、データレイクはサイロ化およびセグメント化され、チーム間でデータやモデルを共有することが難しくなります。

データレイクのユーザーは通常、元データソース重視であり、データを分析するツールと能力を有しています。 従来の組織では、このようなユーザーはデータそのものに焦点を当て、ビジネスの他の部分から距離を置かれていることが多い傾向にありました。 こうした断絶は、ビジネス ユニットが、収益向上、費用削減、リスク低減、新たなビジネス機会といったビジネスの目標を推進するための分析情報を得る機会を逸してしまうことを意味します。 このようなトレードオフを考慮したうえで、多くの企業はデータレイクを設定して一部のデータをデータ ウェアハウスに移行するか、データ ウェアハウスに追加のテストと分析用の副次的なデータレイクを持つハイブリッド アプローチを採用することになります。 しかし、複数のチームが個々のニーズに合わせて独自のデータ アーキテクチャを作成しているため、データの共有と忠実度は主幹 IT チームにとってさらに複雑な課題となっています。あるチームは未来のビジネスを探索し、別のチームはビジネスの現状を理解するというように、別々のチームが別々の目標を持つのではなく、これらの機能とデータシステムを統合することで、ビジネスをより深く理解することが探索を推進し、探索がビジネスをより深く理解することにつながるという好循環を生み出すことができるのです。

データ ウェアハウスとデータレイクのユースケースを比較した画像
これには、データの価値を理解し、発見するためのテクノロジーとアプローチの両方の集約化が必要です。

データ ウェアハウスをデータレイクのように扱う

Google Cloud では、データ ウェアハウスとデータレイクを別々に構築できますが、どちらか一つを選ぶ必要はありません。多くの場合、お客様が使用している基盤となるプロダクトはどちらも同じです。データレイクとデータ ウェアハウスの実装の唯一の違いは、採用されるデータアクセス ポリシーです。実際、この 2 つは、より統一された機能セットである最新の分析データ プラットフォームへと収束し始めています。 Google Cloud でがどのように機能するか見てみましょう。

イメージ

BigQuery Storage API は、Dataflow や Dataproc など、他の多くのシステムで Cloud Storage のように BigQuery ストレージを使用することができる機能を提供します。これにより、データ ウェアハウスのストレージの壁を取り払い、BigQuery 上で高性能なデータフレームを実行することが可能になります。つまり、BigQuery Storage API を使用すると、BigQuery データ ウェアハウスをデータレイクのように運用できるのです。 では、実際にどのような使い方があるのでしょうか? その一つとして、MapReduce、Hive、Spark などの一連のコネクタを構築しました。これにより、Hadoop と Spark のワークロードを BigQuery のデータで直接実行できるようになります。データ ウェアハウスとは別個のデータレイクが必要なくなります。 Dataflow は、バッチ処理やストリーム処理において非常に効果的です。 現在では、BigQuery データ上で Dataflow ジョブを実行し、PubSub や Spanner などのデータソースからデータを拡充できます。

BigQuery はストレージとコンピューティングの両方を個別にスケーリングでき、それぞれがサーバーレスであるため、さまざまなチーム、ツール、アクセス パターンによる使用状況に関係なく、無制限にスケーリングして需要を満たすことができます。上述の用途はすべて、BigQuery に同時にアクセスするほかのジョブのパフォーマンスに影響を及ぼすことなく実行できます。また、BigQuery Storage API はペタビット レベルのネットワークを提供し、ノード間でデータを移動させながら効率的にクエリ リクエストを満たすため、インメモリ オペレーションと同様の性能を発揮します。また、NoSQL や OLTP データベースだけでなく、Parquet や ORC などの一般的な Hadoop データ形式と直接連携することも可能です。BigQuery に組み込まれた Dataflow SQL が提供する機能を使えば、さらに一歩踏み込むことができます。 ストリームを BigQuery テーブルやファイル内のデータを結合して効果的にラムダ アーキテクチャを構築し、大量のバッチデータやストリーミング データを取り込めるようになると同時に、クエリに応答するサービスレイヤを提供できます。 さらに BigQuery BI Engine とマテリアライズド ビューにより、この多目的のアーキテクチャの効率とパフォーマンスをさらに簡単に向上できます。

BigQuery を活用した Google のスマート アナリティクス プラットフォーム

サーバーレスのデータ ソリューションは、組織がデータサイロを越えて分析と対応の領域に移行するためには必要不可欠です。 Google Cloud のコアとなるデータ分析サービスはすべてサーバーレスであり、緊密に統合されています。

コアデータ分析サービスの画像
これらのサービスはすべて、明確な設計とクリーンな実装により、相互に透過的に接続されています。

チェンジ マネジメントは、多くの場合、新しいテクノロジーを組織に取り入れるうえで最も困難を伴う分野の一つです。 Google Cloud は、開発者とビジネス ユーザーの両方に使い慣れたツール、プラットフォーム、統合を提供することで、お客様が置かれている状況に対応することに努めています。Google Cloud のミッションは、データに基づいたイノベーションを通じて、組織がビジネスをデジタル変革して再定義できる可能性を共に高めることです。Google Cloud は、ベンダー ロックインを作り出すのではなく、オンプレミス環境や他のクラウド サービスのプロダクト、さらにはエッジをも取り込むことができる、シンプルで合理化されたインテグレーションを組織に提供し、真のハイブリッドなクラウドを形成します。

  • BigQuery Omni は、データを環境間で移行する手間を省き、環境に関係なくデータが存在する場所で分析を行うことを可能にします。
  • Dataflow を活用する SDK である Apache Beam は、Apache Spark や Apache Flink のようなランナーへの移行性とポータビリティを提供します。
  • Apache Spark や Apache Hadoop の運用を検討している組織向けには、Dataproc を提供しています。

ほとんどのデータユーザーの関心事は、どのようなデータがあるかであり、データが存在するシステムではありません。必要なときに必要なデータにアクセスできることが最も重要です。 したがって、使用目的がデータセットの探索、データストアのソース管理、アドホック クエリの実行、エグゼクティブ関係者向けの社内ビジネス インテリジェンス ツールの開発であっても、ユーザーにとっては、使い慣れたツールで更新頻度が高く有用なデータにアクセスできるのであれば、プラットフォームの種類はほとんど問題ではありません。

関連商品の画像

レガシーに対処する

新しいデータ プラットフォームをゼロから構築することは大変有意義なことですが、すべての企業がそのようなことができる立場にあるわけではありません。 ほとんどの組織は既存のレガシー システムを扱っており、それらを置き換えられるようになるまで移行、移植、またはパッチ適用が必要です。Google は、データ プラットフォームの作業のあらゆるステージでお客様と協力してきており、お客様の状況に応じたソリューションをご用意しています。

お客様の間で見られる移行には、通常、リフト&リプラットフォーム、リフト&リホーム、完全モダナイゼーションという 3 つのカテゴリがあります。ほとんどの企業では、リフト&リプラットフォームから始めることをおすすめします。可能な限り混乱やリスクを排除したインパクトのある移行を行えるからです。この戦略では、従来のデータ ウェアハウスと Hadoop クラスタから BigQuery または Dataproc にデータを移行します。データが移行されると、データ パイプラインとクエリを最適化してパフォーマンスを改善できます。 リフト&リプラットフォームによる移行戦略は、ワークロードの複雑さに応じて、段階的に行うことができます。IT が一元管理され、複数のビジネス ユニットが存在する大企業のお客様には、その複雑さを考慮して、この方法をおすすめします。

移行戦略として 2 番目によく目にするのが、最初のステップとして完全なモダナイゼーションを行うことです。 クラウドネイティブなアプローチで本格的に取り組むため、これまでとは明確に一線を画すことができます。Google Cloud 上でネイティブに構築することになりますが、すべてを一度に変更するため、複数の大規模なレガシー環境がある場合は移行に時間がかかることがあります。

従来のオプションを要約した画像

レガシー システムを明確に断ち切るには、ジョブを書き換えたり、さまざまなアプリケーションを変更したりする必要があります。 しかし、これにより、他の方法と比較して、より高いベロシティとアジリティがもたらされ、長期的には最も低い総所有コストが実現されます。 これを実現できるのには主に 2 つの理由があります。アプリケーションがすでに最適化されており改良する必要がなく、データソースを移行後は同時に 2 つの環境を管理する必要がないからです。このアプローチは、デジタル ネイティブの企業や、レガシー環境があまりないエンジニアリング主導の組織に最適です。

最後に、最も保守的なアプローチはリフト&リホームです。データ エステートをクラウドに移行するための短期的な戦術的ソリューションとしておすすめします。既存のプラットフォームをクラウドに移動させたうえでリホーミングを行い、Google Cloud の環境でこれまでと同じように使用できます。これは、たとえば Teradata や Databricks のような環境にも適用でき、初期リスクを軽減してアプリケーションを実行できます。しかし、これは既存のサイロ化した環境を変換するのではなく、クラウドに移動させるものなので、Google Cloud 上にネイティブに構築されたプラットフォームの性能の恩恵を享受できません。ただし、Google は Google Cloud ネイティブなプロダクトへの完全移行をサポートできるため、相互運用性を活用し、Google Cloud 上に完全に最新のデータ分析プラットフォームを作成できます。

戦術的か戦略的か?

Google では、Google Cloud 上に構築されたデータ分析プラットフォームの主な差別化要因はオープン性、インテリジェンス、柔軟性、緊密な統合にあると考えています。市場には、快適で親しみやすそうな戦術的ソリューションを提供するソリューションが多数存在します。 しかし、これらが提供するのは一般に短期的な解決策にすぎず、時間の経過とともに組織と技術の問題を複雑にするだけです。

戦術的または戦略的な意思決定の画像

Google Cloud はデータ分析を大幅に簡素化します。 クラウドネイティブのサーバーレス アプローチにより、ストレージとコンピューティングを切り離し、ギガバイトからペタバイトのデータを数分で分析できるようになり、データに秘められた可能性を解き放つことができます。 これにより、スケーリング、パフォーマンス、費用といった従来の制約を取り払い、データに対してあらゆる問いを投げかけ、ビジネス上の問題を解決することを可能にします。その結果、単一の信頼できるデータ ファブリックにより、企業全体の分析情報を簡単に運用化できます。

その利点とは?

  • インフラストラクチャではなく分析のみに専念できる
  • 取り込みから変換、分析、ビジネス インテリジェンスまで、データ分析のライフサイクルのあらゆるステージを解決
  • 機械学習を運用化するための強固なデータ基盤を構築
  • 組織に最適なオープンソース テクノロジーの活用を可能にする
  • ビジネスの推進やデジタル トランスフォーメーションにおけるデータ使用の拡大に伴い、企業のニーズに合わせた調整を実現

Google Cloud 上に構築された最新の統合分析データ プラットフォームは、データレイクとデータ ウェアハウスの長所を備えているだけでなく、AI Platform とのより緊密な統合を実現します。何十億ものストリーミング イベントからリアルタイムにデータを自動的に処理し、最大数ミリ秒で分析情報を提供することで、変化する顧客ニーズに対応できます。 Google の業界屈指の AI サービスは、組織の意思決定とカスタマー エクスペリエンスを最適化し、新たなチームを編成することなく、記述的分析と処方的分析の間の溝を埋めるために役立ちます。既存のスキルを補強し、自動化された組み込みのインテリジェンスで AI による影響を拡大することが可能になるのです。

次のステップ

Google データ プラットフォームが、お客様のビジネスにおけるデータの扱い方をどのように変えるかについて、もっと詳しく知りたいとお考えの方は、 詳細についてこちらまでお問い合わせください。

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
コンソール
  • Google Cloud プロダクト
  • 100 種類を超えるプロダクトをご用意しています。新規のお客様には、ワークロードの実行、テスト、デプロイができる無料クレジット $300 分を差し上げます。また、すべてのお客様に 25 以上のプロダクトを無料でご利用いただけます(毎月の使用量上限があります)。
Google Cloud