データ分析

Google Cloud を使用するエンタープライズデータプラットフォームによって新たな収益ストリームを生み出す

2023年10月25日

Google Cloud Japan Team

※この投稿は米国時間 2023 年 10 月 10 日に、Google Cloud blog に投稿されたものの抄訳です。

ある米国の食料品店チェーンが、ビジネスのさまざまな分野のデータを活用して運営を拡張し、追加の収益を生み出そうとしていました。この会社は、異種のレガシーシステム、データ品質の問題、クラウドに関する専門知識の欠如など、いくつかの課題に直面していました。

これらの課題に対処するため、同社は Pythian や Google Cloud と共同で、セキュアかつスケーラブルで柔軟なエンタープライズデータプラットフォーム（EDP）を Google Cloud 上に設計しました。この EDP により、次のことが可能になりました。

需要をリアルタイムでモデル化することによる運用効率の向上。
プロダクトをより的確におすすめすることによる、オンラインでの売り上げの増加。
匿名化データの販売による追加収益の創出（利益率が 30% を超えると予想され、年間収益が 2 倍になりました）。

この EDP は、同社に固有のセキュリティ、プライバシー、スケーラビリティの要件を満たすように設計され、データの分類、ロールベースアクセス制御、包括的なメタデータトラッキングが組み込まれています。

お客様の目標を達成するため、Pythian は Google Cloud と共同で、現代のアナリティクスのニーズを満たすエンタープライズデータプラットフォームを設計しました。この EDP はセルフサービスかつクリーンで、多くのタイプのデータを組み込むことができ、さらには、強固なセキュリティ制御とデータガバナンスを保証しながらスケーリングも可能です。

エンタープライズ向けのデータプラットフォームの設計

セキュアなエンタープライズ規模のデータプラットフォームの設計には、いくつかの主要な能力が必要です。

初めから確保されているセキュリティ

このデータプラットフォームは、最初の取り込みからエンドユーザーへの配信まで、常にセキュアである必要があります。これには、プラットフォームを監査して潜在的な侵害を検出するためのセキュアなプロセスの設置も含まれます。

自動化によるプログラマティックな構成管理

プログラマティックな構成管理は、ソフトウェアシステムの構成メタデータを追跡およびモニタリングするもので、多くの場合、バージョン管理や CI / CD パイプラインと併用されます。構成データの更新を自動的に管理およびモニタリングして、堅牢で安定したシステムを構築するために使用されます。

可能な限りマネージドサービスを使用

Google Cloud のマネージドサービスはビジネス向けの優れた選択肢です。これと同等なソリューションを作成するのは困難で、ほとんどの IT チームにとって手の届かないリソースが必要です。

スケーラビリティを考慮した設計

クラウドベースのデータプラットフォームには、需要に応じてリアルタイムで別々にスケールできる、モジュール式のアーキテクチャが必要です。それによって、プラットフォームの成熟に応じたスケーラビリティを保証しつつ、運用費を最小限に抑えて試験運用を可能にします。

複数のフォーマットと互換性があるデータ取り込みレイヤ

高度にセキュアなデータ取り込みレイヤにより、各種のデータソースからの多様なファイル形式を処理します（例: Oracle、Oracle 以外、SQL、No-SQL）。このレイヤは、モニタリングされるランディングゾーンとして動作し、元データを適切な Google Cloud またはサードパーティ製のツールによって処理できるようにします。

データが到着して最初の処理が行われると、Avro / Parquet 形式に標準化され、以後の処理ロジックが簡単になります。データ取り込みレイヤは、エンタープライズデータウェアハウスの現代化に不可欠な、データベースログをベースとする CDC またはバッチ処理をサポートしています。

異種のエンジンによるデータ処理

さまざまなデータのユースケースは、それぞれに固有の処理要件が存在することが多く、単一のビッグデータ処理エンジンとはかみ合わないこともあります。Google Cloud は、Dataproc、Dataflow、Dataform、その他各種のビッグデータ処理ツールを提供しています。

特定のジョブ要件を満たすため、データプラットフォームは最も適切な環境でプロセスを実行できるよう、十分な柔軟性が必要です。たとえば、ML 用に Avro 形式へのデータ変換を行うタスクは、堅牢な Pandas Dataframes ライブラリを持つ Spark を活用できます。一方で、ストリーミングプロセスでは開発が簡単な Dataflow を活用でき、BigQuery に保存されているデータは集計や KPI 計算などのネイティブ SQL パイプラインに Dataform を使用することにより恩恵を受けられます。最後に、大量のデータセットのため高速なクエリが必要なら、Apache Iceberg テーブルに外部の BigLake テーブルとして BigQuery から直接アクセスして活用できます。

オープンで柔軟なデータプラットフォームを採用することで、お客様はワークロードに基づいて処理エンジン、ソースのデータ形式、ターゲットシステムを自由に選択できます。これにより、現在そして将来も、Google Cloud の広範な能力を最大限に活用できます。

データの分類

データの分類では、ユースケース、情報の種類、データの機密度、必要なアクセスレベルに基づいてデータをグループ化します。データが分類されると、各データセグメントについて、別々のセキュリティパラメータと認証ルールが規定されます。

データリネージ

データリネージは、データのフローをソースから宛先まで追跡し、データクリーニング、集計、計算などの変換をキャプチャします。堅牢なデータリネージのプロセスには、ビジネスグロッサリ（例: Looker の LookML モデル）による列の定義、データオーナーの関与による正確なデータ表現、リネージの自動収集プロセスによるパイプラインギャップの回避が含まれます。

エンタープライズの環境下ではデータリネージの実装が困難なことがあり、包括的なカバーが常に可能とは限りません。その代わりに、主要なリネージのフローに集中し、最初から完全な実装を目指さずに、プラットフォーム全体にわたって次第に増強していきます。データリネージについてさらに詳しい指針を得るには、このガイドを参照するか、Pythian など技術のあるデータリネージパートナーにお問い合わせください。

ロールベースアクセス制御

ロールベースアクセス制御（RBAC）は、アクセス許可を正確かつ詳細に構成し、環境内でのユーザーやグループによるオブジェクトの操作を規定するための仕組みです。EDP では、RBAC を使用してデータレイクなどの一元化された場所にデータを保管しながら、ユーザーの要件に合わせた細かいアクセス制御を維持できます。

コンピューティングとストレージの分離

コンピューティングとストレージの分離は、スケーラブルで費用対効果の高いデータプラットフォームを構築するために不可欠です。ほとんどのクラウド料金モデルでは、ストレージの方がコンピューティングよりも低費用です。エンタープライズデータの量は飛躍的に増大していくため、HDFS のようにコンピューティングと分離できないストレージにデータを長期的に保管することは非現実的になります。

ストレージをコンピューティングから分離すると、オブジェクトストレージを活用できるようになります。これは低費用で事実上無制限の、スケーラブルかつ本質的に高可用性を備えたストレージです。

組み込みの AI / ML 機能

AI / ML はタスクの自動化、データ品質の向上、データからの分析情報の生成に使用できます。

BigQuery ML では、GoogleSQL クエリを使用して、ML モデルの作成と実行を行えます。BigQuery は Vertex AI とも統合され、オンラインモデルのサービングや MLOps 機能を使用できます。Duet AI は Google Cloud に搭載された AI によるコラボレータで、SQL クエリの生成や完了のほか、説明にも役立ち、BigQuery を補完します。

完全なメタデータのトラッキング

メタデータのトラッキングにより、データプラットフォーム内でデータに関するデータをトラッキングできます。メタデータはデータプラットフォームの長期サポートに不可欠です。多くの場合、特定のパイプラインが現在実行中か、または以前に動作したかを知るための唯一の方法です。メタデータは、DataOps チームが問題点をトラッキングおよびアラートし、迅速かつ多くの場合は自動的に応答するために多用されます。

Pythian の Google Cloud 用 EDP は、BigQuery をベースとする統合されたクラウドネイティブな最新のアナリティクスプラットフォームを、ニーズに合わせてカスタマイズするため必要なプロフェッショナルサービスと組み合わせたものです。紹介されているユースケースにあるように、Pythian はデータソースを使用し、Looker や Tableau などの最新のビジネスインテリジェンス（BI）ツールによって、データを分析情報に変換できます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/1_nCBY35Q.max-1700x1700.png

Pythian EDP のコンポーネント

Cloud Storage - あらゆる規模の企業に対応するオブジェクトストレージ。
Pub/Sub - メッセージキューとして、およびデータプラットフォーム全体で処理の制御のために使用され、コンピューティングプロセッサが使用できないときに復元性を提供します。
Cloud Functions - Cloud Functions は EDP の内部で、キュー内の次のタスクを見つけるなど、すべてのオーケストレーションロジックの管理に使用されます。
Composer - タスクの依存関係とプロセスの再試行を管理します。Composer により、Pythian はあらゆる Airflow 環境で動作可能なパイプラインジョブを設計できます。
Data loss prevention API - 必要に応じて機密データを難読化できます。
Dataproc Serverless - 元のソースデータを最初に取り込んでクリーンアップし、変換するために使用されます。広範なファイルやプロセスと統合可能であるため、Spark が選ばれました。
Dataflow - データが取り込まれた後で行われる、すべての BigQuery 以外のプロセスで使用されるメイン処理エンジンです。コーディング不要でデプロイでき、要件の変更に応じて更新できます。
Dataform / dbt - BigQuery 内でデータを直接操作するための SQL ネイティブのパイプラインを生成するために使用されます。
BigQuery - Pythian は、BigQuery と GCS を使用して、お客様用のレイクハウスおよびデータメッシュアーキテクチャを実装します。
BigQuery Studio - データの取り込み、準備、分析、探索、可視化を行うための包括的な機能のセットを提供しており、データ関連のタスクをすべて単一の環境で実行できます。
Looker - ユーザーはデータを分析、可視化し、データから得た分析情報に基づいて行動できます。Pythian の EDP ソリューションの一部として、ビルド済みの Looker ダッシュボードを追加設定なしでデプロイでき、ユースケースに固有のカスタムダッシュボードを実装することも可能です。

結果

EDP は直ちに価値をもたらすことができ、お客様は主要なユースケースを 8 週間以内に実装して、アーキテクチャの準備状況を検証できました。

EDP のメタデータ処理パターンにより、パイプラインを迅速に開発してデプロイ可能なため、ビジネスアナリストがオーナーシップを持つことで IT サポートへの依存を減らすことができました。

パフォーマンステストで EDP の効率性が示され、20 億を超える行を持つ 250 GB のデータをわずか 30 分で処理できるため、将来の実装への信頼が増しました。

手の届くデータプラットフォーム

セキュアかつスケーラブルで、費用対効果の高いデータプラットフォームの基礎を確立し、エンタープライズのニーズを満たすことが、手の届く範囲で実現できるようになりました。そして、実現までの期間をこのようなイニシアチブがこれまで要してきた数か月、数年ではなく、数週間に短縮できます。

Pythian の EDP Quickstart アセットは、業界に認知されているベストプラクティスを中心に十分なテストのもとで設計されています。これを利用することにより、プラットフォームを短期間でセットアップして、データの豊富な価値を引き出し、エンタープライズ全体にスケールして、データを利用して分析情報、予測、成果を獲得できます。

Google Cloud を、Pythian のような高度な技能を持つサービスパートナーと組み合わせることで、組織とデータとの間にある障壁を取り除き、具体的で測定可能な価値を実現できます。Google は、データクラウドの構築を求めているあらゆる規模の企業のためにデータとソフトウェアを結合し、現在は想像もできないような水準まで企業を押し上げます。

Pythian について、および Pythian の Google Cloud 用の Pythian エンタープライズデータプラットフォームクイックスタートを使用してデータプラットフォームを使い始める方法について詳しくは、このサービスの概要を参照し、Pythian にお問い合わせください。

Pythian、ソリューション アーキテクト Scott McCormick 氏
Google Cloud、パートナー エンジニア Sebastian Senen-Gonzalez

投稿先

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_PLgY40R.max-700x700.png

Data Analytics

Earth Engine ラスター分析と地図上の可視化で BigQuery の地理空間機能を強化

執筆者: Sheba Rasson • 所要時間: 6 分

Data Analytics

どこからでもデータとチャット: Google の新しい Conversational Analytics API

執筆者: Richard Kuzma • 所要時間: 6 分

Data Analytics

BigQuery の仕組み: 高度なランタイムにおける短いクエリの最適化

執筆者: Mohamed S. Hassan • 所要時間: 4 分

Security & Identity

Google Cloud DSPM でデータセキュリティを次のレベルへ

執筆者: Colin Zhang • 所要時間: 3 分

Google Cloud を使用するエンタープライズ データ プラットフォームによって新たな収益ストリームを生み出す

Google Cloud Japan Team

エンタープライズ向けのデータ プラットフォームの設計

初めから確保されているセキュリティ

自動化によるプログラマティックな構成管理

可能な限りマネージド サービスを使用

スケーラビリティを考慮した設計

複数のフォーマットと互換性があるデータ取り込みレイヤ

異種のエンジンによるデータ処理

データの分類

データリネージ

ロールベース アクセス制御

コンピューティングとストレージの分離

組み込みの AI / ML 機能

完全なメタデータのトラッキング

Pythian EDP のコンポーネント

結果

手の届くデータ プラットフォーム

関連記事

Earth Engine ラスター分析と地図上の可視化で BigQuery の地理空間機能を強化

どこからでもデータとチャット: Google の新しい Conversational Analytics API

BigQuery の仕組み: 高度なランタイムにおける短いクエリの最適化

Google Cloud DSPM でデータ セキュリティを次のレベルへ

Google Cloud を使用するエンタープライズデータプラットフォームによって新たな収益ストリームを生み出す

エンタープライズ向けのデータプラットフォームの設計

可能な限りマネージドサービスを使用

ロールベースアクセス制御

手の届くデータプラットフォーム

Google Cloud DSPM でデータセキュリティを次のレベルへ