Google Cloud AI で構築: AI がスタートアップやエンタープライズのデータ品質とオブザーバビリティを向上させる仕組み
Google Cloud Japan Team
※この投稿は米国時間 2023 年 9 月 6 日に、Google Cloud blog に投稿されたものの抄訳です。
昨今のビジネス状況において、データドリブンな組織であることは不可欠です。データドリブンな分析情報を活用することで、イノベーションを促進し、成長の機会を見きわめ、競争上の優位性を確保できるようになります。ただし、組織がこれらを実現するには、高品質のデータを使用する必要があります。つまり、タイムリーで信頼性が高く、エラー、省略、重複のないデータです。低品質のデータを基に行われるビジネス インテリジェンスや意思決定は、顧客やビジネスに深刻な影響を与える可能性があります。
データ オブザーバビリティ - 調査を要するシグナルがデータに含まれていないかどうかを明らかにする一連の手法とリアルタイムのプロセスです。これにより、正確かつ完全で、最新のデータを利用できるようになり、組織は情報に基づいて自信を持ってビジネス上の意思決定を下すことができます。ただし、特に大量のデータの場合に言えることですが、データの正確性と妥当性をタイムリーに確保するためのデータ オブザーバビリティには、分散コンピューティング フレームワークと大規模な処理能力が必要です。これが、データ オブザーバビリティ ソリューションを実行するアーキテクチャとして Google Cloud が選ばれる理由です。
最新のデータスタックにおけるデータ品質の課題
従来、組織はデータ品質の確保に、ルールベースの手動のアプローチを取ってきました。ところが、このような従来のアプローチ(図 1)は、次のような 4 つの制限があることから、データチームの要件を満たさなくなってきました。


運用上のオーバーヘッド: 手動でのルール管理は、時間がかかるうえ、その性質上、エラーが発生しやすいプロセスです。また、事後対応プロセスであるため、データチームが新しいルールの必要性に気付くのは、何か問題が発生したときだけです。
費用対効果の高いスケーラビリティ: データ量と複雑さが増すにつれ、データ品質と正確さを手動で管理することがますます難しくなります。これは特に、データが複数のストレージ システムに分散している場合に顕著です。プロセスに自動化を組み込まないと、ルールベースの管理をスケールするために人間とコンピューティングのリソースを追加しなければならなず、費用を押し上げることになります。
バッチデータとストリーミング データ(半構造化データを含む): データ品質を大規模に確保するには、数百ものテーブル、およびデータソースに含まれるすべて(あるいは大部分)の属性にわたって、問題の分析、発見、検出を行うことが必要で、多くの場合そういったデータソースには半構造化 JSON データが含まれます。このようなタイプのワークロードは計算負荷が高いです。多くの場合、1 つのデータ パイプラインが、データ ウェアハウス、Delta Lake、分析データベース、ストリーミング システムといった、基盤となる複数のソースシステムで構成されており、これらすべてのシステムが、ルールベースのアプローチによる実行とスケールを難しくする要因となっています。
不完全な可視性: ルールベースのデータ品質管理では、データの評価に、不整合、不一致、不正確などの問題に対して事前定義されている指標やアラートが使用されます。一方、データ内の異常、外れ値、ドリフトは、データ オブザーバビリティ ツールなしでは検出されない可能性があります。こういったツールは、ML と統計的分析を使用して、データから学習し、問題を予測し、根本原因を明らかにし、データ内の変化のモニタリングを通して、調査に値するシグナルを見つけます。
Google Cloud: Telmai のデータ オブザーバビリティ プラットフォームに選択されたプラットフォーム
Google Cloud 上で構築され、実行される Telmai データ オブザーバビリティ プラットフォームは、すべてのデータソースからの一元化したデータビューを提供することで、組織がデータ品質のモニタリングと管理を行えるようにします。Telmai のエンジンは、データのプロファイリングと分析を行って、欠損値、重複レコード、誤ったデータ型といった問題の可能性を特定します。また、ML ベースの異常検出を実施して、データ内で問題を示唆している可能性のある予期せぬ値を明らかにし、合理的に想定されることを予測します。さらに、継続的なモニタリングを実施して、データ品質における経時的変化を検出します。


Telmai は、データ品質とオブザーバビリティのスケーリングと、その課題への対処を実現するために、AI を活用した高度なアーキテクチャ(図 2)を構築するにあたって、さまざまなクラウド コンピューティング プラットフォームを検討したうえで、Google Cloud を選択しました。Dataproc、Pub/Sub、Google Kubernetes Engine(GKE)、BigQuery といった Google Cloud のマネージド サーバーレス コンポーネントから、経済的にもパフォーマンス上でも最大の価値が得られると考えたからです。Google Cloud 上の最新アーキテクチャで構築される Telmai のオブザーバビリティ プラットフォームは、スタートアップにとっては迅速にデプロイでき、エンタープライズにとっては必要に応じてスケールできるソリューションです。
Telmai は、Spark(Google Cloud Dataproc を通して実行)を処理エンジンとして使用することで、BigQuery などの基盤となる運用システムからデータ品質分析と異常検出を分離できるようになりました。これにより、次のような 3 つの利点が得られます。
オープン アーキテクチャ: Telmai の分離アーキテクチャにより、顧客のデータ パイプライン内のあらゆる種類の基盤システムについて、これらのシステムに負担をかけることなく、データ品質の指標としきい値を計算(および継続的にモニタリング)できるようになります。このオープン アーキテクチャにより、データ アーキテクトは、データ品質とオブサーバビリティの再設計を心配することなく、データシステムの追加、アップグレード、交換を柔軟に行えるようになります。
スケーラビリティ: Spark により Telmai は、データ モニタリング専用の高度に最適化されたスケーラブルなアルゴリズムを設計できます。これは、SQL クエリを実行する従来のアプローチでは対応できなかったことです。弾力性のあるリソースを使用するスケーラブルなアーキテクチャにより、Telmai データ オブザーバビリティ プラットフォームは、数億ものデータの指標と動向をモニタリングでき、それと並行して効率的に高スループットでデータを検証できます。たとえば、1,000 以上の属性の 1 億行以上の JSON 構造のデータを検証できます。また、Dataproc サービスを利用することで、幅広く復元性が高まり、運用が簡単になります。たとえば、クラスタを必要に応じて自動スケーリング、スピンアップ、停止することができます。これにより、顧客はソリューションの費用を抑えることができます。
セキュリティとオペレーション: Google Cloud は高レベルのセキュリティ管理機能を提供します。こういった機能は、多要素認証、シングル サインオン、キーストア、きめ細かいロール、本番環境からの開発環境の容易な分離といった基本レベルの手法から、脆弱性を追跡して是正する Security Command Center といった高度な手法までさまざまです。
あらゆる組織にとって特に大きなセキュリティ リスクがヒューマン エラーです。このため、インフラストラクチャをコードとして定義して運用し、デプロイを標準化して、構成ミスや露出の発生を最小限に抑えることが重要です。Telmai は Kubernetes と GKE を活用することで、そういったリスクをさらに軽減できるだけでなく、Telmai デプロイを完全に顧客のアカウント内で簡単に実行できる(プライベート クラウド オプション)ようになり、すべてのデータを安全な境界内に留められるようになります。
これらの利点すべてにより、Telmai は新しいインテグレーションのサポートも含め、飛躍的な速度で開発を進めています。Dataproc や GKE といったマネージド サービスを活用することで、Telmai は、ソフトウェアの運用ではなくアプリケーションの構築に注力できるようになっています。Telmai は、Google Cloud スタックを通して、インフラストラクチャ、自動スケーリング、セキュリティ、DevOps などをすぐに利用できます。
Google Cloud と Telmai: データ オブザーバビリティにおけるパートナー
Google Cloud は、テクノロジー、便利な専用のエンジニアリング サポート、市場開拓共同プログラムを簡単に利用できるようにすることで、Telmai のようなテック企業が Google のデータクラウド上で革新的なアプリケーションを構築できるように支援しています。
Google Cloud のオープンで革新的な生成 AI パートナー エコシステムおよび Telmai と Google Cloud の詳細をご覧ください。
- Google、クラウド パートナー エンジニアリング担当ディレクター Ali Arsanjani 博士