Well-Architected Framework: AI と ML の視点

Last reviewed 2025-02-14 UTC

このドキュメント(Google Cloud Well-Architected Framework)では、運用、セキュリティ、信頼性、費用、パフォーマンスの目標を満たすように AI ワークロードと ML ワークロードを設計、構築、管理するための原則と推奨事項について説明します。 Google Cloud

このドキュメントの対象読者は、 Google Cloudで AI ワークロードと ML ワークロードを設計、構築、デプロイ、維持する意思決定者、アーキテクト、管理者、デベロッパー、オペレーターです。

次のページでは、Well-Architected フレームワークの各柱について、AI と ML に固有の原則と推奨事項について説明します。

寄稿者

著者:

  • Benjamin Sadik | AI および ML スペシャリスト カスタマー エンジニア
  • Filipe Gracio 博士 | カスタマー エンジニア
  • Isaac Lo | AI ビジネス デベロップメント マネージャー
  • Kamilla Kurta | 生成 AI / ML スペシャリスト カスタマー エンジニア
  • Mohamed Fawzi | ベネルクス セキュリティ / コンプライアンス リード
  • Rick(Rugui)Chen | AI Infrastructure Solutions アーキテクト
  • Sannya Dang | AI ソリューション アーキテクト

その他の寄稿者:

  • Daniel Lees | クラウド セキュリティ アーキテクト
  • Gary Harmson | カスタマー エンジニア
  • Jose Andrade | エンタープライズ インフラストラクチャ カスタマー エンジニア
  • Kumar Dhanagopal | クロス プロダクト ソリューション デベロッパー
  • Marwan Al Shawi | パートナー カスタマー エンジニア
  • Nicolas Pintaux | カスタマー エンジニア、アプリケーション モダナイゼーション スペシャリスト
  • Radhika Kanakam | シニア プログラム マネージャー、Cloud GTM
  • Ryan Cox | プリンシパル アーキテクト
  • Stef Ruinard | 生成 AI フィールド ソリューション アーキテクト
  • Wade Holmes | グローバル ソリューション ディレクター
  • Zach Seils | ネットワーキング スペシャリスト

AI と ML の視点: 運用の卓越性

このドキュメント(Well-Architected フレームワーク: AI と ML の視点)では、 Google Cloudで堅牢な AI システムと ML システムを構築して運用するための原則と推奨事項の概要について説明します。これらの推奨事項は、オブザーバビリティ、自動化、スケーラビリティなどの基本的な要素を設定するために役立ちます。このドキュメントの推奨事項は、 Google Cloud Well-Architected Framework のオペレーショナル エクセレンスの柱に沿っています。

AI と ML ドメインにおける運用の卓越性は、組織の戦略目標を推進する複雑な AI システムと ML パイプラインをシームレスにデプロイ、管理、ガバナンスする能力です。オペレーショナル エクセレンスにより、変化に効率的に応答し、運用の複雑さを軽減し、運用がビジネス目標に沿ったものになるようにすることができます。

モデル開発のための堅牢な基盤を構築する

問題の定義からデプロイまで、モデル開発を効率化するための堅牢な基盤を確立します。このような基盤により、信頼性が高く効率的なコンポーネントと選択肢に基づいて AI ソリューションを構築できます。この種の基盤は、変更や改善を迅速かつ簡単にリリースするのに役立ちます。

以下の推奨事項を参考にしてください。

  • AI システムが解決する問題と、望ましい結果を定義します。
  • モデルのトレーニングと評価に必要な関連データを特定して収集します。次に、元データをクリーニングして前処理します。データ検証チェックを実装して、データの品質と完全性を確保します。
  • タスクに適した ML アプローチを選択します。モデルの構造とパラメータを設計する際は、モデルの複雑さと計算要件を考慮してください。
  • コード、モデル、データにバージョン管理システムを採用する。

モデル開発ライフサイクルを自動化する

データの準備とトレーニングからデプロイとモニタリングまで、自動化はオペレーションの品質と効率を向上させるのに役立ちます。自動化により、シームレスで再現可能、エラーのないモデルの開発とデプロイが可能になります。自動化により、手動による介入を最小限に抑え、リリース サイクルを高速化し、環境間の一貫性を保証できます。

以下の推奨事項を参考にしてください。

  • マネージド パイプライン オーケストレーション システムを使用して、ML ワークフローをオーケストレートして自動化します。パイプラインは、開発ライフサイクルの主なステップ(準備、トレーニング、デプロイ、評価)を処理する必要があります。
  • モデル開発ライフサイクルの CI/CD パイプラインを実装します。これらのパイプラインは、モデルのビルド、テスト、デプロイを自動化する必要があります。パイプラインには、必要に応じて新しいデータでモデルを再トレーニングするための継続的なトレーニングも含める必要があります。
  • カナリア デプロイや A/B テストなどの段階的なリリース方法を実装して、モデルを安全かつ制御された方法でリリースします。

オブザーバビリティを実装する

オブザーバビリティを実装すると、モデルのパフォーマンス、データドリフト、システムの健全性に関する詳細な分析情報を得ることができます。継続的なモニタリング、アラート、ロギング メカニズムを実装して、問題を事前に特定し、タイムリーな対応をトリガーし、運用の継続性を確保します。

以下の推奨事項を参考にしてください。

  • モデルの永続的で自動化されたパフォーマンス モニタリングを実装します。デプロイ後のモデルの継続的な評価には、指標と成功基準を使用します。
  • デプロイ エンドポイントとインフラストラクチャをモニタリングして、サービスの可用性を確保します。
  • ビジネス固有のしきい値と異常に基づいてカスタム アラートを設定し、問題をタイムリーに特定して解決できるようにします。
  • Explainable AI 手法を使用して、モデルの出力を理解し、解釈します。

運用の優秀性を高める文化を構築する

運用の卓越性は、人、文化、専門的な実践の基盤の上に構築されます。チームとビジネスの成功は、信頼性と迅速性を備えた AI 機能の開発を可能にする方法論を組織がどれだけ効果的に実装できるかにかかっています。

以下の推奨事項を参考にしてください。

  • コア開発手法として自動化と標準化を推進します。MLOps 手法を使用してワークフローを効率化し、ML ライフサイクルを効率的に管理します。タスクを自動化してイノベーションに時間を割き、プロセスを標準化して一貫性を維持し、トラブルシューティングを容易にします。
  • 継続的な学習と改善を優先します。チームメンバーがスキルを向上させ、AI と ML の最新情報を把握するために利用できる学習機会を促進します。テストを奨励し、定期的に振り返りを行い、改善の余地がある部分を特定します。
  • アカウンタビリティとオーナーシップの文化を育む。明確な役割を定義して、全員が自分の貢献を理解できるようにします。透明性の高い指標を使用して、チームが制限内で意思決定を行い、進捗状況を追跡できるようにします。
  • AI の倫理と安全性を文化に組み込む。ML ライフサイクルのすべての段階に倫理的な考慮事項を統合して、責任あるシステムを優先します。明確な倫理原則を確立し、倫理に関連する課題についてオープンな議論を促進します。

スケーラビリティを考慮した設計

増大するデータ量とユーザーの需要に対応するように AI ソリューションを設計します。スケーラブルなインフラストラクチャを使用して、プロジェクトの拡大に伴ってモデルが適応し、最適なパフォーマンスを発揮できるようにします。

以下の推奨事項を参考にしてください。

  • 容量と割り当てを計画します。将来の成長を予測し、それに応じてインフラストラクチャの容量とリソース割り当てを計画します。
  • ピークイベントに備える。ピークイベント中のトラフィックやワークロードの急増に対応できるようにシステムを構成します。
  • AI アプリケーションを本番環境用にスケーリングします。ワークロードの増加に対応できるように、水平方向のスケーリングを設計します。Ray on Vertex AI などのフレームワークを使用して、複数のマシンにまたがってタスクを並列化します。
  • 必要に応じてマネージド サービスを使用してください。手動操作のオーバーヘッドと複雑さを最小限に抑えながら、スケーリングに役立つサービスを使用してください。

寄稿者

著者:

その他の寄稿者:

  • Kumar Dhanagopal | クロス プロダクト ソリューション デベロッパー
  • Marwan Al Shawi | パートナー カスタマー エンジニア
  • Ryan Cox | プリンシパル アーキテクト
  • Stef Ruinard | 生成 AI フィールド ソリューション アーキテクト

AI と ML の視点: セキュリティ

このドキュメント(Well-Architected フレームワーク: AI と ML の視点)では、AI と ML のデプロイが組織のセキュリティとコンプライアンスの要件を満たすようにするための原則と推奨事項の概要について説明します。このドキュメントの推奨事項は、 Google Cloud Well-Architected Framework のセキュリティの柱に沿っています。

AI ワークロードと ML ワークロードの安全なデプロイは、特に企業環境において重要な要件です。この要件を満たすには、AI と ML ソリューションの初期コンセプトから、開発、デプロイ、継続的な運用に至るまで、包括的なセキュリティ アプローチを採用する必要があります。 Google Cloud には、AI ワークロードと ML ワークロードの保護を目的とした堅牢なツールとサービスが用意されています。

明確な目標と要件を定義する

必要なセキュリティとコンプライアンスのコントロールは、開発後に追加するよりも、設計と開発プロセスの早い段階で統合するほうが簡単です。設計と開発のプロセスの開始から、特定のリスク環境と特定のビジネスの優先事項に適した決定を行います。

以下の推奨事項を参考にしてください。

  • 潜在的な攻撃ベクトルを特定し、最初からセキュリティとコンプライアンスの視点を取り入れます。AI システムを設計して進化させる際は、攻撃対象領域、潜在的なリスク、直面する可能性のある義務を把握してください。
  • AI と ML のセキュリティ対策をビジネス目標と整合させ、セキュリティが全体的な戦略の不可欠な部分であることを確認します。セキュリティの選択が主なビジネス目標に与える影響を把握します。

データを安全に保ち、損失や不正使用を防止する

データは貴重で機密性の高い資産であり、安全に保つ必要があります。データ セキュリティは、ユーザーの信頼を維持して、ビジネス目標をサポートし、コンプライアンス要件を満たすのに役立ちます。

以下の推奨事項を参考にしてください。

  • ビジネス目標に厳密に必要でないデータは収集、保持、使用しないでください。可能であれば、合成データまたは完全に匿名化されたデータを使用してください。
  • データの収集、保存、変換をモニタリングします。すべてのデータアクセスと操作アクティビティのログを保持します。ログは、データアクセスの監査、不正アクセスの試みの検出、不要なアクセスの防止に役立ちます
  • ユーザーロールに基づいて、さまざまなレベルのアクセス(アクセスなし、読み取り専用、書き込みなど)を実装します。最小権限の原則に基づいて権限が割り当てられていることを確認します。ユーザーには、ロール アクティビティの実行に必要な最小限の権限のみを付与する必要があります。
  • 暗号化、安全な境界、データ移動の制限などの対策を実装します。これらの対策は、データの引き出しとデータ損失の防止に役立ちます。
  • ML トレーニング システムのデータ汚染を防ぎます。

AI パイプラインの安全性を確保し、改ざんに対して堅牢性を維持する

AI コードと ML コード、コード定義パイプラインは重要なアセットです。保護されていないコードは改ざんされる可能性があり、データ漏洩、コンプライアンス違反、重要なビジネス アクティビティの中断につながる可能性があります。AI コードと ML コードを安全に保つことは、モデルとモデル出力の完全性と価値を確保するのに役立ちます。

以下の推奨事項を参考にしてください。

  • モデルの開発中に、依存関係管理、入力検証、サニタイズなどの安全なコーディング手法を使用して、脆弱性を防ぎます。
  • パイプライン コードとモデル アーティファクト(ファイル、モデル重み、デプロイ仕様など)を不正アクセスから保護します。ユーザーのロールとニーズに基づいて、アーティファクトごとに異なるアクセスレベルを実装します。
  • アセットとパイプラインの実行のリネージとトラッキングを適用します。この適用により、コンプライアンス要件を満たし、本番環境システムへの侵害を回避できます。

安全なツールとアーティファクトを使用して安全なシステムにデプロイする

コードとモデルが、環境にデプロイされたツールとアーティファクトの保護が保証された堅牢なアクセス制御システムが実装されている安全な環境で実行されるようにします。

以下の推奨事項を参考にしてください。

  • 適切なアクセス制御が適用され、不正使用や不正操作から保護されている安全な環境でモデルをトレーニングしてデプロイします。
  • モデルやソフトウェア パッケージなどの AI 固有のアーティファクトについては、標準のソフトウェア アーティファクトのためのサプライチェーン レベル(SLSA)ガイドラインに従います。
  • AI ワークロード用に特別に設計された、検証済みのビルド済みコンテナ イメージを使用することをおすすめします。

入力を保護してモニタリングする

AI システムは、予測、コンテンツの生成、アクションの自動化を行うために入力を必要とします。一部の入力はリスクをもたらす可能性があり、攻撃ベクトルとして使用される可能性があります。こうした入力を検出し、サニタイズする必要があります。悪意のある入力を早期に検出すると、AI システムの安全性を確保し、意図したとおりに動作させることができます。

以下の推奨事項を参考にしてください。

  • 生成 AI システムのプロンプトを開発、管理するための安全な手法を導入し、悪意のあるプロンプトが使用されないようにします。
  • 予測システムまたは生成システムへの入力をモニタリングして、エンドポイントの過負荷や、システムが処理するように設計されていないプロンプトなどの問題を防ぎます。
  • デプロイされたシステムを、意図したユーザーのみが使用できるようにします。

出力のモニタリング、評価、対応の準備

AI システムは、人間の意思決定を補完、最適化、自動化する出力を生成するため、その価値があります。AI システムとアプリケーションの完全性と信頼性を維持するには、出力が安全で、想定されるパラメータ内にあることを確認する必要があります。また、インシデントに対応するための計画も必要です。

以下の推奨事項を参考にしてください。

  • 本番環境で AI モデルと ML モデルの出力をモニタリングし、パフォーマンス、セキュリティ、コンプライアンスに関する問題を特定します。
  • 予測モデルで範囲外の生成レスポンスを特定したり、極端な出力を特定するなど、堅牢な指標とセキュリティ対策を実装し、モデルのパフォーマンスを評価します。モデルのパフォーマンスに関するユーザー フィードバックを収集します。
  • 潜在的な問題に対処するために、堅牢なアラートおよびインシデント対応手順を実装します。

寄稿者

著者:

その他の寄稿者:

  • Daniel Lees | クラウド セキュリティ アーキテクト
  • Kumar Dhanagopal | クロス プロダクト ソリューション デベロッパー
  • Marwan Al Shawi | パートナー カスタマー エンジニア
  • Wade Holmes | グローバル ソリューション ディレクター

AI と ML の視点: 信頼性

このドキュメント(Well-Architected Framework: AI と ML の視点)では、 Google Cloudで信頼性の高い AI システムと ML システムを設計して運用するための原則と推奨事項の概要について説明します。高度な信頼性プラクティスとオブザーバビリティをアーキテクチャ ブループリントに統合する方法について説明します。このドキュメントの推奨事項は、 Google Cloud Well-Architected Framework の信頼性の柱に沿っています。

急速に進化する AI と ML の環境では、顧客満足を確保し、ビジネス目標を達成するために信頼できるシステムが不可欠です。予測 ML と生成 AI の両方の固有の要件を満たすために、堅牢で信頼性が高く、適応性のある AI システムと ML システムが必要です。MLOps の複雑さ(開発からデプロイ、継続的改善まで)に対処するには、信頼性重視のアプローチを使用する必要があります。 Google Cloud は、サイト信頼性エンジニアリング(SRE)の原則に沿って構築された専用の AI インフラストラクチャを提供し、信頼性の高い AI システムと ML システムの強力な基盤を提供します。

インフラストラクチャがスケーラブルで高可用性であることを確認する

スケーラビリティと可用性を考慮したアーキテクチャを構築することで、サービス中断やパフォーマンスの低下を招くことなく、アプリケーションがさまざまなレベルの需要に対応できるようになります。つまり、インフラストラクチャの停止中やトラフィックが非常に多い場合でも、ユーザーは AI サービスを利用できます。

以下の推奨事項を参考にしてください。

  • 需要の変動に対応するために、自動スケーリング機能と動的スケーリング機能を備えた AI システムを設計します。これにより、トラフィックの急増時でも最適なパフォーマンスを確保できます。
  • 負荷テストとパフォーマンス モニタリングにより、リソースを事前に管理し、将来のニーズを予測します。過去のデータと予測分析を使用して、リソースの割り当てについて十分な情報に基づいて意思決定します。
  • Google Cloud でマルチゾーンとマルチリージョンのデプロイ アーキタイプを採用し、冗長性とレプリケーションを実装することで、高可用性とフォールト トレランスを実現します。
  • 受信トラフィックを AI サービスと ML サービスの複数のインスタンスとエンドポイントに分散します。ロード バランシングは、単一のインスタンスの過負荷を防ぎ、一貫したパフォーマンスと可用性を確保するのに役立ちます。

モジュラーで疎結合のアーキテクチャを使用する

AI システムを個々のコンポーネントの障害に対して耐障害性を持たせるには、モジュラー アーキテクチャを使用します。たとえば、データ処理コンポーネントとデータ検証コンポーネントを個別のモジュールとして設計します。特定のコンポーネントに障害が発生した場合、モジュラー アーキテクチャによりダウンタイムを最小限に抑え、チームが修正を迅速に開発してデプロイできます。

以下の推奨事項を参考にしてください。

  • AI システムと ML システムを、小さな自己完結型のモジュールまたはコンポーネントに分割します。このアプローチにより、コードの再利用性が向上し、テストとメンテナンスが簡素化されます。また、個々のコンポーネントを独立して開発してデプロイできます。
  • 明確に定義されたインターフェースを使用して、疎結合モジュールを設計します。このアプローチでは依存関係が最小限に抑えられ、システム全体に影響を与えることなく、個別に更新や変更を行うことができます。
  • グレースフル デグラデーションの計画を立てる。コンポーネントで障害が発生しても、システムの他の部分は引き続き適切なレベルの機能を提供する必要があります。
  • API を使用してモジュール間の明確な境界を作成し、モジュールレベルの実装の詳細を非表示にします。このアプローチでは、システムの他の部分とのやり取りに影響を与えることなく、個々のコンポーネントを更新または置き換えることができます。

MLOps 自動化プラットフォームを構築する

MLOps プラットフォームを自動化すると、モデル ライフサイクルのステージと出力の信頼性が高まります。一貫性、疎結合、モジュール性を促進し、オペレーションとインフラストラクチャをコードとして表現することで、脆弱な手動ステップを排除し、より堅牢で信頼性の高い AI と ML システムを維持できます。

以下の推奨事項を参考にしてください。

  • データの準備と検証から、モデルのトレーニング、評価、デプロイ、モニタリングまで、モデル開発ライフサイクルを自動化します。
  • Infrastructure as Code(IaC)でインフラストラクチャを管理します。このアプローチにより、効率的なバージョン管理、必要に応じた迅速なロールバック、再現可能なデプロイが可能になります。
  • 関連データを使用して、モデルが期待どおりに動作することを検証します。モデルのパフォーマンス モニタリングを自動化し、予期しない出力に対して適切なアラートを構築します。
  • AI パイプラインと ML パイプラインの入力と出力を検証します。たとえば、データ、構成、コマンド引数、ファイル、予測を検証します。予期しない値や許可されていない値に対するアラートを構成する。
  • モデル エンドポイントにマネージド バージョン管理戦略を採用します。この種の戦略により、増分リリースと問題発生時の迅速な復旧が可能になります。

データとモデルのガバナンスを通じて信頼と制御を維持する

AI システムと ML システムの信頼性は、データとモデルの信頼性とガバナンス機能によって異なります。AI の出力が、静かに期待に沿わない結果になることがあります。たとえば、出力は形式的には一貫しているものの、正しくない、または望ましくない場合があります。トレーサビリティと強力なガバナンスを実装することで、出力の信頼性と信頼性を保証できます。

以下の推奨事項を参考にしてください。

  • データカタログとモデルカタログを使用して、アセットを効果的に追跡、管理します。トレースや監査を容易にするため、ライフサイクル全体でデータとモデルのバージョンの包括的な記録を維持します。
  • 厳格なアクセス制御と監査証跡を実装して、機密データとモデルを保護します。
  • AI の偏見、特に生成 AI アプリケーションの重要な問題に対処します。信頼関係を築くには、モデル出力の透明性と説明可能性を追求します。
  • 特徴統計情報の生成を自動化し、異常検出を実装して、データの問題を事前に特定します。モデルの信頼性を確保するには、データ分布の変化の影響を検出して軽減するメカニズムを構築します。

包括的な AI と ML のオブザーバビリティと信頼性の実践を実装する

AI オペレーションを継続的に改善するには、有意な信頼性目標を定義し、進捗状況を測定する必要があります。オブザーバビリティは、信頼性の高いシステムの基本要素です。オブザーバビリティを使用すると、進行中のオペレーションと重要なイベントを管理できます。適切に実装されたオブザーバビリティは、ユーザー向けの信頼性の高いサービスを構築して維持するのに役立ちます。

以下の推奨事項を参考にしてください。

  • プロセッサ(CPU、GPU、TPU)のインフラストラクチャ指標と、メモリ使用量、ネットワーク レイテンシ、ディスク使用量などの他のリソースの指標を追跡します。負荷テストとパフォーマンス モニタリングを実施します。モニタリングからのテスト結果と指標を使用して、AI システムと ML システムのスケーリングと容量を管理します。
  • 信頼性の目標を設定し、アプリケーション指標を追跡します。構築した AI アプリケーションのスループットやレイテンシなどの指標を測定します。アプリケーションと公開されているエンドポイントの使用パターンをモニタリングします。
  • モデルの信頼性を評価するには、精度や安全性指標などのモデル固有の指標を確立します。これらの指標を経時的に追跡して、ドリフトや劣化を特定します。効率的なバージョン管理と自動化のために、モニタリング構成をコードとして定義します。
  • ビジネスレベルの指標を定義して追跡し、モデルと信頼性がビジネス成果に与える影響を把握します。AI サービスと ML サービスの信頼性を測定するには、SRE アプローチを採用し、サービスレベル目標(SLO)を定義することを検討してください。

寄稿者

著者:

その他の寄稿者:

  • Jose Andrade | エンタープライズ インフラストラクチャ カスタマー エンジニア
  • Kumar Dhanagopal | クロス プロダクト ソリューション デベロッパー
  • Marwan Al Shawi | パートナー カスタマー エンジニア

AI と ML の視点: 費用の最適化

Well-Architected Framework: AI と ML の視点のこのドキュメントでは、ML ライフサイクル全体で AI システムの費用を最適化するための原則と推奨事項の概要について説明します。事前対応型で情報に基づいた費用管理アプローチを採用することで、組織は AI システムと ML システムの可能性を最大限に引き出し、財務規律を維持できます。このドキュメントの推奨事項は、 Google Cloud Well-Architected Framework の費用最適化の柱に沿っています。

AI と ML のシステムは、データから価値ある分析情報と予測機能を活用するのに役立ちます。たとえば、社内プロセスの摩擦を軽減したり、ユーザー エクスペリエンスを改善したり、より深い顧客分析情報を得たりできます。クラウドでは、AI ワークロードと ML ワークロードに多額の初期投資を行うことなく、膨大なリソースを利用し、迅速な費用対効果を実現できます。ビジネス価値を最大化し、支出をビジネス目標に合わせるには、費用の要因を理解して事前に最適化を行い、支出管理を設定して FinOps のベスト プラクティスを採用する必要があります。

費用と収益を定義して測定する

Google Cloudで AI と ML の費用を効果的に管理するには、クラウド リソースの費用と AI と ML のイニシアチブのビジネス価値を定義して測定する必要があります。 Google Cloud には、費用を詳細に追跡できる、課金と費用管理のための包括的なツールが用意されています。測定できるビジネス価値指標には、顧客満足度、収益、運用費用などがあります。費用とビジネス価値の両方に具体的な指標を確立することで、リソースの割り当てと最適化について十分な情報に基づいて意思決定を行うことができます。

以下の推奨事項を参考にしてください。

  • AI プロジェクトと ML プロジェクトの明確なビジネス目標と重要業績評価指標(KPI)を設定します。
  • Google Cloud から提供される課金情報を使用することで、費用を特定の AI と ML のアクティビティに関連付けるのに役立つ費用モニタリングとレポート作成のプロセスを実装できます。
  • ダッシュボード、アラート、レポート システムを確立して、KPI に対する費用と収益を追跡します。

リソース割り当てを最適化する

Google Cloudで AI ワークロードと ML ワークロードの費用対効果を実現するには、リソース割り当てを最適化する必要があります。リソースの割り当てをワークロードのニーズに合わせて慎重に調整することで、不要な費用を回避し、AI システムと ML システムに最適なパフォーマンスを発揮するために必要なリソースを確保できます。

以下の推奨事項を参考にしてください。

  • 自動スケーリングを使用して、トレーニングと推論用のリソースを動的に調整します。
  • 小さなモデルとデータから始めます。可能であれば、小規模のモデルとデータで仮説をテストして費用を節約します。
  • テストを通じてコンピューティングのニーズを把握します。ML 要件に基づいて、トレーニングとサービングに使用されるリソースを適切にサイズ設定します。
  • MLOps のプラクティスを採用して、重複、手動プロセス、非効率的なリソース割り当てを削減します。

データ管理とガバナンスのプラクティスを適用する

費用の最適化には、効果的なデータ管理とガバナンスの実践が不可欠です。適切に整理されたデータは、組織で不要な重複を回避し、高品質なデータを取得するために必要な労力を提言します。また、チームでデータセットを再利用できるようになります。データを事前に管理することで、ストレージ費用を削減し、データ品質を向上させ、ML モデルが最も関連性の高く価値のあるデータでトレーニングされ、動作するようにすることができます。

以下の推奨事項を参考にしてください。

  • 明確に定義されたデータ ガバナンス フレームワークを確立して採用します。
  • データの取り込み時に、ラベルと関連メタデータをデータセットに適用します。
  • データセットが組織全体で検出可能でアクセス可能であることを確認します。
  • 可能な限り、データセットと特徴を ML ライフサイクル全体で再利用できるようにします。

MLOps による自動化と効率化

MLOps プラクティスを導入する主なメリットは、テクノロジーと人的活動の両面でコストを削減できることです。自動化により、ML アクティビティの重複を回避し、データ サイエンティストと ML エンジニアの生産性を向上させることができます。

以下の推奨事項を参考にしてください。

  • データ収集と処理のテクノロジーの自動化と標準化のレベルを高め、開発の労力と時間を削減します。
  • 自動化されたトレーニング パイプラインを開発して、手動介入の必要性を減らし、エンジニアの生産性を向上させます。パイプラインが準備済みデータセットやトレーニング済みモデルなどの既存のアセットを再利用するためのメカニズムを実装します。
  • Google Cloud のモデル評価サービスとチューニング サービスを使用して、反復処理回数を減らしてモデルのパフォーマンスを向上させます。これにより、AI チームと ML チームはより短い時間でより多くの目標を達成できます。

マネージド サービスと事前トレーニング済みモデルまたは既存のモデルを使用する

AI と ML を使用してビジネス目標を達成する方法は数多くあります。モデルの選択とモデル開発に増分アプローチを採用します。これにより、毎回最初からやり直す必要がなくなり、それに伴う過剰な費用を回避できます。コストを抑えるには、ML フレームワーク、マネージド サービス、事前トレーニング済みモデルを使用するというシンプルなアプローチから始めます。

以下の推奨事項を参考にしてください。

  • ノートブック環境を使用して、探索的で迅速な ML テストを可能にします。
  • 既存のモデルと事前トレーニング済みモデルを出発点として使用し、モデルの選択と開発プロセスを加速します。
  • マネージド サービスを使用してモデルをトレーニングまたはサービングします。AutoML とマネージド カスタムモデル トレーニング サービスの両方を使用すると、モデル トレーニングの費用を削減できます。マネージド サービスは、モデル サービング インフラストラクチャの費用削減にも役立ちます。

コスト意識と継続的な最適化の文化を育む

コミュニケーションと定期的なレビューを促進するコラボレーション環境を構築します。このアプローチは、ML ライフサイクル全体でコスト削減の機会を特定して実装するのに役立ちます。

以下の推奨事項を参考にしてください。

  • ML ライフサイクル全体で FinOps の原則を採用します。
  • AI プロジェクトと ML プロジェクトのすべての費用とビジネス上のメリットに、明確な説明責任を持つオーナーが割り当てられていることを確認します。

寄稿者

著者:

その他の寄稿者:

  • Kumar Dhanagopal | クロス プロダクト ソリューション デベロッパー
  • Marwan Al Shawi | パートナー カスタマー エンジニア
  • Nicolas Pintaux | カスタマー エンジニア、アプリケーション モダナイゼーション スペシャリスト

AI と ML の視点: パフォーマンス最適化

このドキュメント(Well-Architected Framework: AI と ML の視点)では、 Google Cloudで AI ワークロードと ML ワークロードのパフォーマンスを最適化するための原則と推奨事項の概要について説明します。このドキュメントの推奨事項は、 Google Cloud Well-Architected Framework のパフォーマンス最適化の柱に沿っています。

AI システムと ML システムにより、組織の新しい自動化機能と意思決定機能を実現できます。これらのシステムのパフォーマンスは、収益、費用、顧客満足度などのビジネス推進要因に直接影響する可能性があります。AI システムと ML システムの可能性を最大限に引き出すには、ビジネス目標と技術要件に基づいてパフォーマンスを最適化する必要があります。パフォーマンスの最適化プロセスでは、多くの場合、特定のトレードオフが発生します。たとえば、必要なパフォーマンスを提供する設計を選択すると、コストが増加する可能性があります。このドキュメントの推奨事項では、費用などの他の考慮事項よりもパフォーマンスを優先しています。

AI と ML のパフォーマンスを最適化するには、モデルのアーキテクチャ、パラメータ、トレーニング戦略などの要素について決定する必要があります。これらの決定を行う際は、AI システムと ML システムのライフサイクル全体とそのデプロイ環境を考慮してください。たとえば、非常に大規模な LLM は、大規模なトレーニング インフラストラクチャで高いパフォーマンスを発揮できますが、非常に大規模なモデルは、モバイル デバイスなどの容量に制約のある環境ではパフォーマンスが低下する可能性があります。

ビジネス目標をパフォーマンス目標に変換する

パフォーマンスを最適化するアーキテクチャについて意思決定を行うには、まず明確なビジネス目標を設定します。ビジネス目標と優先事項をサポートするために必要な技術的なパフォーマンスを提供する AI システムと ML システムを設計します。技術チームは、パフォーマンス目標とビジネス目標のマッピングを理解する必要があります。

以下の推奨事項を参考にしてください。

  • ビジネス目標を技術要件に変換する: AI システムと ML システムのビジネス目標を具体的な技術的パフォーマンス要件に変換し、要件を満たさない場合の影響を評価します。たとえば、顧客の解約を予測するアプリケーションの場合、ML モデルは精度や再現率などの標準指標で優れたパフォーマンスを発揮する必要があります。また、アプリケーションは低レイテンシなどの運用要件を満たす必要があります。
  • モデル ライフサイクルのすべての段階でパフォーマンスをモニタリングする: モデルのデプロイ後のテストとトレーニング中に、主要なパフォーマンス指標(KPI)をモニタリングし、ビジネス目標からの逸脱を観察します。
  • 評価を自動化して再現性と標準化を実現する: テスト評価用の標準化された比較可能なプラットフォームと方法論により、エンジニアはパフォーマンス改善のペースを上げることができます。

頻繁なテストを実行して追跡する

イノベーションと創造性をパフォーマンスの向上につなげるには、テストをサポートする文化とプラットフォームが必要です。AI と ML の技術は継続的かつ迅速に進化しているため、パフォーマンスの向上は継続的なプロセスとなります。高速で反復的なプロセスを維持するには、テスト環境をトレーニング プラットフォームとサービング プラットフォームから分離する必要があります。標準化された堅牢なテストプロセスが重要です。

以下の推奨事項を参考にしてください。

  • テスト環境を構築する: パフォーマンスを向上させるには、ML パイプラインのテストと共同開発をサポートする、強力でインタラクティブな専用環境が必要です。
  • テストを文化として組み込む: 本番環境にデプロイする前にテストを実施します。新しいバージョンを反復的にリリースし、常にパフォーマンス データを収集します。さまざまなデータ型、特徴変換、アルゴリズム、ハイパーパラメータをテストします。

トレーニング サービスとサービング サービスを構築して自動化する

AI モデルのトレーニングとサービングは、AI サービスのコア コンポーネントです。AI モデルの迅速かつ信頼性の高い作成、デプロイ、サービングをサポートする堅牢なプラットフォームと手法が必要です。コア AI トレーニングとサービング タスクの基盤となるプラットフォームの構築に時間と労力を費やします。これらの基盤となるプラットフォームは、中長期的にチームの作業時間と労力を削減し、出力の品質を向上させるのに役立ちます。

以下の推奨事項を参考にしてください。

  • トレーニング サービスの AI 専用コンポーネントを使用する: このようなコンポーネントには、特徴ストア、モデル レジストリ、メタデータ ストア、モデルのパフォーマンス評価サービスなど、高性能のコンピューティング コンポーネントと MLOps コンポーネントが含まれます。
  • 予測サービスの AI 専用コンポーネントを使用する: このようなコンポーネントは、高パフォーマンスでスケーラブルなリソースを提供して、特徴モニタリングをサポートし、モデルのパフォーマンス モニタリングを可能にします。パフォーマンスの低下を防ぎ、管理するには、信頼性の高いデプロイとロールバック戦略を実装します。

設計の選択をパフォーマンス要件に合わせて調整する

パフォーマンスを改善するために設計上の選択を行う場合は、その選択がビジネス要件をサポートするものであるか、逆効果になるかを慎重に評価します。適切なインフラストラクチャ、モデル、構成を選択するには、パフォーマンスのボトルネックを特定し、パフォーマンス指標とどのように関連しているかを評価します。たとえば、非常に強力な GPU アクセラレータでも、ストレージ レイヤのデータ I/O の問題や、モデル自体のパフォーマンスの制限により、トレーニング タスクでパフォーマンスのボトルネックが発生する可能性があります。

以下の推奨事項を参考にしてください。

  • パフォーマンス目標に基づいてハードウェア使用量を最適化する: パフォーマンス要件を満たす ML モデルをトレーニングして提供するには、コンピューティング レイヤ、ストレージ レイヤ、ネットワーク レイヤでインフラストラクチャを最適化する必要があります。パフォーマンス目標に影響する変数を測定して理解する必要があります。これらの変数は、トレーニングと推論で異なります。
  • ワークロード固有の要件に重点を置く: パフォーマンスの最適化に取り組む際は、AI ワークロードと ML ワークロードの固有の要件に重点を置きます。基盤となるインフラストラクチャのパフォーマンスにはマネージド サービスを使用します。
  • 適切なトレーニング戦略を選択する: 事前トレーニング済みモデルと基盤モデルがいくつか用意されており、このようなモデルは頻繁にリリースされています。タスクに最適なパフォーマンスを発揮できるトレーニング戦略を選択します。独自のモデルを構築するか、データでトレーニング済みモデルをチューニングするか、トレーニング済みモデルの API を使用するかを決定します。
  • パフォーマンス最適化戦略の費用対効果が低下する可能性があることを認識する: 特定のパフォーマンス最適化戦略で測定可能なビジネス価値の増加が得られなくなった場合は、その戦略を停止します。

パフォーマンスの問題を改善、トラブルシューティング、調査するには、設計の選択とパフォーマンスの結果の間に明確な関連性を確立します。テストに加えて、アセット、デプロイ、モデル出力、出力を生成した構成と入力のリネージについて信頼性のある記録を残す必要があります。

以下の推奨事項を参考にしてください。

  • データとモデルのリネージ システムを構築する: デプロイされたアセットとそのパフォーマンス指標はすべて、デプロイされたシステムにつながるデータ、構成、コード、選択肢にリンクされている必要があります。また、モデル出力は、特定のモデル バージョンと出力の生成方法にリンクする必要があります。
  • 説明可能性ツールを使用してモデルのパフォーマンスを改善する: モデルの探索と説明可能性のためのツールとベンチマークを採用して標準化します。これらのツールは、ML エンジニアがモデルの動作を理解し、パフォーマンスを改善したりバイアスを除去したりする際に役立ちます。

寄稿者

著者:

その他の寄稿者:

  • Kumar Dhanagopal | クロス プロダクト ソリューション デベロッパー
  • Marwan Al Shawi | パートナー カスタマー エンジニア
  • Zach Seils | ネットワーキング スペシャリスト