このドキュメント(アーキテクチャ フレームワーク: AI と ML の視点)では、Google Cloud で堅牢な AI システムと ML システムを構築して運用するための原則と推奨事項の概要について説明します。これらの推奨事項は、オブザーバビリティ、自動化、スケーラビリティなどの基本的な要素を設定するために役立ちます。このドキュメントの推奨事項は、アーキテクチャ フレームワークのオペレーショナル エクセレンスの柱に沿っています。
AI と ML ドメインにおける運用の卓越性は、組織の戦略目標を推進する複雑な AI システムと ML パイプラインをシームレスにデプロイ、管理、ガバナンスする能力です。オペレーショナル エクセレンスにより、変化に効率的に応答し、運用の複雑さを軽減し、運用がビジネス目標に沿ったものになるようにすることができます。
モデル開発のための堅牢な基盤を構築する
問題の定義からデプロイまで、モデル開発を効率化するための堅牢な基盤を確立します。このような基盤により、信頼性が高く効率的なコンポーネントと選択肢に基づいて AI ソリューションを構築できます。この種の基盤は、変更や改善を迅速かつ簡単にリリースするのに役立ちます。
以下の推奨事項を参考にしてください。
- AI システムが解決する問題と、望ましい結果を定義します。
- モデルのトレーニングと評価に必要な関連データを特定して収集します。次に、元データをクリーニングして前処理します。データ検証チェックを実装して、データの品質と完全性を確保します。
- タスクに適した ML アプローチを選択します。モデルの構造とパラメータを設計する際は、モデルの複雑さと計算要件を考慮してください。
- コード、モデル、データにバージョン管理システムを採用する。
モデル開発ライフサイクルを自動化する
データの準備とトレーニングからデプロイとモニタリングまで、自動化はオペレーションの品質と効率を向上させるのに役立ちます。自動化により、シームレスで再現可能、エラーのないモデルの開発とデプロイが可能になります。自動化により、手動による介入を最小限に抑え、リリース サイクルを短縮し、環境間の一貫性を保証できます。
以下の推奨事項を参考にしてください。
- マネージド パイプライン オーケストレーション システムを使用して、ML ワークフローをオーケストレートして自動化します。パイプラインは、開発ライフサイクルの主なステップ(準備、トレーニング、デプロイ、評価)を処理する必要があります。
- モデル開発ライフサイクルの CI/CD パイプラインを実装します。これらのパイプラインは、モデルのビルド、テスト、デプロイを自動化する必要があります。パイプラインには、必要に応じて新しいデータでモデルを再トレーニングするための継続的なトレーニングも含める必要があります。
- カナリア デプロイや A/B テストなどの段階的なリリース方法を実装して、モデルを安全かつ制御された方法でリリースします。
オブザーバビリティを実装する
オブザーバビリティを実装すると、モデルのパフォーマンス、データドリフト、システムの健全性に関する詳細な分析情報を得ることができます。継続的なモニタリング、アラート、ロギング メカニズムを実装して、問題を事前に特定し、タイムリーな対応をトリガーし、運用の継続性を確保します。
以下の推奨事項を参考にしてください。
- モデルの永続的で自動化されたパフォーマンス モニタリングを実装します。デプロイ後のモデルの継続的な評価には、指標と成功基準を使用します。
- デプロイ エンドポイントとインフラストラクチャをモニタリングして、サービスの可用性を確保します。
- ビジネス固有のしきい値と異常に基づいてカスタム アラートを設定し、問題をタイムリーに特定して解決できるようにします。
- Explainable AI 手法を使用して、モデルの出力を理解し、解釈します。
運用の優秀性を重視する文化を構築する
運用の卓越性は、人、文化、専門的な実践の基盤の上に構築されます。チームとビジネスの成功は、信頼性と迅速性を備えた AI 機能の開発を可能にする方法を組織がどれだけ効果的に実装できるかにかかっています。
以下の推奨事項を参考にしてください。
- コア開発手法として自動化と標準化を推進します。MLOps 手法を使用してワークフローを効率化し、ML ライフサイクルを効率的に管理します。タスクを自動化してイノベーションに時間を割き、プロセスを標準化して一貫性を維持し、トラブルシューティングを容易にします。
- 継続的な学習と改善を優先します。チームメンバーがスキルを向上させ、AI と ML の進歩を常に把握するために利用できる学習機会を促進します。テストを奨励し、定期的に振り返りを行い、改善の余地がある部分を特定します。
- 責任とオーナーシップの文化を育む。明確な役割を定義して、全員が自分の貢献を理解できるようにします。透明性の高い指標を使用して、チームが制限内で意思決定を行い、進捗状況を追跡できるようにします。
- AI の倫理と安全性を文化に組み込む。ML ライフサイクルのすべての段階に倫理的な考慮事項を統合して、責任あるシステムを優先します。明確な倫理原則を確立し、倫理に関連する課題についてオープンな議論を促進します。
スケーラビリティを考慮した設計
増大するデータ量とユーザーの需要に対応できるように AI ソリューションを設計します。スケーラブルなインフラストラクチャを使用して、プロジェクトの拡大に応じてモデルが適応し、最適なパフォーマンスを発揮できるようにします。
以下の推奨事項を参考にしてください。
- 容量と割り当てを計画します。将来の成長を予測し、それに応じてインフラストラクチャの容量とリソース割り当てを計画します。
- ピークイベントに備えます。ピークイベント中のトラフィックやワークロードの急増に対応できるようにシステムを構成します。
- AI アプリケーションを本番環境用にスケーリングします。ワークロードの増加に対応できるように、水平方向のスケーリングを設計します。Ray on Vertex AI などのフレームワークを使用して、複数のマシンにまたがるタスクを並列化します。
- 必要に応じてマネージド サービスを使用してください。手動操作のオーバーヘッドと複雑さを最小限に抑えながら、スケーリングに役立つサービスを使用してください。
寄稿者
著者:
- Sannya Dang | AI ソリューション アーキテクト
- Filipe Gracio 博士 | カスタマー エンジニア
その他の寄稿者:
- Kumar Dhanagopal | クロス プロダクト ソリューション デベロッパー
- Marwan Al Shawi | パートナー カスタマー エンジニア
- Ryan Cox | プリンシパル アーキテクト
- Stef Ruinard | 生成 AI フィールド ソリューション アーキテクト