アーキテクチャ フレームワーク: AI と ML の視点のこのドキュメントでは、ML ライフサイクル全体で AI システムの費用を最適化するための原則と推奨事項の概要について説明します。事前対応型で情報に基づいた費用管理アプローチを採用することで、組織は AI システムと ML システムの可能性を最大限に引き出し、財務規律を維持できます。このドキュメントの推奨事項は、アーキテクチャ フレームワークの費用最適化の柱に沿っています。
AI と ML のシステムは、データから価値ある分析情報と予測機能を活用するのに役立ちます。たとえば、社内プロセスの摩擦を軽減したり、ユーザー エクスペリエンスを改善したり、より深い顧客分析情報を得たりできます。クラウドでは、AI ワークロードと ML ワークロードに多額の初期投資を行うことなく、膨大なリソースを利用し、迅速な費用対効果を実現できます。ビジネス価値を最大化し、支出をビジネス目標に合わせるには、費用の要因を理解して事前に最適化を行い、支出管理を設定して FinOps のベスト プラクティスを採用する必要があります。
費用と収益を定義して測定する
Google Cloud で AI と ML の費用を効果的に管理するには、クラウド リソースの費用と AI と ML のイニシアチブのビジネス価値を定義して測定する必要があります。Google Cloud には、費用を詳細に追跡できる、課金と費用管理のための包括的なツールが用意されています。測定できるビジネス価値指標には、顧客満足度、収益、運用費用などがあります。費用とビジネス価値の両方に具体的な指標を確立することで、リソースの割り当てと最適化について十分な情報に基づいて意思決定を行うことができます。
以下の推奨事項を参考にしてください。
- AI プロジェクトと ML プロジェクトの明確なビジネス目標と重要業績評価指標(KPI)を設定します。
- Google Cloud から提供される課金情報を使用することで、費用を特定の AI と ML のアクティビティに関連付けるのに役立つ費用モニタリングとレポート作成のプロセスを実装できます。
- ダッシュボード、アラート、レポート システムを確立して、KPI に対する費用と収益を追跡します。
リソース割り当てを最適化する
Google Cloud で AI ワークロードと ML ワークロードの費用対効果を実現するには、リソース割り当てを最適化する必要があります。リソースの割り当てをワークロードのニーズに合わせて慎重に調整することで、不要な費用を回避し、AI システムと ML システムに最適なパフォーマンスを発揮するために必要なリソースを確保できます。
以下の推奨事項を参考にしてください。
- 自動スケーリングを使用して、トレーニングと推論用のリソースを動的に調整します。
- 小さなモデルとデータから始めます。可能であれば、小規模のモデルとデータで仮説をテストして費用を節約します。
- テストを通じてコンピューティングのニーズを把握します。ML 要件に基づいて、トレーニングとサービングに使用されるリソースを適切にサイズ設定します。
- MLOps のプラクティスを採用して、重複、手動プロセス、非効率的なリソース割り当てを削減します。
データ管理とガバナンスのプラクティスを適用する
費用の最適化には、効果的なデータ管理とガバナンスの実践が不可欠です。適切に整理されたデータは、組織で不要な重複を回避し、高品質なデータを取得するために必要な労力を提言します。また、チームでデータセットを再利用できるようになります。データを事前に管理することで、ストレージ費用を削減し、データ品質を向上させ、ML モデルが最も関連性の高く価値のあるデータでトレーニングされ、動作するようにすることができます。
以下の推奨事項を参考にしてください。
- 明確に定義されたデータ ガバナンス フレームワークを確立して採用します。
- データの取り込み時に、ラベルと関連メタデータをデータセットに適用します。
- データセットが組織全体で検出可能でアクセス可能であることを確認します。
- 可能な限り、データセットと特徴を ML ライフサイクル全体で再利用できるようにします。
MLOps による自動化と効率化
MLOps プラクティスを導入する主なメリットは、テクノロジーと人的活動の両面でコストを削減できることです。自動化により、ML アクティビティの重複を回避し、データ サイエンティストと ML エンジニアの生産性を向上させることができます。
以下の推奨事項を参考にしてください。
- データ収集と処理のテクノロジーの自動化と標準化のレベルを高め、開発の労力と時間を削減します。
- 自動化されたトレーニング パイプラインを開発して、手動介入の必要性を減らし、エンジニアの生産性を向上させます。パイプラインが準備済みデータセットやトレーニング済みモデルなどの既存のアセットを再利用するためのメカニズムを実装します。
- Google Cloud のモデル評価サービスとチューニング サービスを使用して、反復処理回数を減らしてモデルのパフォーマンスを向上させます。これにより、AI チームと ML チームはより短い時間でより多くの目標を達成できます。
マネージド サービスと事前トレーニング済みモデルまたは既存のモデルを使用する
AI と ML を使用してビジネス目標を達成する方法は数多くあります。モデルの選択とモデル開発に増分アプローチを採用します。これにより、毎回最初からやり直す必要がなくなり、それに伴う過剰な費用を回避できます。コストを抑えるには、ML フレームワーク、マネージド サービス、事前トレーニング済みモデルを使用するというシンプルなアプローチから始めます。
以下の推奨事項を参考にしてください。
- ノートブック環境を使用して、探索的で迅速な ML テストを可能にします。
- 既存のモデルと事前トレーニング済みモデルを出発点として使用し、モデルの選択と開発プロセスを加速します。
- マネージド サービスを使用してモデルをトレーニングまたはサービングします。AutoML とマネージド カスタムモデル トレーニング サービスの両方を使用すると、モデル トレーニングの費用を削減できます。マネージド サービスは、モデル サービング インフラストラクチャの費用削減にも役立ちます。
コスト意識と継続的な最適化の文化を育む
コミュニケーションと定期的なレビューを促進するコラボレーション環境を構築します。このアプローチは、ML ライフサイクル全体でコスト削減の機会を特定して実装するのに役立ちます。
以下の推奨事項を参考にしてください。
- ML ライフサイクル全体で FinOps の原則を採用します。
- AI プロジェクトと ML プロジェクトのすべての費用とビジネス上のメリットに、明確な説明責任を持つオーナーが割り当てられていることを確認します。
寄稿者
著者:
- Isaac Lo | AI ビジネス デベロップメント マネージャー
- Filipe Gracio 博士 | カスタマー エンジニア
その他の寄稿者:
- Kumar Dhanagopal | クロス プロダクト ソリューション デベロッパー
- Marwan Al Shawi | パートナー カスタマー エンジニア
- Nicolas Pintaux | カスタマー エンジニア、アプリケーション モダナイゼーション スペシャリスト