コンテンツに移動
コスト管理

Google Cloud での AI 費用を計算する方法

2025年3月11日
Pathik Sharma

Cost Optimization Lead, delta, Google Cloud Consulting

Eric Lam

Head of Cloud FinOps, delta, Google Cloud Consulting

Join us at Google Cloud Next

April 9-11 in Las Vegas

Register

※この投稿は米国時間 2025 年 3 月 4 日に、Google Cloud blog に投稿されたものの抄訳です。

エンタープライズ AI の「真の費用」とは

テクノロジー リーダーとして、また企業リソースの管理者として、AI の費用を把握することはただ賢明であるだけでなく、持続可能な AI の導入のために不可欠なことです。そこで本記事では、Google Cloud での AI 費用を把握して管理するための包括的なアプローチを紹介します。AI への投資から最大限に価値を引き出せるようお役立てください。

AI の導入を始めたばかりの方も、すでに運用を拡大している方も、このアプローチを活用することで、AI 戦略について十分な情報に基づいた意思決定を行うために必要な知見が得られます。

AI 費用の把握が今重要である理由

Google Cloud が展開する AI サービスは多様で、その種類はさらに増えつつあります。そして、それぞれに独自の料金体系があります。これらの費用を明確に把握していないと、予算の超過やプロジェクトの停滞を招き、最終的には AI への投資を十分に活かせなくなるリスクがあります。これは単に費用削減の問題ではなく、責任ある AI 開発、つまり革新的かつ経済的に持続可能なソリューションを構築するためにも重要なのです。

Google Cloud における AI の総所有コスト(TCO)の内訳

Google Cloud 上で AI ワークロードを実行する際の費用の主な構成を詳しく見ていきましょう。

費用カテゴリ

説明

Google Cloud サービス(例)

モデル提供の費用

トレーニング済みの AI モデルを実行して予測(推論)を行うための費用。多くの場合、これはリクエストごとまたは時間単位でかかる費用です。

Vertex AI で利用可能な OOTB モデル、Vertex AI Prediction、GKE(セルフマネージドの場合)、Cloud Run Functions(サーバーレス推論用)

トレーニングとチューニングの費用

AI モデルをデータでトレーニングし、ファインチューニングによってパフォーマンスを最適化するための費用。コンピューティング リソース(GPU/TPU)や、場合によってはトレーニング データ自体の費用も含まれます。

Vertex AI Training、Compute Engine(GPU/TPU を使用)、GKE、Cloud Run(GPU/TPU を使用)

クラウド ホスティングの費用

AI アプリケーションを実行するための基本的なインフラストラクチャにかかる費用(コンピューティング、ネットワーキング、ストレージなど)。

Compute Engine、GKE または Cloud Run、Cloud Storage、Cloud SQL(アプリケーションでデータベースを使用している場合)

トレーニング データの保存とアダプタレイヤの費用

トレーニング データと、トレーニング プロセス中に作成される「アダプタレイヤ」(中間表現またはファインチューニングされたモデル コンポーネント)の保存にかかる費用。

Cloud Storage、BigQuery

アプリケーション レイヤと設定の費用

AI アプリケーションをサポートするために必要な追加のクラウド サービスに関連する費用(API ゲートウェイ、ロードバランサ、モニタリング ツールなど)。

Cloud Load Balancing、Cloud Monitoring、Cloud Logging、API Gateway、Cloud Functions(ロジックのサポート用)

運用サポートの費用

AI モデルの保守とサポートにかかる継続的な費用(パフォーマンスのモニタリング、問題のトラブルシューティング、必要な場合は時間のかかるモデルの再トレーニングなど)。

Google Cloud サポート、社内スタッフの時間、場合によってはサードパーティ製のモニタリング ツール

例を使って費用を見積もってみる

仮想の(しかし実際にありそうな)生成 AI のユースケースを例として考えてみましょう。ある小売企業が Google Cloud を利用し、自動化されたカスタマー サポート chatbot を運用しているとします。

シナリオ: 中規模の e コマース企業が、ウェブサイトに chatbot をデプロイして、顧客からの一般的な問い合わせ(注文状況、返品、商品情報など)への対応を自動化したいと考えています。事前トレーニング済みの言語モデル(Vertex AI Model Garden で利用可能なものなど)を使用して、自社のカスタマー サポート データでファインチューニングする予定です。

前提条件:

  • モデル: 低レイテンシ言語モデルをファインチューニングする(この場合は Gemini 1.5 Flash を使用)

  • トレーニング データ: 100 万件のカスタマー サポートの会話(テキストデータ)

  • トラフィック: 1 日あたり 10 万件の chatbot インタラクション

  • ホスティング: モデル提供のための Vertex AI Prediction

  • ファインチューニングの頻度: 月 1 回

費用の見積もり

たとえば、この小売企業は次のように見積もりを進めることができます。

1. モデル提供の費用を算出する

    • Vertex AI Prediction(Gemini 1.5 Flash for Chat)の価格はモダリティベースの料金体系になっています。この場合、入力と出力がテキストであるため、使用量の単位は文字数になります。ここでは、1 回のやり取りで平均 1,000 文字の入力と 500 文字の出力があると仮定します。

    • 入力 100 万文字あたりの費用: $0.0375

    • 出力 100 万文字あたりの費用: $0.15

    • 1 日あたりの入力費用: やり取り 100,000 件 × 1,000 文字 × $0.0375 ÷ 1,000,000 = $3.75

    • 1 日あたりの出力費用: やり取り 100,000 件 × 500 文字 × $0.15 ÷ 1,000,000 文字 = $7.5

1 日あたりのモデル提供の合計費用: $11.25

1 か月(約 30 日)あたりのモデル提供の合計費用: 約 $337

https://storage.googleapis.com/gweb-cloudblog-publish/images/fig1.max-1800x1800.jpg

Gemini Flash 1.5 LLM モデルの提供費用

2. トレーニングとチューニングの費用を算出する

このシナリオでは、モデルの精度と特定のユースケースとの関連性を高めるためにファインチューニングを行います。過去 100 万件のチャット インタラクションを入力し、より正確でカスタマイズされたインタラクションを提供できるモデルを作成します。

    • トレーニング トークン単位の費用: 100 万トークンあたり $8

    • トレーニング文字単位の費用: 100 万文字あたり $2(各トークンは約 4 文字に相当)

チューニング費用(初月): 会話 1,000,000 件(トレーニング データ)× 1,500 文字(入力 + 出力)× 2 ÷ 1,000,000 = $3,000

チューニング費用(翌月以降): 会話 100,000 件(新しいトレーニング データ)× 1,500 文字(入力 + 出力)× 2 ÷ 1,000,000 = $300

3. クラウド ホスティング費用を把握する

今回は Vertex AI Prediction を使用しているため、基盤となるインフラストラクチャは Google Cloud が管理し、費用はリクエストごとの料金に含まれます。一方で、GKE または Compute Engine でモデルを自社管理する場合は、VM の費用、GPU/TPU の費用(該当する場合)、ネットワーキング費用を考慮する必要があります。この例では、ホスティング費用は Vertex AI の費用に含まれていると仮定し、追加の費用は 0 ドルとします。

4. トレーニング データ用ストレージとアダプタレイヤの費用を定義する

ML モデルのデプロイにおいて、インフラストラクチャ費用は問題視されがちですが、データ ストレージの費用は適度な規模であれば低く抑えられます。会話型 AI システムを実装する場合、トレーニング データと特殊モデルのアダプタを保存する費用は、全体の費用のごく一部にすぎません。こうしたストレージの要件とそれに伴う費用を詳しく見ていきましょう。

    • 100 万件の会話は、会話 1 件あたりの平均サイズを 5 KB と仮定すると、約 5 GB のデータになります

    • 5 GB の Cloud Storage の費用は、月額 $0.1 と無視できるレベルです

    • アダプタレイヤ(ファインチューニングしたモデルの重み)によって、さらに 1 GB のストレージが必要になる可能性がありますが、これも月額 $0.02 と非常にお手頃です

1 か月あたりの合計ストレージ費用: 1 か月あたり $1 未満

5. アプリケーション レイヤとセットアップの費用を考慮する

これは、アプリケーションによって大きく異なります。今回の例で使用しているのは、Cloud Run functions と Logging です。Cloud Run は、chatbot のリクエストの前処理と後処理(フォーマット設定、データベースの参照など)を実行します。ここでは、課金体系をリクエストベースにすると仮定し、リクエストの処理時にのみ課金されるようにします。この例では 1 か月あたり 300 万件(10 万 × 30)のリクエストを処理しており、平均実行時間が 1 秒であると仮定すると、費用は $14.30 になります。

https://storage.googleapis.com/gweb-cloudblog-publish/images/fig2.max-1800x1800.jpg

リクエストベースで課金される場合の Cloud Run functions の費用

  • Cloud Logging と Monitoring を使用して、chatbot のパフォーマンスを追跡し、問題をデバッグします。ロギング ボリュームが 100 GB(高めの値)で、ログの保持期間を 3 か月間とすると、費用は $28 になります。
https://storage.googleapis.com/gweb-cloudblog-publish/images/fig3.max-1800x1800.jpg

Cloud Logging の保存と保持の費用

1 か月あたりのアプリケーション レイヤの合計費用: 約 $40

6. 最後に運用サポートの費用を組み込む

これは社内チームの規模や責務によって異なるため、見積もりが最も難しい項目です。エンジニア 1 人が週 5 時間、時給 $100 で chatbot のモニタリングと保守を行うと仮定します。

1 か月あたりの運用サポートの合計費用: 週 5 時間 × 月 4 週間 × 時給 $100 = $2,000

月間の合計見積もり費用(初月):

    • $ 340(モデル提供)+ $3,000(トレーニング)+ $1(ストレージ)+ $40(アプリケーション)+ $2,000(運用)= $5,381

月間の合計見積もり費用(翌月以降):

  • $340(モデル提供)+ $300(トレーニング)+ $1(ストレージ)+ $40(アプリケーション)+ $2,000(運用)= $2,681

費用の見積もりの詳細については、こちらをご覧ください。なお、チューニングと運用の費用は料金エクスポートではまだ利用できないため、ここには含まれていません。

AI の費用を十分に把握したら、費用を抑えながらパフォーマンスを維持するための最適化戦略を策定することが重要です。インフラストラクチャの選択や、リソースの活用、モニタリング手法をその戦略にバランスよく組み込みます。費用を構成するさまざまな要素を理解し、Google Cloud のツールとリソースを活用すれば、自信を持って AI の導入に着手できます。費用管理は障壁ではなく、イノベーションを実現する手段です。適切な費用管理を行うことで、AI に関する実験やイノベーションが可能になり、財務的に責任ある形で革新的な AI ソリューションを構築できます。

始める

 

-Google Cloud コンサルティング、delta 費用最適化担当リード Pathik Sharma
-Google Cloud コンサルティング、delta Cloud FinOps 責任者 Eric Lam

投稿先