Vertex AI の料金
料金は米ドル(USD)で表示しています。米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。
このページでは、Vertex AI の生成 AI の料金について説明します。ML Platform や MLOps サービスなど、Vertex AI のその他の料金については、Vertex AI の料金ページをご覧ください。
Google のモデル
Gemini
Vertex AI のマルチモーダル モデルでは、テキストまたはメディア(画像、動画)を入力できます。テキスト入力は、入力(プロンプト)1,000 文字ごと、出力(レスポンス)1,000 文字ごとに課金されます。文字数は UTF-8 コードポイントでカウントされ、空白文字はカウントから除外されます。つまり、トークンあたり約 4 文字になります。予測リクエストで応答がフィルタリングされた場合、課金対象は入力のみとなります。各請求期間の最後に、1 セント($0.01)未満の小数部分は、1 セントに切り上げられます。メディア入力は、画像ごと、または秒ごと(動画)に課金されます。
モデル | 特徴 | 種類 | 価格 (=< 128,000 コンテキスト ウィンドウ) |
価格 (128,000 を超えるコンテキスト ウィンドウ) |
---|---|---|---|---|
Gemini 1.5 Flash | マルチモーダル | 画像入力 動画入力 テキスト入力 音声入力 |
$0.0001315 / 画像 $0.0001315 / 秒 $0.000125 / 1,000 文字 $0.0000125 / 秒 |
$0.000263 / 画像 $0.000263 / 秒 $0.00025 / 1,000 文字 $0.000025 / 秒 |
テキスト出力 | $0.000375 / 1k 文字 | $0.00075 / 1,000 文字 | ||
Gemini 1.5 Pro | マルチモーダル | 画像入力 動画入力 テキスト入力 音声入力 |
$0.001315 / 画像 $0.001315 / 秒 $0.00125 / 1,000 文字 $0.000125 / 秒 |
$0.00263 / 画像 $0.00263 / 秒 $0.0025 / 1,000 文字 $0.00025 / 秒 |
テキスト出力 | $0.00375 / 1,000 文字 | $0.0075 / 1,000 文字 | ||
Gemini 1.0 Pro | マルチモーダル | 画像入力 動画入力 テキスト入力 |
$0.0025 / 画像 $0.002 / 秒 $0.000125 / 1,000 文字 |
|
テキスト出力 | $0.000375 / 1k 文字 | |||
Google 検索によるグラウンディング | テキスト | 根拠づけのリクエスト | $35 / 1,000 リクエスト(1 日あたり最大 100 万リクエスト)。 1 日あたり 100 万件を超えるリクエストが必要な場合は、 Google のアカウント担当者にお問い合わせください。 |
* 料金は米ドル(USD)で表しています。米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。
* クエリ コンテキストが 128, 000 を超える場合、すべてのトークンに長いコンテキスト レートが請求されます。
* Gemini モデルは 50% 割引でバッチモードで利用できます。
* Gemini 1.0 Pro は、最大 32K のコンテキスト ウィンドウのみをサポートします。
* PDF は画像入力として課金され、1 つの PDF ページが 1 つの画像と同等になります
Imagen
Vertex AI の画像生成機能では、テキスト プロンプトを送信することで、新しい画像の生成や画像の編集をしたり、またマスク領域を定義して画像の一部を編集したりできます。この他にも多くの機能を利用できます。
モデル | 機能 | 説明 | 入力 | 出力 | 料金 |
---|---|---|---|---|---|
Imagen | 画像の生成 | 画像を生成する | テキスト プロンプト | 画像 | 画像 1 枚あたり $0.020 |
画像編集 | マスクなしまたはマスクを使用して画像を編集する | 画像 / テキスト プロンプト | 画像 | 画像 1 枚あたり $0.020 | |
アップスケーリング | 生成された画像の解像度を 2K と 4K に上げる | 画像 | 画像 | 画像 1 枚あたり $0.003 | |
ファインチューニング | ユーザーが指定した「テーマ」を Imagen のプロンプトで使用できるようにする(少数ショット トレーニング) | テキスト識別子と 4-8 枚の画像を含めたテーマ | ファイン チューニングされたモデル(ユーザーが提供したテーマでのトレーニング後) | 1 ノード時間あたりの $(Vertex AI カスタム トレーニング料金) | |
画像キャプション | 画像に短い / 長いテキスト キャプションを生成 | 画像 | テキスト キャプション | $0.0015 / 画像 | |
Visual Q&A | 画像に関連した質問に対し回答を提供 | 画像 / テキスト プロンプト | テキスト回答 | $0.0015 / 画像 |
料金は米ドル(USD)で表しています。米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。
エンベディング
モデル | 機能 | 説明 | 入力 | 出力 | 料金 |
---|---|---|---|---|---|
multimodalembedding | マルチモーダルのエンベディング: テキスト | テキストを入力としてエンベディングを生成 | テキスト | エンベディング | $0.0002 / 入力 1,000 文字 |
マルチモーダルのエンベディング: 画像 | 画像を入力としてエンベディングを生成 | 画像 | エンベディング | $0.0001 / 画像入力 | |
マルチモーダルのエンベディング: Video Plus | 動画プラス | 動画 | エンベディング(動画 1 分あたり最大 15 個のエンベディング) | 動画 1 秒あたり $0.0020 | |
マルチモーダルのエンベディング: 動画標準 | 動画 標準 | 動画 | エンベディング(動画 1 分あたり最大 8 個のエンベディング) | 動画 1 秒あたり $0.0010 | |
マルチモーダルのエンベディング: 動画の基本 | 必須の動画 | 動画 | エンベディング(動画 1 分あたり最大 4 つのエンベディング) | 動画 1 秒あたり $0.0005 |
モデル | タイプ | リージョン | 1,000 文字あたりの料金 |
---|---|---|---|
テキスト用エンベディング | 入力 | グローバル |
|
出力 | グローバル |
|
料金は米ドル(USD)で表示しています。米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。
コード補完
Vertex AI における生成 AI の利用では、入力(プロンプト)1,000 文字ごと、出力(レスポンス)1,000 文字ごとに課金されます。文字数は UTF-8 コードポイントでカウントされ、空白文字はカウントから除外されます。プレビュー段階では、料金が 100% 割引されます。予測リクエストで応答がフィルタリングされた場合、課金対象は入力のみとなります。各請求期間の最後で、1 セント($0.01)未満の小数部分は、1 セントに切り上げられます。
モデル | タイプ | リージョン | 1,000 文字あたりの料金 |
---|---|---|---|
コード補完用 Codey | 入力 | グローバル |
|
出力 | グローバル |
|
料金は米ドル(USD)表記です。米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。
コンテキストのキャッシュ保存
コンテキスト キャッシュを使用すると、入力テキストまたはメディアのコンテキスト部分を Gemini モデルにキャッシュに保存することで、Gemini 入力トークンの処理費用を 75% 削減し、コンテンツ生成のレイテンシを 75% 削減できます。「コンテキスト キャッシュ ストレージ」の料金は、ユーザーが制御できるキャッシュに保存される期間によって決まります。入力データのキャッシュ ヒットは、通常の入力コストではなく、減らされたレート「キャッシュされた入力」で課金されます。ストレージと入力の両方のデータサイズは、Gemini の入力料金と同じ方法で計算されます。
モデル | 機能 | タイプ | 料金(128,000 未満のコンテキスト ウィンドウ) | 料金(128,000 を超えるコンテキスト ウィンドウ) |
---|---|---|---|---|
Gemini 1.5 Flash | キャッシュされた入力 | 画像入力 動画入力 テキスト入力 音声入力 |
0.000032875 / 画像 0.000032875 / 秒 0.00003125 / 1,000 文字 0.000003125 / 秒 |
0.00006575 / 画像 0.00006575 / 秒 0.0000625 / 1,000 文字 0.00000625 / 秒 |
コンテキスト キャッシュ ストレージ | 画像入力 動画入力 テキスト入力 音声入力 |
0.000263 / 画像 / 時間 0.000263/ 秒 / 時間 0.00025 / 1,000 文字 / 時間 0.000025 / 秒 / 時間 |
||
Gemini 1.5 Pro | キャッシュされた入力 | 画像入力 動画入力 テキスト入力 音声入力 |
0.00032875 / 画像 0.00032875 / 秒 0.0003125 / 1,000 文字 0.00003125 / 秒 |
0.0006575 / 画像 0.0006575 / 秒 0.000625 / 1,000 文字 0.0000625 / 秒 |
コンテキスト キャッシュ ストレージ | 画像入力 動画入力 テキスト入力 音声入力 |
0.0011835 / 画像 / 時間 0.0011835/ 秒 / 時間 0.001125 / 1,000 文字 / 時間 0.0001125 / 秒 / 時間 |
料金は米ドル(USD)で表示しています。米ドル以外の通貨でお支払いの場合は、Cloud Platform SKU に記載されている該当通貨の料金が適用されます。
料金計算の例
ユーザーが PaLM Text Bison モデルに 5 つの別々のリクエストを送信し、それぞれのリクエストが入力 200 文字と出力 400 文字の場合、合計の料金は以下のように計算されます。
Input cost:
200 input characters x 5 prompts = 1,000 total input characters;
1,000 total input characters x ($0.00025 / 1000) = $0.00025 input cost.
Output cost:
400 output characters x 5 prompts = 2,000 total output characters;
2,000 total output characters x ($0.0005 / 1000) = $0.001 output cost.
Total cost:
$0.00025 input cost + $0.001 output cost = $0.00125 total cost.
パートナーのモデル
パートナー モデルは、Google パートナーが開発した生成 AI モデルの厳選されたリストです。パートナー モデルはマネージド API として提供されます。詳細については、パートナー モデルの概要をご覧ください。次の表に、Google パートナー モデルの料金の詳細を示します。
Anthropic の Claude モデル
モデル | 料金 |
---|---|
Claude 3.5 Sonnet | 入力: $3 / 100 万トークン 出力: $15 / 100 万トークン |
Claude 3 Opus | 入力: $15 / 100 万トークン 出力: $75 / 100 万トークン |
Claude 3 Haiku | 入力: $0.25 / 100 万トークン 出力: $1.25 / 100 万トークン |
Claude 3 Sonnet | 入力: $3 / 100 万トークン 出力: $15 / 100 万トークン |