このページでは、プロビジョニングされたスループットを定期購入する前に考慮すべき詳細、プロビジョニングされたスループットの注文と表示に必要な権限、注文と表示の手順について説明します。
定期購入を開始する前に考慮すべきこと
プロビジョンド スループットを定期購入するかどうかを判断するため、以下に示すサブスクリプションの詳細を確認してください。
注文をキャンセルすることはできません。
プロビジョニングされたスループットの購入はコミットメントであるため、注文をキャンセルすることはできません。ただし、購入した GSU の数は増やすことができます。コミットメントを誤って購入した場合や、構成に問題がある場合は、 Google Cloud アカウント担当者にお問い合わせください。
サブスクリプションは自動更新できます。
注文を送信する際に、サブスクリプションの期間の終了時に自動更新するか、サブスクリプションを終了するかを選択できます。自動更新プロセスはキャンセルできます。自動更新の前に定期購入をキャンセルするには、次の期間の開始の 30 日前までに自動更新をキャンセルしてください。
月単位の定期購入は、毎月自動的に更新されるように設定できます。自動更新は、週単位のプランではご利用いただけません。
このプロセスについてサポートが必要な場合は、 Google Cloud アカウント担当者にお問い合わせください。
モデル バージョンまたはリージョンは、通知の送信後に変更されます。
プロビジョンド スループットは、プロジェクト、リージョン、モデル、バージョンを選択した後に有効になります。同じモデル パブリッシャーまたはリージョン内でモデルのバージョンを変更する場合は、その 10 営業日前に Google Cloud アカウント担当者に連絡してサポートを依頼してください。たとえば、Google のモデル間で切り替えることができます。パートナー A のモデル間で切り替えることができます。パートナー B のモデル間で切り替えることができます。Google、パートナー A、パートナー B の間でモデルを切り替えることはできません。
従量課金制からプロビジョニングされたスループットに切り替えても、ダウンタイムは発生しません。
プロビジョニングされたスループットの注文でモデルを切り替えても、ダウンタイムは発生しません。ただし、スループットを取得するまでのリードタイムが必要です。
デフォルトでは、超過分は従量課金制で請求されます。
スループットがプロビジョンド スループットの注文量を超えると、超過分は従量課金制で処理され、請求されます。超過分はリクエストごとに制御できます。詳細については、REST API を使用するをご覧ください。
リクエストには優先順位が設定されます。
プロビジョニングされたスループットを購入したユーザーからのリクエストは、オンデマンド リクエストよりも優先され、最初に処理されます。
最小使用量とお支払い額を契約していただく必要があります。
最小使用量は、選択した生成 AI モデルによって異なります。購入したスループット率を超える使用量は保証されず、合理的な努力に基づくサービスが提供されます。
スループットは繰り越せません。
未使用のスループットは、翌月に蓄積や繰り越しされません。
プロビジョニングされたスループットは、1 秒あたりの文字数またはトークンで測定されます。
プロビジョニングされたスループットは、1 分あたりのクエリ数(QPM)ではなく、1 秒あたりの文字数またはトークン数で測定されます。そのため、プロビジョニングされたスループットの測定は、ユースケースのクエリサイズと QPM によって異なります。
プロビジョニングされたスループットは割り当てを確認します。
プロビジョニングされたスループットの割り当ては、割り当て期間内にリクエストを送信するたびに確認されます。
gemini-1.5-flash-002
モデルとgemini-1.5-pro-002
モデルの場合、割り当てウィンドウは 30 秒です。つまり、場合によっては、秒単位で割り当て量を超える優先トラフィックが一時的に発生する可能性がありますが、30 秒単位で割り当て量を超えることはありません。他のモデルの割り当て期間は 1 分です。教師ありファインチューニング モデルのエンドポイントと、対応するベースモデルは、同じプロビジョニング済みスループット割り当てにカウントされます。これはプレビュー機能です。プロビジョニングされたスループットのアクセス制御フォームに記入して送信します。
たとえば、特定のプロジェクトの
gemini-1.5-pro-002
用に購入したプロビジョニング済みスループットでは、そのプロジェクト内で作成されたgemini-1.5-pro-002
の教師ありファインチューニング バージョンから行われたリクエストが優先されます。適切なヘッダーを使用して、トラフィックの動作を制御します。
権限
プロビジョニングされたスループットを定期購入するには、新しい注文の一覧取得が可能な次のいずれかの権限がプロジェクトに割り当てられている必要があります。
aiplatform.googleapis.com/provisionedThroughputAdmin
: プロビジョニングされたスループットに固有のものです。aiplatform.googleapis.com/admin
: Vertex AI 内のすべてのリソースに対する管理者権限を付与します。
このロールでは、次の注文のみを一覧取得できます。
aiplatform.googleapis.com/viewer
プロビジョンド スループットを注文する
Imagen モデルを使用する注文を発行する前に、権限付与のリクエスト フォームを送信して権限を取得してください。
MedLM-large-1.5 を使用するように注文する前に、 Google Cloud アカウント担当者に連絡してアクセスをリクエストしてください。QPM が 30,000 を超えると予想される場合は、プロビジョニングされたスループットの注文を最大化するために、次の情報を使用してデフォルトの Vertex AI システム割り当ての増加をリクエストします。
- サービス: Vertex AI API。
- 名前:
Online prediction requests per minute per region
- サービスタイプ: 割り当て。
- ディメンション: プロビジョンド スループットを注文したリージョン。
- 値: 選択したオンライン予測トラフィックの上限。
プロビジョニングされたスループットを購入する手順は次のとおりです。
Console
- Google Cloud コンソールで、[プロビジョニングされたスループット] ページに移動します。
- 新しい注文を開始するには、[作成] をクリックします。
- 注文名を入力します。
- モデルを選択します。
- リージョンを選択します。
- 購入する生成 AI スケール ユニット(GSU)の数を入力します。GSU の数を見積もる必要がある場合は、見積もりツールをクリックします。
- モデルを選択します。
- 秒間クエリ数を入力します。
- クエリあたりの入力文字数を入力します。
- クエリあたりの入力画像数を入力します。
- クエリあたりの動画の秒数を入力します。
- クエリあたりの音声の秒数を入力します。
- クエリあたりの出力文字数を入力します。
- 見積もりツールに入力した値を使用する場合は、[計算された値を使用] をクリックします。
- 期間を選択します。
1 週間を選択した場合は、注文から 2 週間以内の開始日時を指定できます。開始日時を指定しない場合は、容量が確保できた時点で注文を処理します。リクエストされた開始日時は、ベスト エフォート方式で処理されます。また、注文のステータスが [承認済み] に設定されるまでは、注文がこれらの日時までに処理されるとは限りません。
リクエストした開始日が現在の日付に近すぎる場合、注文が承認されて有効化されるまでにリクエストした開始日を過ぎてしまうことがあります。その場合、終了日は有効化日から 7 日間となります。
- 更新オプションを選択します。
- [続行] をクリックします。
- [概要] セクションで、注文の価格とスループットの見積もりを確認します。フォームに記載されている利用規約とリンク先の利用規約をお読みください。
- 注文を確定するには、[確定] をクリックします。
注文ステータスを確認する
プロビジョニングされたスループットの注文を送信すると、注文ステータスが次のいずれかになります。
- 審査待ち: 注文は完了しています。承認は、注文をプロビジョニングするための利用可能な容量に依存するため、注文は審査/ 承認待ち状態になります。保留中の注文のステータスについて詳しくは、 Google Cloud アカウント担当者にお問い合わせください。
- 承認済み: Google が注文を承認しました。
- 有効: Google が注文を有効にしました。請求が開始します。
- 期限切れ: 注文の有効期限が切れています。
プロビジョニングされたスループットの注文を表示する
プロビジョニングされたスループットの注文を表示する手順は次のとおりです。
Console
- Google Cloud コンソールで、[プロビジョニングされたスループット] ページに移動します。
- リージョンを選択します。注文のリストが表示されます。