リクエスト数がリクエストの処理に割り当てられた容量を超えると、エラーコード 429
が返されます。次の表に、各タイプの割り当てフレームワークによって生成されるエラー メッセージを示します。
割り当てフレームワーク | メッセージ |
---|---|
従量課金制 | Resource exhausted, please try again later. |
プロビジョニングされたスループット | Too many requests. Exceeded the Provisioned Throughput. |
プロビジョニングされたスループット サブスクリプションを使用すると、特定の生成 AI モデルのスループット量を予約できます。プロビジョニングされたスループット サブスクリプションがなく、アプリケーションでリソースを使用できない場合は、エラーコード 429
が返されます。予約済み容量はありませんが、リクエストをもう一度お試しください。ただし、サービスレベル契約(SLA)に記載されているように、リクエストはエラー率の計算対象にはなりません。
プロビジョニングされたスループットを購入したプロジェクトの場合、Vertex AI はプロジェクトのスループットを測定し、その量のスループットを予約して使用できるようにします。購入したスループット量よりも少ない量を使用している場合、429
として返されるエラーは 5XX
として返され、SLA に記載されているエラー率の一部としてカウントされます。
従量課金制
従量制の割り当てフレームワークでは、429
エラーを解決するために次のオプションがあります。
- 切り捨て型指数バックオフを使用して再試行方法を実装します。
- コンシューマ オーバーライドを設定し、費用を管理するように構成している場合は、上限を増やします。詳細については、動的共有割り当てをご覧ください。
- より一貫したサービスレベルを実現するには、Provisioned Throughput に登録します。詳細については、プロビジョニングされたスループットをご覧ください。
次のステップ
- 動的共有割り当ての詳細については、動的共有割り当てをご覧ください。
- Vertex AI の割り当てと上限の詳細については、Vertex AI の割り当てと上限をご覧ください。
- Google Cloud の割り当てと上限の詳細については、割り当ての値とシステムの上限についてをご覧ください。