Anthropic Claude モデルでは、プロンプトのキャッシュが提供されるため、複数のリクエストで同じコンテンツを再利用する際のレイテンシと費用を削減できます。クエリを送信するときに、入力の一部またはすべてをキャッシュに保存して、後続のクエリで前のリクエストのキャッシュに保存された結果を使用できるようにします。これにより、コンピューティングとネットワークの追加費用を回避できます。キャッシュは Google Cloud プロジェクトに固有のものであり、他のプロジェクトでは使用できません。
プロンプトの構造化方法について詳しくは、Anthropic のプロンプト キャッシュのドキュメントをご覧ください。
サポートされている Anthropic Claude モデル
Vertex AI は、次の Anthropic Claude モデルのプロンプト キャッシュをサポートしています。
- Claude 3.5 Sonnet v2(
claude-3-5-sonnet-v2@20241022
) - Claude 3.5 Haiku(
claude-3-5-haiku@20241022
)
データ処理
Anthropic 明示的なプロンプト キャッシュは、Anthropic Claude モデルの機能です。これらの Anthropic モデルの Vertex AI サービスは、Anthropic のドキュメントで説明されているように動作します。
プロンプトのキャッシュ保存はオプション機能です。Claude は、キャッシュキーのリクエストのハッシュ(フィンガープリント)を計算します。これらのハッシュは、キャッシュが有効になっているリクエストに対してのみ計算されます。
プロンプト キャッシュは Claude モデルによって実装される機能ですが、データ処理の観点から、Google ではこれらのハッシュを「ユーザー メタデータ」の一種と見なしています。これらのデータは、Cloud のデータ処理に関する追加条項(お客様)の「お客様データ」ではなく、Google Cloudプライバシーに関するお知らせに基づき、お客様の「サービスデータ」として扱われます。特に、「お客様データ」の追加保護はこれらのハッシュには適用されません。Google はこれらのハッシュを他の目的に使用しません。
このプロンプト キャッシュ機能の使用を完全に無効にして、特定の Google Cloud プロジェクトで使用できなくするには、カスタマー サポートに連絡して関連するプロジェクト番号を指定してください。プロジェクトで明示的なキャッシュが無効になると、プロンプト キャッシュが有効になっているプロジェクトからのリクエストは拒否されます。
プロンプトのキャッシュを使用する
Anthropic Claude SDK または Vertex AI REST API を使用して、Vertex AI エンドポイントにリクエストを送信できます。
詳細については、プロンプトのキャッシュの仕組みをご覧ください。
その他の例については、Anthropic のドキュメントのプロンプトのキャッシュ保存の例をご覧ください。
後続のリクエストに最初のリクエストと同じテキスト、画像、cache_control
パラメータが含まれている場合、キャッシュに自動的に保存されます。すべてのリクエストで、同じブロックに cache_control
パラメータを含める必要があります。
キャッシュの有効期間は 5 分です。キャッシュに保存されたコンテンツにアクセスするたびに更新されます。
料金
プロンプトのキャッシュ保存は、課金費用に影響する可能性があります。次のことに注意してください。
- キャッシュ書き込みトークンはベース入力トークンよりも 25% 高価
- キャッシュ読み取りトークンはベース入力トークンよりも 90% 低価格
- 通常の入力トークンと出力トークンは標準料金で課金されます。
詳細については、料金のページをご覧ください。