컨텍스트 캐시 사용

REST API 또는 Python SDK를 사용하여 생성형 AI 애플리케이션의 컨텍스트 캐시에 저장된 콘텐츠를 참조할 수 있습니다. 컨텍스트 캐시를 사용하려면 먼저 컨텍스트 캐시를 만들어야 합니다.

코드에서 사용하는 컨텍스트 캐시 객체에는 다음 속성이 포함됩니다.

name - 컨텍스트 캐시 리소스 이름입니다. 형식은 projects/PROJECT_NUMBER/locations/LOCATION/cachedContents/CACHE_ID입니다. 컨텍스트 캐시를 만들면 응답에 리소스 이름이 포함되어 있는 것을 확인할 수 있습니다. 프로젝트 번호는 프로젝트의 고유 식별자입니다. 캐시 ID는 캐시의 ID입니다. 코드에서 컨텍스트 캐시를 지정할 때는 전체 컨텍스트 캐시 리소스 이름을 사용해야 합니다. 다음은 요청 본문에서 캐시된 콘텐츠 리소스 이름을 지정하는 방법을 보여주는 예시입니다.
```
"cached_content": "projects/123456789012/locations/us-central1/123456789012345678"
```
model - 캐시를 만드는 데 사용된 모델의 리소스 이름입니다. 형식은 projects/PROJECT_NUMBER/locations/LOCATION/publishers/PUBLISHER_NAME/models/MODEL_ID입니다.
createTime - 컨텍스트 캐시의 생성 시간을 지정하는 Timestamp입니다.
updateTime - 컨텍스트 캐시의 가장 최근 업데이트 시간을 지정하는 Timestamp입니다. 컨텍스트 캐시가 생성된 후 업데이트되기 전에는 createTime 및 updateTime이 동일합니다.
expireTime - 컨텍스트 캐시가 만료되는 시점을 지정하는 Timestamp입니다. 기본 expireTime은 createTime 후 60분입니다. 새 만료 시간으로 캐시를 업데이트할 수 있습니다. 자세한 내용은 컨텍스트 캐시 업데이트를 참고하세요. 캐시가 만료되면 삭제 대상으로 표시되며 캐시를 사용하거나 업데이트할 수 있다고 가정해서는 안 됩니다. 만료된 컨텍스트 캐시를 사용해야 하는 경우 적절한 만료 시간으로 다시 만들어야 합니다.

컨텍스트 캐시 사용의 제한 사항

컨텍스트 캐시를 만들 때 다음 기능을 지정할 수 있습니다. 요청에서 다음 항목을 다시 지정해서는 안 됩니다.

GenerativeModel.system_instructions 속성. 이 속성은 모델이 사용자로부터 안내를 받기 전에 모델에 대한 안내를 지정하는 데 사용됩니다. 자세한 내용은 시스템 안내를 참고하세요.
GenerativeModel.tool_config 속성. tool_config 속성은 함수 호출 기능에서 사용하는 도구와 같이 Gemini 모델에서 사용하는 도구를 지정하는 데 사용됩니다.
GenerativeModel.tools 속성. GenerativeModel.tools 속성은 함수 호출 애플리케이션을 만드는 함수를 지정하는 데 사용됩니다. 자세한 내용은 함수 호출을 참조하세요.

컨텍스트 캐시 샘플 사용

다음은 컨텍스트 캐시를 사용하는 방법을 보여줍니다. 컨텍스트 캐시를 사용하는 경우 다음 속성을 지정할 수 없습니다.

GenerativeModel.system_instructions
GenerativeModel.tool_config
GenerativeModel.tools

Python

설치

pip install --upgrade google-genai

자세한 내용은 SDK 참고 문서를 참조하세요.

Vertex AI에서 Gen AI SDK를 사용하도록 환경 변수를 설정합니다.

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

from google import genai
from google.genai.types import GenerateContentConfig, HttpOptions

client = genai.Client(http_options=HttpOptions(api_version="v1"))
# Use content cache to generate text response
# E.g cache_name = 'projects/111111111111/locations/us-central1/cachedContents/1111111111111111111'
response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="Summarize the pdfs",
    config=GenerateContentConfig(
        cached_content=cache_name,
    ),
)
print(response.text)
# Example response
#   The Gemini family of multimodal models from Google DeepMind demonstrates remarkable capabilities across various
#   modalities, including image, audio, video, and text....

Go

Go를 설치하거나 업데이트하는 방법을 알아보세요.

자세한 내용은 SDK 참고 문서를 참조하세요.

Vertex AI에서 Gen AI SDK를 사용하도록 환경 변수를 설정합니다.

# Replace the `GOOGLE_CLOUD_PROJECT` and `GOOGLE_CLOUD_LOCATION` values
# with appropriate values for your project.
export GOOGLE_CLOUD_PROJECT=GOOGLE_CLOUD_PROJECT
export GOOGLE_CLOUD_LOCATION=us-central1
export GOOGLE_GENAI_USE_VERTEXAI=True

import (
	"context"
	"fmt"
	"io"

	genai "google.golang.org/genai"
)

// useContentCacheWithTxt shows how to use content cache to generate text content.
func useContentCacheWithTxt(w io.Writer, cacheName string) error {
	ctx := context.Background()

	client, err := genai.NewClient(ctx, &genai.ClientConfig{
		HTTPOptions: genai.HTTPOptions{APIVersion: "v1"},
	})
	if err != nil {
		return fmt.Errorf("failed to create genai client: %w", err)
	}

	resp, err := client.Models.GenerateContent(ctx,
		"gemini-2.0-flash-001",
		genai.Text("Summarize the pdfs"),
		&genai.GenerateContentConfig{
			CachedContent: cacheName,
		},
	)
	if err != nil {
		return fmt.Errorf("failed to use content cache to generate content: %w", err)
	}

	respText := resp.Text()

	fmt.Fprintln(w, respText)

	// Example response:
	// The provided research paper introduces Gemini 1.5 Pro, a multimodal model capable of recalling
	// and reasoning over information from very long contexts (up to 10 million tokens).  Key findings include:
	//
	// * **Long Context Performance:**
	// ...

	return nil
}

REST

Vertex AI API를 사용하여 게시자 모델 엔드포인트에 POST 요청을 보내면 REST를 사용하여 프롬프트와 함께 컨텍스트 캐시를 사용할 수 있습니다.

요청 데이터를 사용하기 전에 다음을 바꿉니다.

PROJECT_ID: 프로젝트 ID입니다.
LOCATION: 컨텍스트 캐시 만들기 요청이 처리된 리전
MIME_TYPE: 모델에 제출할 텍스트 프롬프트

HTTP 메서드 및 URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/gemini-2.0-flash-001:generateContent

JSON 요청 본문:

{
  "cachedContent": "projects/PROJECT_NUMBER/locations/LOCATION/cachedContents/CACHE_ID",
  "contents": [
      {"role":"user","parts":[{"text":"PROMPT_TEXT"}]}
  ],
  "generationConfig": {
      "maxOutputTokens": 8192,
      "temperature": 1,
      "topP": 0.95,
  },
  "safetySettings": [
      {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "threshold": "BLOCK_MEDIUM_AND_ABOVE"
      },
      {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "threshold": "BLOCK_MEDIUM_AND_ABOVE"
      },
      {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "threshold": "BLOCK_MEDIUM_AND_ABOVE"
      },
      {
          "category": "HARM_CATEGORY_HARASSMENT",
          "threshold": "BLOCK_MEDIUM_AND_ABOVE"
      }
  ],
}

요청을 보내려면 다음 옵션 중 하나를 선택합니다.

curl

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하거나 gcloud CLI에 자동으로 로그인하는 Cloud Shell을 사용하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/gemini-2.0-flash-001:generateContent"

PowerShell

참고: 다음 명령어는 gcloud init 또는 gcloud auth login을 실행하여 사용자 계정으로 gcloud CLI에 로그인했다고 가정합니다. gcloud auth list를 실행하면 현재 활성 계정을 확인할 수 있습니다.

요청 본문을 request.json 파일에 저장하고 다음 명령어를 실행합니다.

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/google/models/gemini-2.0-flash-001:generateContent" | Select-Object -Expand Content

다음과 비슷한 JSON 응답이 수신됩니다.

응답

{
  "candidates": [
    {
      "content": {
        "role": "model",
        "parts": [
          {
            "text": "MODEL_RESPONSE"
          }
        ]
      },
      "finishReason": "STOP",
      "safetyRatings": [
        {
          "category": "HARM_CATEGORY_HATE_SPEECH",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.21866937,
          "severity": "HARM_SEVERITY_NEGLIGIBLE",
          "severityScore": 0.19946389
        },
        {
          "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
          "probability": "MEDIUM",
          "probabilityScore": 0.6880493,
          "severity": "HARM_SEVERITY_MEDIUM",
          "severityScore": 0.43374163
        },
        {
          "category": "HARM_CATEGORY_HARASSMENT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.4442634,
          "severity": "HARM_SEVERITY_LOW",
          "severityScore": 0.37903354
        },
        {
          "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
          "probability": "NEGLIGIBLE",
          "probabilityScore": 0.10502681,
          "severity": "HARM_SEVERITY_LOW",
          "severityScore": 0.28170192
        }
      ]
    }
  ],
  "usageMetadata": {
    "promptTokenCount": 55927,
    "candidatesTokenCount": 105,
    "totalTokenCount": 56032
  }
}

curl 명령어 예시

LOCATION="us-central1"
MODEL_ID="gemini-2.0-flash-001"
PROJECT_ID="test-project"

curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
"https://${LOCATION}-aiplatform.googleapis.com/v1/projects/${PROJECT_ID}/locations/${LOCATION}/publishers/google/models/${MODEL_ID}:generateContent" -d \
'{
  "cachedContent": "projects/${PROJECT_NUMBER}/locations/${LOCATION}/cachedContents/${CACHE_ID}",
  "contents": [
      {"role":"user","parts":[{"text":"What are the benefits of exercise?"}]}
  ],
  "generationConfig": {
      "maxOutputTokens": 8192,
      "temperature": 1,
      "topP": 0.95,
  },
  "safetySettings": [
    {
      "category": "HARM_CATEGORY_HATE_SPEECH",
      "threshold": "BLOCK_MEDIUM_AND_ABOVE"
    },
    {
      "category": "HARM_CATEGORY_DANGEROUS_CONTENT",
      "threshold": "BLOCK_MEDIUM_AND_ABOVE"
    },
    {
      "category": "HARM_CATEGORY_SEXUALLY_EXPLICIT",
      "threshold": "BLOCK_MEDIUM_AND_ABOVE"
    },
    {
      "category": "HARM_CATEGORY_HARASSMENT",
      "threshold": "BLOCK_MEDIUM_AND_ABOVE"
    }
  ],
}'

컨텍스트 캐시 만료 시간 업데이트 방법 알아보기
새 컨텍스트 캐시를 만드는 방법 알아보기
Google Cloud 프로젝트와 연결된 모든 컨텍스트 캐시에 대한 정보를 가져오는 방법 알아보기
컨텍스트 캐시 삭제 방법 알아보기

컨텍스트 캐시 사용 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

컨텍스트 캐시 사용의 제한 사항

컨텍스트 캐시 샘플 사용

Python

설치

Go

REST

curl

PowerShell

응답

curl 명령어 예시

컨텍스트 캐시 사용