컨텍스트 캐싱 개요

컨텍스트 캐싱을 사용하여 입력 토큰 수가 많은 반복 콘텐츠가 포함된 요청의 비용을 줄입니다. 대량의 텍스트, 오디오 파일 또는 동영상 파일과 같은 캐시된 컨텍스트 항목은 Gemini API에 대한 프롬프트 요청에서 출력을 생성하는 데 사용될 수 있습니다. 프롬프트에서 같은 캐시를 사용하는 요청에는 각 프롬프트에 고유한 텍스트도 포함됩니다. 예를 들어 채팅 대화를 구성하는 각 프롬프트 요청에는 채팅의 각 차례를 구성하는 고유한 텍스트와 함께 동영상을 참조하는 동일한 컨텍스트 캐시가 포함될 수 있습니다. 최소 컨텍스트 캐시 크기는 토큰 32,768개입니다.

지원되는 모델

다음 모델은 컨텍스트 캐싱을 지원합니다.

  • Gemini 1.5 Flash 안정화 버전
  • Gemini 1.5 Pro 안정화 버전

자세한 내용은 사용 가능한 Gemini 안정화 모델 버전을 참조하세요.

컨텍스트 캐싱은 Vertex AI의 생성형 AI를 사용할 수 있는 리전에서 사용 가능합니다. 자세한 내용은 Vertex AI의 생성형 AI 위치를 참조하세요.

지원되는 MIME 유형

컨텍스트 캐싱은 다음 MIME 유형을 지원합니다.

  • application/pdf
  • audio/mp3
  • audio/mpeg
  • audio/wav
  • image/jpeg
  • image/png
  • text/plain
  • video/avi
  • video/flv
  • video/mov
  • video/mp4
  • video/mpeg
  • video/mpegps
  • video/mpg
  • video/wmv

컨텍스트 캐싱을 사용하는 경우

컨텍스트 캐싱은 짧은 요청에서 상당한 양의 초기 컨텍스트를 반복적으로 참조하는 시나리오에 특히 적합합니다. 다음과 같은 사용 사례에 컨텍스트 캐싱을 사용하는 것이 좋습니다.

  • 다양한 시스템 안내를 제공하는 챗봇
  • 긴 동영상 파일 반복 분석
  • 대규모 문서 세트에 대해 반복 쿼리
  • 빈번한 코드 저장소 분석 또는 버그 수정

캐싱을 통한 경제성

컨텍스트 캐싱은 전반적인 운영 비용을 줄이기 위해 설계된 유료 기능입니다. 다음 요소를 기준으로 결제가 청구됩니다.

  • 캐시 토큰 수: 캐시된 입력 토큰 수로, 후속 프롬프트에 포함될 경우 할인된 요율로 청구됩니다.
  • 스토리지 기간: 캐시된 토큰이 저장되는 시간으로, 시간별로 청구됩니다. 캐시된 토큰은 컨텍스트 캐시가 만료되면 삭제됩니다.
  • 기타 요인: 캐시되지 않은 입력 토큰 및 출력 토큰과 같은 기타 요인에 다른 요금이 청구됩니다.

컨텍스트 캐시 사용 방법

컨텍스트 캐싱을 사용하려면 먼저 컨텍스트 캐시를 만듭니다. 프롬프트 요청에서 컨텍스트 캐시 콘텐츠를 참조하려면 리소스 이름을 사용합니다. 컨텍스트 캐시를 만드는 데 사용된 명령어의 응답에서 컨텍스트 캐시의 리소스 이름을 찾을 수 있습니다.

각 컨텍스트 캐시의 기본 만료 시간은 생성 시간부터 60분 후입니다. 필요한 경우 컨텍스트 캐시를 만들 때 다른 만료 시간을 지정하거나 만료되지 않은 컨텍스트 캐시의 만료 시간을 업데이트할 수 있습니다.

다음 주제에는 컨텍스트 캐시를 만들고 사용하고 업데이트하고 삭제하고 컨텍스트 캐시에 대한 정보를 가져오는 데 도움이 되는 세부정보와 샘플이 포함되어 있습니다.

다음 단계