최신 Gemini 모델로 마이그레이션

이 가이드에서는 애플리케이션을 최신 Gemini 버전으로 업데이트하는 방법을 설명합니다. 이 가이드에서는 애플리케이션이 이미 이전 버전의 Gemini를 사용하고 있다고 가정합니다. Vertex AI에서 Gemini를 시작하는 방법을 알아보려면 Vertex AI의 Gemini API 빠른 시작을 참고하세요.

이 가이드에서는 Vertex AI SDK에서 현재 Google Gen AI SDK로 애플리케이션을 전환하는 방법을 다루지 않습니다. 자세한 내용은 Vertex AI SDK 마이그레이션 가이드를 참고하세요.

어떤 변경사항이 적용되나요?

대부분의 생성형 AI 애플리케이션을 최신 Gemini 버전으로 업데이트하는 데는 코드나 프롬프트 변경이 거의 필요하지 않습니다. 하지만 일부 애플리케이션에서는 프롬프트를 조정해야 할 수 있습니다. 새 버전으로 프롬프트를 먼저 테스트하지 않고 이러한 변경사항을 예측하기는 어렵습니다. 완전히 이전하기 전에 철저한 테스트를 하는 것이 좋습니다. 효과적인 프롬프트를 만드는 방법에 대한 팁은 프롬프트 전략 안내를 참고하세요. 프롬프트 상태 체크리스트를 사용하여 프롬프트 문제를 찾아 해결하세요.

특정 호환성이 깨지는 변경사항이 있거나 새로운 Gemini 기능을 사용하려는 경우에만 주요 코드 변경사항을 적용하면 됩니다.

어떤 Gemini 모델로 이전해야 하나요?

사용하는 Gemini 모델은 애플리케이션의 요구사항에 따라 다릅니다. 다음 표에서는 이전 Gemini 1.5 모델과 최신 Gemini 모델을 비교합니다.

기능 1.5 Pro 1.5 Flash 2.0 Flash 2.0 Flash-Lite 2.5 Pro 2.5 Flash 2.5 Flash-Lite
출시 단계 지원 중단됨 지원 중단됨 정식 버전 정식 버전 정식 버전 정식 버전 정식 버전
입력 모달리티
텍스트, 코드, 이미지, 오디오, 동영상
텍스트, 코드, 이미지, 오디오, 동영상
텍스트, 코드, 이미지, 오디오, 동영상
텍스트, 코드, 이미지, 오디오, 동영상
텍스트, 코드, 이미지, 오디오, 동영상
텍스트, 코드, 이미지, 오디오, 동영상
텍스트, 코드, 이미지, 오디오, 동영상
출력 모달리티
텍스트
텍스트
텍스트
텍스트
텍스트
텍스트
텍스트
컨텍스트 윈도우, 총 토큰 한도 2,097,152 1,048,576 1,048,576 1,048,576 1,048,576 1,048,576 1,048,576
출력 컨텍스트 길이 8,192 (기본값) 8,192 (기본값) 8,192 (기본값) 8,192 (기본값) 65,535 (기본값) 65,535 (기본값) 65,536 (기본값)
Google 검색으로 그라운딩
함수 호출
코드 실행
컨텍스트 캐싱
일괄 예측
Live API*
세부 조정
지연 시간
권장 SDK Vertex AI SDK Vertex AI SDK 생성형 AI SDK 생성형 AI SDK 생성형 AI SDK 생성형 AI SDK 생성형 AI SDK
가격 책정 단위 문자 기반이란 문자 기반이란 토큰 토큰 토큰 토큰 토큰
지원 중단일 2025년 9월 24일 2025년 9월 24일 2026년 2월 5일 2026년 2월 25일 2026년 6월 17일 2026년 6월 17일 2026년 7월 22일

* Live API는 gemini-live-2.5-flashgemini-live-2.5-flash-preview-native-audio의 일부로 미리보기 제품으로 제공됩니다.

마이그레이션을 시작하기 전에

마이그레이션 프로세스를 시작하기 전에 다음 사항을 고려해야 합니다.

정보 보안, 거버넌스, 규제 승인

정보 보안 (InfoSec), 위험, 규정 준수팀의 승인을 조기에 받으세요. 특히 의료 및 금융과 같은 규제 대상 업종에서 특정 위험 및 규정 준수 규칙을 다룹니다.

위치 가용성

Vertex AI의 Google 및 파트너 모델과 생성형 AI 기능은 특정 리전 엔드포인트전역 엔드포인트를 통해 사용할 수 있습니다. 전역 엔드포인트는 전 세계를 포괄하며 단일 리전에 비해 가용성과 안정성이 개선되었습니다.

리전 엔드포인트 가용성은 모델에 따라 다릅니다. 각 모델에 대한 자세한 내용은 위치 가이드를 참고하세요.

형식 및 토큰화 기반 가격 책정 차이

가격은 Gemini 모델마다 다릅니다. 가격 책정 페이지에는 모델별 모든 형식 (텍스트, 코드, 이미지, 음성 등)의 비용이 나와 있습니다.

프로비저닝된 처리량 주문 구매 또는 변경

필요한 경우 프로비저닝된 처리량을 추가로 구매하거나 기존 프로비저닝된 처리량 주문을 변경합니다.

감독 기반 미세 조정

최신 Gemini 모델은 더 나은 출력 품질을 제공합니다. 이는 애플리케이션에 더 이상 미세 조정된 모델이 필요하지 않음을 의미할 수 있습니다. 애플리케이션에서 이전 Gemini 모델로 지도 미세 조정을 사용하는 경우 먼저 미세 조정 없이 최신 모델로 애플리케이션을 테스트하고 결과를 평가합니다.

지도 기반 세부 조정을 사용하기로 선택한 경우 이전 Gemini 버전에서 기존 조정된 모델을 이동할 수 없습니다. 새 Gemini 버전에 대해 새로운 튜닝 작업을 실행해야 합니다.

새 Gemini 모델을 조정할 때는 기본 조정 설정으로 시작하세요. 조정 서비스는 최신 버전에 최적화되어 있으므로 이전 Gemini 버전의 하이퍼파라미터 값을 재사용하지 마세요. 이전 설정을 재사용하면 최적의 결과를 얻지 못할 수 있습니다.

회귀 테스트

최신 Gemini 버전으로 업그레이드할 때는 다음 세 가지 주요 유형의 회귀 테스트가 필요합니다.

  1. 코드 회귀 테스트: 소프트웨어 엔지니어링 및 개발자 운영 (DevOps) 관점에서 회귀 테스트입니다. 이러한 유형의 회귀 테스트는 항상 필요합니다.
  2. 모델 성능 회귀 테스트: 데이터 과학 또는 머신러닝 관점에서의 회귀 테스트입니다. 즉, 새로운 Gemini 모델 버전이 이전 버전과 동일한 수준의 품질을 유지하는 출력을 제공해야 합니다.

    모델 성능 회귀 테스트는 시스템 또는 기본 모델이 변경될 때 실행되는 모델 평가입니다. 소개합니다.

    • 오프라인 성능 테스트: 다양한 모델 출력 품질 측정항목을 기반으로 전용 실험 환경에서 모델 출력의 품질을 확인하는 테스트입니다.
    • 온라인 모델 성능 테스트: 암시적 또는 명시적 사용자 피드백을 기반으로 라이브 온라인 배포에서 모델 출력의 품질을 어설션하는 테스트입니다.
  3. 부하 테스트: 이러한 테스트는 애플리케이션이 한 번에 많은 요청을 얼마나 잘 처리하는지 확인합니다. 부하 테스트는 프로비저닝된 처리량을 사용하는 애플리케이션에 필요합니다.

최신 버전으로 마이그레이션하는 방법

다음 섹션에서는 최신 Gemini 버전으로 마이그레이션하는 단계를 간략하게 설명합니다. 최적의 결과를 얻으려면 다음 단계를 순서대로 완료하세요.

1. 문서 모델 평가 및 테스트 요구사항

  1. 애플리케이션을 처음 빌드할 때 실행한 관련 평가와 그 이후에 실행한 평가를 반복할 준비를 합니다.
  2. 현재 평가가 애플리케이션에서 실행하는 모든 작업을 완전히 다루거나 측정하지 않는 경우 평가를 더 설계하고 준비하세요. 평가 플레이북평가 레시피를 사용하여 시작할 수 있습니다.
  3. 애플리케이션에 RAG, 도구 사용, 복잡한 에이전트 워크플로 또는 프롬프트 체인이 포함된 경우 기존 평가 데이터를 통해 각 구성요소를 독립적으로 평가할 수 있는지 확인하세요. 그렇지 않은 경우 각 구성요소의 입력-출력 예시를 수집합니다.
  4. 애플리케이션이 중요하거나 더 큰 사용자 대상 실시간 시스템의 일부인 경우 온라인 평가를 포함하세요.

2. 코드 업그레이드 및 테스트 실행

코드를 업그레이드하려면 다음 세 가지 주요 사항을 변경해야 합니다.

다음 섹션에서는 이러한 변경사항을 자세히 설명합니다.

Google Gen AI SDK로 업그레이드

Gemini 1.x 애플리케이션에서 Vertex AI SDK를 사용하는 경우 Gen AI SDK로 전환하세요. Gen AI SDK로 유사한 호출을 실행하는 코드 예시를 비롯한 자세한 내용은 Vertex AI SDK 마이그레이션 가이드를 참고하세요. 2026년 6월 이후에 출시되는 Vertex AI SDK에서는 Gemini를 지원하지 않으며, 새로운 Gemini 기능은 Gen AI SDK에서만 사용할 수 있습니다.

Gen AI SDK를 처음 사용하는 경우 Gen AI SDK를 사용하여 Google 생성형 AI 시작하기 노트북을 참고하세요.

Gemini 통화 변경하기

최신 Gemini 모델 중 하나를 사용하도록 예측 코드를 업데이트합니다. 최소한 모델 엔드포인트 이름을 변경해야 합니다.

정확한 코드 변경사항은 애플리케이션을 빌드한 방식, 특히 생성형 AI SDK를 사용했는지 아니면 Vertex AI SDK를 사용했는지에 따라 다릅니다.

코드 변경 후 코드 회귀 테스트 및 기타 소프트웨어 테스트를 실행하여 코드가 예상대로 작동하는지 확인합니다. 이 단계에서는 코드의 작동 여부를 확인하지만 모델 응답의 품질은 확인하지 않습니다.

호환성이 깨지는 코드 변경사항 수정

이 단계에서는 코드 변경사항에만 집중하세요. 나중에 다른 변경사항을 적용해야 할 수도 있지만 평가를 시작할 때까지 기다리세요. 평가 후 평가 결과를 기반으로 다음 조정을 고려하세요.

  • 동적 검색에서 전환하는 경우 Google 검색이 사용되는 시점을 제어하기 위해 시스템 지침을 조정해야 할 수 있습니다 (예: "Only generate queries for the Google Search tool if the user asks about sports. Don't generate queries for any other topic."). 하지만 프롬프트를 변경하기 전에 평가할 때까지 기다리세요.
  • Top-K 매개변수를 사용한 경우 Top-P과 같은 다른 토큰 샘플링 매개변수를 조정하여 비슷한 결과를 얻으세요.

3. 오프라인 평가 실행

애플리케이션을 처음 개발하고 출시할 때 실행한 평가, 그 이후에 실행한 오프라인 평가, 1단계에서 확인한 추가 평가를 반복합니다. 평가에서 애플리케이션의 범위를 완전히 다루지 않는다고 생각되면 추가 평가를 실시하세요.

오프라인 평가를 실행하는 자동화된 방법이 없는 경우 Gen AI Evaluation Service를 사용하는 것이 좋습니다.

애플리케이션에서 미세 조정을 사용하는 경우 최신 버전의 Gemini로 모델을 다시 조정하기 전에 오프라인 평가를 실행하세요. 최신 모델은 출력 품질이 개선되어 애플리케이션에 미세 조정된 모델이 더 이상 필요하지 않을 수 있습니다.

4. 평가 결과 평가 및 프롬프트와 초매개변수 조정

오프라인 평가에서 애플리케이션의 성능이 떨어지는 것으로 나타나면 성능이 이전 모델과 일치할 때까지 애플리케이션을 개선하세요. 다음과 같은 방법으로 이 작업을 수행할 수 있습니다.

5. 부하 테스트 실행

애플리케이션에 특정 최소 처리량이 필요한 경우 부하 테스트를 실행하여 애플리케이션의 최신 버전이 처리량 요구사항을 충족하는지 확인합니다.

온라인 평가에서는 모델을 실제 트래픽에 노출하므로 부하 테스트는 온라인 평가 전에 실행해야 합니다. 이 단계에서는 기존 부하 테스트 도구와 계측을 사용합니다.

애플리케이션이 이미 처리량 요구사항을 충족하는 경우 프로비저닝된 처리량을 사용하는 것이 좋습니다. 현재 프로비저닝된 처리량 주문이 프로덕션 트래픽을 처리하는 동안 부하 테스트를 처리하려면 단기 프로비저닝된 처리량이 추가로 필요합니다.

6. (선택사항) 온라인 평가 실행

오프라인 평가에서 Gemini 출력 품질이 높게 나오고 애플리케이션에 온라인 평가가 필요한 경우에만 온라인 평가로 이동하세요.

온라인 평가는 온라인 테스트의 한 유형입니다. 온라인 평가를 위해 조직의 기존 도구와 방법을 사용해 보세요. 예를 들면 다음과 같습니다.

  • 조직에서 정기적으로 A/B 테스트를 실행하는 경우 테스트를 실행하여 애플리케이션의 현재 버전과 최신 Gemini 버전을 비교하세요.
  • 조직에서 정기적으로 카나리아 배포를 사용하는 경우 최신 모델과 함께 사용하여 사용자 행동의 변화를 측정하세요.

애플리케이션에 새로운 의견 및 측정 기능을 추가하여 온라인 평가를 수행할 수도 있습니다. 애플리케이션마다 다른 의견 방법이 필요합니다. 예를 들면 다음과 같습니다.

  • 모델 출력 옆에 좋아요 및 싫어요 버튼을 추가하고 이전 모델과 최신 Gemini 모델 간의 비율을 비교합니다.
  • 이전 모델과 최신 모델의 출력을 나란히 표시하고 사용자에게 가장 좋아하는 출력을 선택하도록 요청합니다.
  • 사용자가 이전 모델과 최신 모델의 출력을 재정의하거나 수동으로 조정하는 빈도를 추적합니다.

이러한 의견 제공 방법을 사용하려면 기존 버전과 함께 최신 Gemini 버전을 실행해야 하는 경우가 많습니다. 이러한 병렬 배포를 '섀도우 모드' 또는 '블루-그린 배포'라고도 합니다.

온라인 평가 결과가 오프라인 평가 결과와 크게 다른 경우 오프라인 평가에서 라이브 환경 또는 사용자 경험의 주요 측면을 포착하지 못하는 것입니다. 온라인 평가 결과를 적용하여 격차를 해소하는 새로운 오프라인 평가를 만든 다음 3단계로 돌아갑니다.

프로비저닝된 처리량을 사용하는 경우 온라인 평가에서 사용자의 처리량 요구사항을 계속 충족하려면 단기 프로비저닝된 처리량을 추가로 구매해야 할 수 있습니다.

7. 프로덕션에 배포

평가 결과 최신 Gemini 모델이 이전 모델만큼 또는 그 이상으로 성능이 우수한 것으로 나타나면 기존 애플리케이션 버전을 새 버전으로 대체합니다. 조직의 표준 프로덕션 출시 절차를 따르세요.

프로비저닝된 처리량을 사용하는 경우 프로비저닝된 처리량 주문을 선택한 Gemini 모델로 변경합니다. 애플리케이션을 점진적으로 출시하는 경우 단기 프로비저닝된 처리량을 사용하여 두 가지 Gemini 모델의 처리량 요구사항을 충족하세요.

모델 성능 향상

마이그레이션할 때 다음 팁을 적용하여 선택한 Gemini 모델에서 최적의 성능을 달성하세요.

  • 시스템 안내, 프롬프트, 퓨샷 학습 예시에서 불일치, 모순, 관련 없는 안내 및 예시가 있는지 확인합니다.
  • 더 강력한 모델을 테스트합니다. 예를 들어 Gemini 2.0 Flash-Lite를 평가한 경우 Gemini 2.0 Flash를 사용해 보세요.
  • 자동 평가 결과를 검토하여 사람의 판단과 일치하는지 확인합니다. 특히 판사 모델을 사용하는 결과를 검토합니다. 심사 모델 지침이 명확하고 일관되며 모호하지 않은지 확인하세요.
  • 심사 모델 안내를 개선하려면 격리된 상태로 작업하는 여러 사람을 대상으로 안내를 테스트하세요. 사람이 안내를 다르게 해석하고 다른 판단을 내리는 경우 심사 모델 안내가 명확하지 않은 것입니다.
  • 모델을 미세 조정합니다.
  • 평가 출력에서 특정 유형의 실패를 보여주는 패턴을 검사합니다. 모델, 유형 또는 카테고리별로 실패를 그룹화하면 더 타겟팅된 평가 데이터를 제공하여 이러한 오류를 수정하도록 프롬프트를 더 쉽게 조정할 수 있습니다.
  • 다양한 생성형 AI 구성요소를 독립적으로 평가해야 합니다.
  • 토큰 샘플링 매개변수를 조정해 봅니다.

도움말 보기

도움이 필요한 경우 Google Cloud 에서 연중무휴 지원, 전화 지원, 기술 지원 관리자 상담과 같은 다양한 니즈를 충족할 수 있는 서포트 패키지를 제공합니다. 자세한 내용은 Google Cloud 지원을 참조하세요.

다음 단계