멀티모달 프롬프트
멀티모달 프롬프트에 대한 권장사항은 멀티모달 권장사항을 참조하세요.
지연 시간 감소
대화형 애플리케이션을 빌드할 때 응답 시간(지연 시간이라고도 함)이 사용자 경험에서 중요한 역할을 합니다. 이 섹션에서는 Vertex AI LLM API의 맥락에서 지연 시간의 개념을 살펴보고 이를 최소화하고 AI 기반 애플리케이션의 응답 시간을 개선할 수 있는 실용적인 전략을 제공합니다.
LLM의 지연 시간 측정항목 이해
지연 시간은 모델에서 입력 프롬프트를 처리하고 해당 출력 응답을 생성하는 데 걸리는 시간을 나타냅니다.
모델을 사용하여 지연 시간을 검사할 때는 다음 사항을 고려하세요.
첫 번째 토큰까지의 시간(TTFT)은 모델에서 프롬프트를 수신한 후 응답의 첫 번째 토큰을 생성하는 데 걸리는 시간입니다. TTFT는 특히 즉각적인 피드백 제공이 중요한 스트리밍을 활용하는 애플리케이션과 관련이 있습니다.
마지막 토큰까지의 시간(TTLT)는 모델에서 프롬프트를 처리하고 응답을 생성하는 데 걸리는 전체 시간을 측정합니다.
지연 시간 감소 전략
Vertex AI를 통해 여러 가지 전략을 활용하여 지연 시간을 최소화하고 애플리케이션 응답성을 향상시킬 수 있습니다.
사용 사례에 적합한 모델 선택
Vertex AI는 다양한 기능과 성능 특성을 가진 여러 가지 모델을 제공합니다. 특정 니즈에 가장 적합한 모델을 선택합니다.
Gemini 1.0 Pro: 속도가 가장 중요한 경우에는 이 모델을 사용하는 것이 좋습니다. 이 모델은 뛰어난 결과를 제공하면서 더 빠른 응답 시간을 제공합니다.
Gemini 1.5 Pro(미리보기): 더 큰 맥락을 지원하는 보다 강력한 멀티모달 모델입니다. 텍스트, 코드, 이미지 오디오, 오디오가 포함되거나 포함되지 않은 동영상, PDF 또는 이러한 요소의 조합과 같은 각 모달리티를 지원합니다.
속도와 출력 품질과 관련된 요구사항을 신중하게 평가하여 사용 사례에 가장 적합한 모델을 선택합니다. 사용 가능한 모델 목록은 모든 모델 살펴보기를 참조하세요.
프롬프트 및 출력 길이 최적화
입력 프롬프트 및 예상 출력 모두의 토큰 수는 처리 시간에 직접적인 영향을 미칩니다. 지연 시간을 줄이려면 토큰 수를 최소화합니다.
불필요한 세부정보나 중복 없이 인텐트를 효과적으로 전달하는 명확하고 간결한 프롬프트를 작성합니다. 프롬프트가 짧을수록 첫 번째 토큰까지의 시간이 줄어듭니다.
시스템 안내를 사용하여 응답 길이를 제어합니다. 간결한 답변을 제공하거나 출력을 특정 문장 또는 단락 수로 제한하도록 모델에 지시합니다. 이 전략은 마지막 토큰까지의 시간을 줄일 수 있습니다.
temperature
를 조정합니다.temperature
매개변수를 실험하여 출력의 무작위성을 제어합니다.temperature
값이 낮을수록 응답이 더 짧고 더욱 집중됩니다. 반면 값이 높을수록 출력은 더 다양하지만 잠재적으로 더 길어질 수 있습니다. 자세한 내용은 강도를 참조하세요.한도를 설정하여 출력을 제한합니다. 지나치게 긴 출력이 방지되도록
max_output_tokens
매개변수를 사용하여 생성된 응답 길이의 최대 길이 제한을 설정합니다. 하지만 문장 중간에서 응답이 끊어질 수 있으므로 주의해야 합니다.
응답 스트리밍
스트리밍을 사용하면 모델에서 전체 출력을 생성하기 전에 응답을 보내기 시작합니다. 이렇게 하면 출력을 실시간으로 처리할 수 있으며 개발자는 사용자 인터페이스를 즉시 업데이트하고 다른 동시 태스크를 수행할 수 있습니다.
스트리밍은 인지된 반응성을 향상시키고 더욱 상호적인 사용자 경험을 만듭니다. 자세한 내용은 생성형 AI 모델에서 응답 스트리밍을 참조하세요.
다음 단계
- 일반적인 프롬프트 디자인 전략 알아보기
- 몇 가지 샘플 프롬프트 참조하기
- 멀티모달 프롬프트 전송 방법 알아보기
- 책임감 있는 AI 권장사항 및 Vertex AI 안전 필터 알아보기
- 모델 조정 방법 알아보기