대규모 언어 모델(LLM) 권장사항

멀티모달 프롬프트

멀티모달 프롬프트에 대한 권장사항은 멀티모달 권장사항을 참조하세요.

지연 시간 감소

대화형 애플리케이션을 빌드할 때 응답 시간(지연 시간이라고도 함)이 사용자 경험에서 중요한 역할을 합니다. 이 섹션에서는 Vertex AI LLM API의 맥락에서 지연 시간의 개념을 살펴보고 이를 최소화하고 AI 기반 애플리케이션의 응답 시간을 개선할 수 있는 실용적인 전략을 제공합니다.

LLM의 지연 시간 측정항목 이해

지연 시간은 모델에서 입력 프롬프트를 처리하고 해당 출력 응답을 생성하는 데 걸리는 시간을 나타냅니다.

모델을 사용하여 지연 시간을 검사할 때는 다음 사항을 고려하세요.

첫 번째 토큰까지의 시간(TTFT)은 모델에서 프롬프트를 수신한 후 응답의 첫 번째 토큰을 생성하는 데 걸리는 시간입니다. TTFT는 특히 즉각적인 피드백 제공이 중요한 스트리밍을 활용하는 애플리케이션과 관련이 있습니다.

마지막 토큰까지의 시간(TTLT)는 모델에서 프롬프트를 처리하고 응답을 생성하는 데 걸리는 전체 시간을 측정합니다.

지연 시간 감소 전략

Vertex AI를 통해 여러 가지 전략을 활용하여 지연 시간을 최소화하고 애플리케이션 응답성을 향상시킬 수 있습니다.

사용 사례에 적합한 모델 선택

Vertex AI는 다양한 기능과 성능 특성을 가진 여러 가지 모델을 제공합니다. 특정 니즈에 가장 적합한 모델을 선택합니다.

  • Gemini 1.0 Pro: 속도가 가장 중요한 경우에는 이 모델을 사용하는 것이 좋습니다. 이 모델은 뛰어난 결과를 제공하면서 더 빠른 응답 시간을 제공합니다.

  • Gemini 1.5 Pro(미리보기): 더 큰 맥락을 지원하는 보다 강력한 멀티모달 모델입니다. 텍스트, 코드, 이미지 오디오, 오디오가 포함되거나 포함되지 않은 동영상, PDF 또는 이러한 요소의 조합과 같은 각 모달리티를 지원합니다.

속도와 출력 품질과 관련된 요구사항을 신중하게 평가하여 사용 사례에 가장 적합한 모델을 선택합니다. 사용 가능한 모델 목록은 모든 모델 살펴보기를 참조하세요.

프롬프트 및 출력 길이 최적화

입력 프롬프트 및 예상 출력 모두의 토큰 수는 처리 시간에 직접적인 영향을 미칩니다. 지연 시간을 줄이려면 토큰 수를 최소화합니다.

  • 불필요한 세부정보나 중복 없이 인텐트를 효과적으로 전달하는 명확하고 간결한 프롬프트를 작성합니다. 프롬프트가 짧을수록 첫 번째 토큰까지의 시간이 줄어듭니다.

  • 시스템 안내를 사용하여 응답 길이를 제어합니다. 간결한 답변을 제공하거나 출력을 특정 문장 또는 단락 수로 제한하도록 모델에 지시합니다. 이 전략은 마지막 토큰까지의 시간을 줄일 수 있습니다.

  • temperature를 조정합니다. temperature 매개변수를 실험하여 출력의 무작위성을 제어합니다. temperature 값이 낮을수록 응답이 더 짧고 더욱 집중됩니다. 반면 값이 높을수록 출력은 더 다양하지만 잠재적으로 더 길어질 수 있습니다. 자세한 내용은 강도를 참조하세요.

  • 한도를 설정하여 출력을 제한합니다. 지나치게 긴 출력이 방지되도록 max_output_tokens 매개변수를 사용하여 생성된 응답 길이의 최대 길이 제한을 설정합니다. 하지만 문장 중간에서 응답이 끊어질 수 있으므로 주의해야 합니다.

응답 스트리밍

스트리밍을 사용하면 모델에서 전체 출력을 생성하기 전에 응답을 보내기 시작합니다. 이렇게 하면 출력을 실시간으로 처리할 수 있으며 개발자는 사용자 인터페이스를 즉시 업데이트하고 다른 동시 태스크를 수행할 수 있습니다.

스트리밍은 인지된 반응성을 향상시키고 더욱 상호적인 사용자 경험을 만듭니다. 자세한 내용은 생성형 AI 모델에서 응답 스트리밍을 참조하세요.

다음 단계