대규모 언어 모델(LLM) 권장사항

멀티모달 프롬프트

멀티모달 프롬프트에 대한 권장사항은 사용 중인 모달에 따라 다음 페이지를 참고하세요.

지연 시간 감소

대화형 애플리케이션을 빌드할 때 응답 시간(지연 시간이라고도 함)이 사용자 경험에서 중요한 역할을 합니다. 이 섹션에서는 Vertex AI LLM API의 맥락에서 지연 시간의 개념을 살펴보고 이를 최소화하고 AI 기반 애플리케이션의 응답 시간을 개선할 수 있는 실용적인 전략을 제공합니다.

LLM의 지연 시간 측정항목 이해

지연 시간은 모델에서 입력 프롬프트를 처리하고 해당 출력 응답을 생성하는 데 걸리는 시간을 나타냅니다.

모델을 사용하여 지연 시간을 검사할 때는 다음 사항을 고려하세요.

첫 번째 토큰까지의 시간(TTFT)은 모델에서 프롬프트를 수신한 후 응답의 첫 번째 토큰을 생성하는 데 걸리는 시간입니다. TTFT는 특히 즉각적인 피드백 제공이 중요한 스트리밍을 활용하는 애플리케이션과 관련이 있습니다.

마지막 토큰까지의 시간(TTLT)는 모델에서 프롬프트를 처리하고 응답을 생성하는 데 걸리는 전체 시간을 측정합니다.

지연 시간 감소 전략

Vertex AI를 통해 여러 가지 전략을 활용하여 지연 시간을 최소화하고 애플리케이션 응답성을 향상시킬 수 있습니다.

사용 사례에 적합한 모델 선택

Vertex AI는 다양한 기능과 성능 특성을 가진 여러 가지 모델을 제공합니다. 속도와 출력 품질과 관련된 요구사항을 신중하게 평가하여 사용 사례에 가장 적합한 모델을 선택합니다. 사용 가능한 모델 목록은 모든 모델 살펴보기를 참조하세요.

프롬프트 및 출력 길이 최적화

입력 프롬프트 및 예상 출력 모두의 토큰 수는 처리 시간에 직접적인 영향을 미칩니다. 지연 시간을 줄이려면 토큰 수를 최소화합니다.

불필요한 세부정보나 중복 없이 인텐트를 효과적으로 전달하는 명확하고 간결한 프롬프트를 작성합니다. 프롬프트가 짧을수록 첫 번째 토큰까지의 시간이 줄어듭니다.
시스템 안내를 사용하여 응답 길이를 제어합니다. 간결한 답변을 제공하거나 출력을 특정 문장 또는 단락 수로 제한하도록 모델에 지시합니다. 이 전략은 마지막 토큰까지의 시간을 줄일 수 있습니다.
temperature를 조정합니다. temperature 파라미터를 실험하여 출력의 무작위성을 제어합니다. temperature 값이 낮을수록 응답이 더 짧고 더욱 집중됩니다. 반면 값이 높을수록 출력은 더 다양하지만 잠재적으로 더 길어질 수 있습니다. 자세한 내용은 모델 매개변수 참조의 temperature를 참고하세요.
한도를 설정하여 출력을 제한합니다. 지나치게 긴 출력이 방지되도록 max_output_tokens 파라미터를 사용하여 생성된 응답 길이의 최대 길이 제한을 설정합니다. 하지만 문장 중간에서 응답이 끊어질 수 있으므로 주의해야 합니다.

응답 스트리밍

스트리밍을 사용하면 모델에서 전체 출력을 생성하기 전에 응답을 보내기 시작합니다. 이렇게 하면 출력을 실시간으로 처리할 수 있으며 개발자는 사용자 인터페이스를 즉시 업데이트하고 다른 동시 태스크를 수행할 수 있습니다.

스트리밍은 인지된 반응성을 향상시키고 더욱 상호적인 사용자 경험을 만듭니다.

다음 단계

일반적인 프롬프트 디자인 전략 알아보기
몇 가지 샘플 프롬프트 참조하기
채팅 프롬프트 보내기 방법 알아보기
책임감 있는 AI 권장사항 및 Vertex AI 안전 필터 알아보기
모델 조정 방법 알아보기
프로덕션 워크로드를 보장하는 프로비저닝된 처리량에 대해 알아보세요.