Prácticas recomendadas para usar modelos de lenguaje extensos (LLMs)

Peticiones multimodales

Para obtener información sobre las prácticas recomendadas para las peticiones multimodales, consulta las siguientes páginas en función de la modalidad con la que estés trabajando:

Reducir la latencia

Cuando creas aplicaciones interactivas, el tiempo de respuesta, también conocido como latencia, juega un papel fundamental en la experiencia de usuario. En esta sección se analiza el concepto de latencia en el contexto de las APIs de LLM de Vertex AI y se ofrecen estrategias prácticas para minimizarla y mejorar el tiempo de respuesta de tus aplicaciones basadas en IA.

Información sobre las métricas de latencia de los LLMs

La latencia es el tiempo que tarda un modelo en procesar tu petición y generar una respuesta correspondiente.

Al examinar la latencia de un modelo, tenga en cuenta lo siguiente:

El tiempo hasta el primer token (TTFT) es el tiempo que tarda el modelo en generar el primer token de la respuesta después de recibir la petición. El TTFT es especialmente relevante para las aplicaciones que utilizan streaming, donde es fundamental proporcionar comentarios inmediatos.

Tiempo hasta el último token (TTLT): mide el tiempo total que tarda el modelo en procesar la petición y generar la respuesta.

Estrategias para reducir la latencia

Puedes utilizar varias estrategias con Vertex AI para minimizar la latencia y mejorar la capacidad de respuesta de tus aplicaciones:

Elegir el modelo adecuado para tu caso práctico

Vertex AI ofrece una amplia gama de modelos con diferentes funciones y características de rendimiento. Evalúa detenidamente tus requisitos de velocidad y calidad de los resultados para elegir el modelo que mejor se adapte a tu caso práctico. Para ver una lista de los modelos disponibles, consulta Explorar todos los modelos.

Optimizar la longitud de las peticiones y las respuestas

El número de tokens de tu petición y del resultado esperado influye directamente en el tiempo de procesamiento. Minimiza el número de tokens para reducir la latencia.

  • Redacta peticiones claras y concisas que transmitan tu intención de forma eficaz sin incluir detalles innecesarios ni redundancias. Cuanto más cortas sean las peticiones, menos tiempo tardarás en recibir el primer token.

  • Usa las instrucciones del sistema para controlar la longitud de la respuesta. Indica al modelo que proporcione respuestas concisas o que limite el resultado a un número específico de frases o párrafos. Esta estrategia puede reducir el tiempo que tardas en obtener el último token.

  • Ajusta el temperature. Experimenta con el parámetro temperature para controlar la aleatoriedad de la salida. Los valores de temperature más bajos pueden dar lugar a respuestas más cortas y centradas, mientras que los valores más altos pueden generar resultados más diversos, pero potencialmente más largos. Para obtener más información, consulta temperature en la referencia de parámetros del modelo.

  • Restringe la salida definiendo un límite. Usa el parámetro max_output_tokens para definir un límite máximo en la longitud de la respuesta generada y evitar que sea demasiado larga. Sin embargo, ten cuidado, ya que esto podría cortar las respuestas a mitad de la frase.

Respuestas graduales

Con el streaming, el modelo empieza a enviar su respuesta antes de generar el resultado completo. De esta forma, se puede procesar la salida en tiempo real y puedes actualizar inmediatamente la interfaz de usuario y realizar otras tareas simultáneas.

El streaming mejora la capacidad de respuesta percibida y crea una experiencia de usuario más interactiva.

Siguientes pasos