Peticiones multimodales
Para obtener información sobre las prácticas recomendadas para las peticiones multimodales, consulta las siguientes páginas en función de la modalidad con la que estés trabajando:
Reducir la latencia
Cuando creas aplicaciones interactivas, el tiempo de respuesta, también conocido como latencia, juega un papel fundamental en la experiencia de usuario. En esta sección se analiza el concepto de latencia en el contexto de las APIs de LLM de Vertex AI y se ofrecen estrategias prácticas para minimizarla y mejorar el tiempo de respuesta de tus aplicaciones basadas en IA.
Información sobre las métricas de latencia de los LLMs
La latencia es el tiempo que tarda un modelo en procesar tu petición y generar una respuesta correspondiente.
Al examinar la latencia de un modelo, tenga en cuenta lo siguiente:
El tiempo hasta el primer token (TTFT) es el tiempo que tarda el modelo en generar el primer token de la respuesta después de recibir la petición. El TTFT es especialmente relevante para las aplicaciones que utilizan streaming, donde es fundamental proporcionar comentarios inmediatos.
Tiempo hasta el último token (TTLT): mide el tiempo total que tarda el modelo en procesar la petición y generar la respuesta.
Estrategias para reducir la latencia
Puedes utilizar varias estrategias con Vertex AI para minimizar la latencia y mejorar la capacidad de respuesta de tus aplicaciones:
Elegir el modelo adecuado para tu caso práctico
Vertex AI ofrece una amplia gama de modelos con diferentes funciones y características de rendimiento. Evalúa detenidamente tus requisitos de velocidad y calidad de los resultados para elegir el modelo que mejor se adapte a tu caso práctico. Para ver una lista de los modelos disponibles, consulta Explorar todos los modelos.
Optimizar la longitud de las peticiones y las respuestas
El número de tokens de tu petición y del resultado esperado influye directamente en el tiempo de procesamiento. Minimiza el número de tokens para reducir la latencia.
Redacta peticiones claras y concisas que transmitan tu intención de forma eficaz sin incluir detalles innecesarios ni redundancias. Cuanto más cortas sean las peticiones, menos tiempo tardarás en recibir el primer token.
Usa las instrucciones del sistema para controlar la longitud de la respuesta. Indica al modelo que proporcione respuestas concisas o que limite el resultado a un número específico de frases o párrafos. Esta estrategia puede reducir el tiempo que tardas en obtener el último token.
Ajusta el
temperature
. Experimenta con el parámetrotemperature
para controlar la aleatoriedad de la salida. Los valores detemperature
más bajos pueden dar lugar a respuestas más cortas y centradas, mientras que los valores más altos pueden generar resultados más diversos, pero potencialmente más largos. Para obtener más información, consultatemperature
en la referencia de parámetros del modelo.Restringe la salida definiendo un límite. Usa el parámetro
max_output_tokens
para definir un límite máximo en la longitud de la respuesta generada y evitar que sea demasiado larga. Sin embargo, ten cuidado, ya que esto podría cortar las respuestas a mitad de la frase.
Respuestas graduales
Con el streaming, el modelo empieza a enviar su respuesta antes de generar el resultado completo. De esta forma, se puede procesar la salida en tiempo real y puedes actualizar inmediatamente la interfaz de usuario y realizar otras tareas simultáneas.
El streaming mejora la capacidad de respuesta percibida y crea una experiencia de usuario más interactiva.
Siguientes pasos
- Consulta las estrategias generales de diseño de peticiones.
- Consulta algunas peticiones de ejemplo.
- Consulta cómo enviar peticiones de chat.
- Consulta las prácticas recomendadas de IA responsable y los filtros de seguridad de Vertex AI.
- Consulta cómo ajustar un modelo.
- Consulta información sobre el rendimiento aprovisionado para asegurar las cargas de trabajo de producción.