Prácticas recomendadas con modelos de lenguaje grandes (LLM)

Instrucciones multimodales

Si deseas obtener información sobre las prácticas recomendadas para las instrucciones multimodales, consulta las siguientes páginas según la modalidad con la que trabajes:

Reducir la latencia

Cuando compilas aplicaciones interactivas, el tiempo de respuesta, también conocido como latencia, cumple un rol fundamental en la experiencia del usuario. En esta sección, se explora el concepto de latencia en el contexto de las APIs de LLM de Vertex AI y se proporcionan estrategias prácticas para minimizarla y mejorar el tiempo de respuesta de las aplicaciones impulsadas por IA.

Comprende las métricas de latencia de los LLM

La latencia se refiere al tiempo que tarda un modelo en procesar la instrucción de entrada y generar una respuesta de salida correspondiente.

Cuando examines la latencia con un modelo, ten en cuenta lo siguiente:

El tiempo hasta el primer token (TTFT) es el tiempo que tarda el modelo en producir el primer token de la respuesta después de recibir la instrucción. El TTFT es particularmente relevante para las aplicaciones que usan la transmisión, en las que proporcionar comentarios inmediatos es fundamental.

El tiempo hasta el último token (TTL) mide el tiempo total que tarda el modelo en procesar la instrucción y generar la respuesta.

Estrategias para reducir la latencia

Puedes usar varias estrategias con Vertex AI para minimizar la latencia y mejorar la capacidad de respuesta de tus aplicaciones:

Elige el modelo adecuado para tu caso de uso

Vertex AI proporciona una variedad de modelos con distintas capacidades y características de rendimiento. Selecciona el modelo que mejor se adapte a tus necesidades específicas.

Gemini 1.5 Flash: un modelo multimodal diseñado para aplicaciones rentables de gran volumen. Gemini 1.5 Flash ofrece velocidad y eficiencia para compilar aplicaciones rápidas y de bajo costo que no comprometen la calidad. Admite cada una de las siguientes modalidades: texto, código, imágenes, audio, video con y sin audio, PDF o una combinación de cualquiera de estas.
Gemini 1.5 Pro: un modelo multimodal más capaz compatible con un contexto más grande. Admite cada una de las siguientes modalidades: texto, código, imágenes, audio, video con y sin audio, PDF o una combinación de cualquiera de estas.
Gemini 1.0 Pro: si la velocidad es una prioridad principal y tus mensajes solo contienen texto, considera usar este modelo Este modelo ofrece tiempos de respuesta rápidos y, a la vez, ofrece resultados impresionantes.

Evalúa con cuidado los requisitos de velocidad y calidad del resultado para elegir el modelo que mejor se alinee con tu caso de uso. Para obtener una lista de los modelos disponibles, consulta Explora todos los modelos.

Optimiza la longitud de las instrucciones y los resultados

La cantidad de tokens en la instrucción de entrada y el resultado esperado afecta directamente el tiempo de procesamiento. Minimiza el recuento de tokens para reducir la latencia.

Crea instrucciones claras y concisas que transmitan de manera eficaz tu intent sin detalles innecesarios ni redundancia. Las instrucciones más cortas reducen el tiempo hasta el primer token.
Usa las instrucciones del sistema para controlar la longitud de la respuesta. Indica al modelo que proporcione respuestas concisas o limite el resultado a una cantidad específica de oraciones o párrafos. Esta estrategia puede reducir tu tiempo hasta el último token.
Ajusta la temperature. Experimenta con el parámetro temperature para controlar la aleatoriedad del resultado. Los valores temperature más bajos pueden generar respuestas más cortas y enfocadas, mientras que los valores más altos pueden generar resultados más diversos, pero potencialmente más largos. Para obtener más información, consulta temperature en la referencia de parámetros del modelo.
Para restringir el resultado, establece un límite. Usa el parámetro max_output_tokens para establecer un límite máximo en la longitud de la respuesta generada, lo que evita un resultado demasiado largo. Sin embargo, ten cuidado, ya que esto podría cortar las respuestas en la mitad de la oración.

Respuestas de transmisión

Con la transmisión, el modelo comienza a enviar su respuesta antes de generar el resultado completo. Esto permite el procesamiento del resultado en tiempo real, y puedes actualizar de inmediato la interfaz de usuario y realizar otras tareas simultáneas.

La transmisión mejora la capacidad de respuesta percibida y crea una experiencia del usuario más interactiva.

¿Qué sigue?

Aprende estrategias generales de diseño de prompts.
Consulta algunos prompts de muestra.
Aprende a enviar mensajes de chat.
Obtén información sobre las prácticas recomendadas de IA responsable y los filtros de seguridad de Vertex AI.
Obtén más información para ajustar un modelo.