Prompts multimodais
Para informações sobre as práticas recomendadas de comandos multimodais, consulte os seguintes com base na modalidade com a qual você está trabalhando:
Reduzir a latência
Quando você cria aplicativos interativos, o tempo de resposta, também conhecido como latência, desempenha um papel crucial na experiência do usuário. Esta seção explora o conceito de latência no contexto das APIs LLM da Vertex AI e fornece estratégias úteis para minimizá-la e melhorar o tempo de resposta dos aplicativos com tecnologia de IA.
Noções básicas sobre as métricas de latência dos LLMs
Latência é o tempo que um modelo leva para processar o comando de entrada e gerar uma resposta de saída correspondente.
Ao examinar a latência com um modelo, considere o seguinte:
O tempo para o primeiro token (TTFT, na sigla em inglês) é o tempo que o modelo leva para produzir o primeiro token da resposta depois de receber a solicitação. O TTFT é particularmente relevante para aplicativos que usam streaming, em que o fornecimento de feedback imediato é crucial.
O Tempo até o último token (TTLT) mede o tempo total que o modelo leva para processar o comando e gerar a resposta.
Estratégias para reduzir a latência
Várias estratégias podem ser usadas com a Vertex AI para minimizar a latência e melhorar a capacidade de resposta dos aplicativos:
Escolher o modelo certo para seu caso de uso
A Vertex AI oferece uma gama diversificada de modelos com capacidades e características de desempenho variadas. Selecione o modelo que melhor atenda às suas necessidades específicas.
Gemini 1.5 Flash: um modelo multimodal projetado para alto aplicativos econômicos e de grande volume. Gemini 1.5 em flash oferece velocidade e eficiência para criar aplicativos rápidos e de baixo custo que não comprometer a qualidade. Ele oferece suporte às seguintes modalidades: texto, código, imagens, áudio, vídeo com e sem áudio, PDFs ou uma combinação dessas duas opções.
Gemini 1.5 Pro: um modelo multimodal com suporte a contextos maiores. Ele oferece suporte às seguintes modalidades: texto, código, imagens, áudio, vídeo com e sem áudio, PDFs ou uma combinação dessas duas opções.
Gemini 1.0 Pro: se a velocidade é uma prioridade e seu os comandos contêm apenas texto, então considere usar esse modelo. Esse modelo oferece tempos de resposta mais rápidos e resultados impressionantes.
Avalie cuidadosamente seus requisitos em relação à velocidade e à qualidade da saída para escolher o modelo que melhor se alinha ao seu caso de uso. Para ver uma lista de modelos disponíveis, consulte Explorar todos os modelos.
Otimizar o tamanho do comando e da saída
O número de tokens no comando de entrada e na saída esperada afeta diretamente o tempo de processamento. Minimize a contagem de tokens para reduzir a latência.
Crie comandos claros e concisos que transmitam com eficiência sua intenção sem detalhes desnecessários ou redundância. Comandos mais curtos reduzem o tempo para o primeiro token.
Use as instruções do sistema para controlar o tamanho da resposta. Instrua o modelo a fornecer respostas concisas ou limitar a saída a um número específico de sentenças ou parágrafos. Essa estratégia pode reduzir o tempo até o último token.
Ajuste o
temperature
. Teste o parâmetrotemperature
para controlar a aleatoriedade da saída. Valores detemperature
mais baixos podem levar a respostas mais curtas e focadas, enquanto valores mais altos podem resultar em saídas mais diversas, mas potencialmente mais longas. Para mais informações, consultetemperature
na referência de parâmetros do modelo.Restrinja a saída definindo um limite. Use o parâmetro
max_output_tokens
para definir um limite máximo para o comprimento da resposta gerada, evitando saídas muito longas. No entanto, tenha cuidado, porque isso pode cortar as respostas no meio da frase.
Respostas de stream
Com o streaming, o modelo começa a enviar a resposta antes de gerar a saída completa. Isso permite o processamento em tempo real da saída, e você pode atualizar imediatamente sua interface do usuário e executar outras tarefas simultâneas.
O streaming melhora a capacidade de resposta percebida e cria uma experiência do usuário mais interativa.
A seguir
- Conhecer estratégias gerais de elaboração de comandos.
- Veja alguns exemplos de comandos.
- Saiba como enviar comandos de chat.
- Saiba mais sobre as práticas recomendadas de IA responsável e os filtros de segurança da Vertex AI.
- Saiba como ajustar um modelo.