Comandos multimodais
Para obter informações sobre as práticas recomendadas para comandos multimodais, consulte as seguintes páginas com base na modalidade com que está a trabalhar:
Reduza a latência
Quando cria aplicações interativas, o tempo de resposta, também conhecido como latência, desempenha um papel crucial na experiência do utilizador. Esta secção explora o conceito de latência no contexto das APIs de GML da Vertex AI e fornece estratégias acionáveis para a minimizar e melhorar o tempo de resposta das suas aplicações baseadas em IA.
Compreender as métricas de latência para MDIs
A latência refere-se ao tempo que um modelo demora a processar o seu comando de entrada e a gerar uma resposta de saída correspondente.
Quando examinar a latência com um modelo, considere o seguinte:
O tempo até ao primeiro token (TTFT) é o tempo que o modelo demora a produzir o primeiro token da resposta após receber o comando. O TTFT é particularmente relevante para aplicações que usam streaming, onde o feedback imediato é crucial.
O tempo até ao último token (TTLT) mede o tempo total que o modelo demora a processar o comando e gerar a resposta.
Estratégias para reduzir a latência
Pode usar várias estratégias com o Vertex AI para minimizar a latência e melhorar a capacidade de resposta das suas aplicações:
Escolha o modelo certo para o seu exemplo de utilização
A Vertex AI oferece uma gama diversificada de modelos com diferentes capacidades e características de desempenho. Avalie cuidadosamente os seus requisitos relativamente à velocidade e à qualidade do resultado para escolher o modelo que melhor se alinha com o seu exemplo de utilização. Para ver uma lista de modelos disponíveis, consulte o artigo Explore todos os modelos.
Otimize o comprimento do comando e da saída
O número de tokens no comando de entrada e no resultado esperado afeta diretamente o tempo de processamento. Minimize a contagem de tokens para reduzir a latência.
Crie comandos claros e concisos que transmitam eficazmente a sua intenção sem detalhes desnecessários nem redundância. Os comandos mais curtos reduzem o tempo até ao primeiro token.
Use instruções do sistema para controlar o comprimento da resposta. Instrua o modelo para fornecer respostas concisas ou limitar o resultado a um número específico de frases ou parágrafos. Esta estratégia pode reduzir o tempo até ao último token.
Ajuste o
temperature
. Experimente com o parâmetrotemperature
para controlar a aleatoriedade da saída. Os valorestemperature
mais baixos podem gerar respostas mais curtas e focadas, enquanto os valores mais elevados podem resultar em resultados mais diversos, mas potencialmente mais longos. Para mais informações, consultetemperature
na referência de parâmetros do modelo.Restrinja a saída definindo um limite. Use o parâmetro
max_output_tokens
para definir um limite máximo para o comprimento da resposta gerada, evitando resultados demasiado longos. No entanto, tenha cuidado, pois isto pode interromper as respostas a meio da frase.
Respostas graduais
Com o streaming, o modelo começa a enviar a respetiva resposta antes de gerar o resultado completo. Isto permite o processamento em tempo real do resultado e pode atualizar imediatamente a interface do utilizador e realizar outras tarefas em simultâneo.
O streaming melhora a capacidade de resposta percebida e cria uma experiência do utilizador mais interativa.
O que se segue?
- Saiba mais sobre estratégias gerais de design de comandos.
- Veja alguns exemplos de comandos.
- Saiba como enviar comandos de chat.
- Saiba mais sobre as práticas recomendadas de IA responsável e os filtros de segurança da Vertex AI.
- Saiba como ajustar um modelo.
- Saiba mais acerca do débito aprovisionado para garantir cargas de trabalho de produção.