Práticas recomendadas com grandes modelos de linguagem (GMLs)

Comandos multimodais

Para obter informações sobre as práticas recomendadas para comandos multimodais, consulte as seguintes páginas com base na modalidade com que está a trabalhar:

Reduza a latência

Quando cria aplicações interativas, o tempo de resposta, também conhecido como latência, desempenha um papel crucial na experiência do utilizador. Esta secção explora o conceito de latência no contexto das APIs de GML da Vertex AI e fornece estratégias acionáveis para a minimizar e melhorar o tempo de resposta das suas aplicações baseadas em IA.

Compreender as métricas de latência para MDIs

A latência refere-se ao tempo que um modelo demora a processar o seu comando de entrada e a gerar uma resposta de saída correspondente.

Quando examinar a latência com um modelo, considere o seguinte:

O tempo até ao primeiro token (TTFT) é o tempo que o modelo demora a produzir o primeiro token da resposta após receber o comando. O TTFT é particularmente relevante para aplicações que usam streaming, onde o feedback imediato é crucial.

O tempo até ao último token (TTLT) mede o tempo total que o modelo demora a processar o comando e gerar a resposta.

Estratégias para reduzir a latência

Pode usar várias estratégias com o Vertex AI para minimizar a latência e melhorar a capacidade de resposta das suas aplicações:

Escolha o modelo certo para o seu exemplo de utilização

A Vertex AI oferece uma gama diversificada de modelos com diferentes capacidades e características de desempenho. Avalie cuidadosamente os seus requisitos relativamente à velocidade e à qualidade do resultado para escolher o modelo que melhor se alinha com o seu exemplo de utilização. Para ver uma lista de modelos disponíveis, consulte o artigo Explore todos os modelos.

Otimize o comprimento do comando e da saída

O número de tokens no comando de entrada e no resultado esperado afeta diretamente o tempo de processamento. Minimize a contagem de tokens para reduzir a latência.

  • Crie comandos claros e concisos que transmitam eficazmente a sua intenção sem detalhes desnecessários nem redundância. Os comandos mais curtos reduzem o tempo até ao primeiro token.

  • Use instruções do sistema para controlar o comprimento da resposta. Instrua o modelo para fornecer respostas concisas ou limitar o resultado a um número específico de frases ou parágrafos. Esta estratégia pode reduzir o tempo até ao último token.

  • Ajuste o temperature. Experimente com o parâmetro temperature para controlar a aleatoriedade da saída. Os valores temperature mais baixos podem gerar respostas mais curtas e focadas, enquanto os valores mais elevados podem resultar em resultados mais diversos, mas potencialmente mais longos. Para mais informações, consulte temperature na referência de parâmetros do modelo.

  • Restrinja a saída definindo um limite. Use o parâmetro max_output_tokens para definir um limite máximo para o comprimento da resposta gerada, evitando resultados demasiado longos. No entanto, tenha cuidado, pois isto pode interromper as respostas a meio da frase.

Respostas graduais

Com o streaming, o modelo começa a enviar a respetiva resposta antes de gerar o resultado completo. Isto permite o processamento em tempo real do resultado e pode atualizar imediatamente a interface do utilizador e realizar outras tarefas em simultâneo.

O streaming melhora a capacidade de resposta percebida e cria uma experiência do utilizador mais interativa.

O que se segue?