Práticas recomendadas com modelos de linguagem grandes (LLMs)

Prompts multimodais

Para informações sobre as práticas recomendadas de comandos multimodais, consulte os seguintes com base na modalidade com a qual você está trabalhando:

Reduzir a latência

Quando você cria aplicativos interativos, o tempo de resposta, também conhecido como latência, desempenha um papel crucial na experiência do usuário. Esta seção explora o conceito de latência no contexto das APIs LLM da Vertex AI e fornece estratégias úteis para minimizá-la e melhorar o tempo de resposta dos aplicativos com tecnologia de IA.

Noções básicas sobre as métricas de latência dos LLMs

Latência é o tempo que um modelo leva para processar o comando de entrada e gerar uma resposta de saída correspondente.

Ao examinar a latência com um modelo, considere o seguinte:

O tempo para o primeiro token (TTFT, na sigla em inglês) é o tempo que o modelo leva para produzir o primeiro token da resposta depois de receber a solicitação. O TTFT é particularmente relevante para aplicativos que usam streaming, em que o fornecimento de feedback imediato é crucial.

O Tempo até o último token (TTLT) mede o tempo total que o modelo leva para processar o comando e gerar a resposta.

Estratégias para reduzir a latência

Várias estratégias podem ser usadas com a Vertex AI para minimizar a latência e melhorar a capacidade de resposta dos aplicativos:

Escolher o modelo certo para seu caso de uso

A Vertex AI oferece uma gama diversificada de modelos com capacidades e características de desempenho variadas. Selecione o modelo que melhor atenda às suas necessidades específicas.

  • Gemini 1.5 Flash: um modelo multimodal projetado para alto aplicativos econômicos e de grande volume. Gemini 1.5 em flash oferece velocidade e eficiência para criar aplicativos rápidos e de baixo custo que não comprometer a qualidade. Ele oferece suporte às seguintes modalidades: texto, código, imagens, áudio, vídeo com e sem áudio, PDFs ou uma combinação dessas duas opções.

  • Gemini 1.5 Pro: um modelo multimodal com suporte a contextos maiores. Ele oferece suporte às seguintes modalidades: texto, código, imagens, áudio, vídeo com e sem áudio, PDFs ou uma combinação dessas duas opções.

  • Gemini 1.0 Pro: se a velocidade é uma prioridade e seu os comandos contêm apenas texto, então considere usar esse modelo. Esse modelo oferece tempos de resposta mais rápidos e resultados impressionantes.

Avalie cuidadosamente seus requisitos em relação à velocidade e à qualidade da saída para escolher o modelo que melhor se alinha ao seu caso de uso. Para ver uma lista de modelos disponíveis, consulte Explorar todos os modelos.

Otimizar o tamanho do comando e da saída

O número de tokens no comando de entrada e na saída esperada afeta diretamente o tempo de processamento. Minimize a contagem de tokens para reduzir a latência.

  • Crie comandos claros e concisos que transmitam com eficiência sua intenção sem detalhes desnecessários ou redundância. Comandos mais curtos reduzem o tempo para o primeiro token.

  • Use as instruções do sistema para controlar o tamanho da resposta. Instrua o modelo a fornecer respostas concisas ou limitar a saída a um número específico de sentenças ou parágrafos. Essa estratégia pode reduzir o tempo até o último token.

  • Ajuste o temperature. Teste o parâmetro temperature para controlar a aleatoriedade da saída. Valores de temperature mais baixos podem levar a respostas mais curtas e focadas, enquanto valores mais altos podem resultar em saídas mais diversas, mas potencialmente mais longas. Para mais informações, consulte temperature na referência de parâmetros do modelo.

  • Restrinja a saída definindo um limite. Use o parâmetro max_output_tokens para definir um limite máximo para o comprimento da resposta gerada, evitando saídas muito longas. No entanto, tenha cuidado, porque isso pode cortar as respostas no meio da frase.

Respostas de stream

Com o streaming, o modelo começa a enviar a resposta antes de gerar a saída completa. Isso permite o processamento em tempo real da saída, e você pode atualizar imediatamente sua interface do usuário e executar outras tarefas simultâneas.

O streaming melhora a capacidade de resposta percebida e cria uma experiência do usuário mais interativa.

A seguir