Fazer stream de respostas

Esta página apresenta o método de resposta de streaming.

O método de resposta de streaming tem muitas das mesmas funcionalidades que o método answer, além de uma funcionalidade adicional: o streaming. Quando transmite uma resposta, a resposta gerada é dividida em várias partes que são enviadas em sequência.

O streaming de respostas é particularmente útil se as respostas geradas forem longas, para que o envio da resposta completa de uma só vez não cause um atraso. As respostas de streaming reduzem a aparência da latência.

Limitações

O método de resposta de streaming tem as mesmas funcionalidades que o método de resposta com as seguintes exceções:

  • O número de passos de reformulação é um. Não pode desativar a reformulação nem alterar o número máximo de passos.

  • Só é possível usar modelos Gemini com o método de resposta de streaming. Para ver uma lista de modelos, consulte o artigo Modelos disponíveis.

Fazer stream de uma resposta

O comando seguinte mostra como chamar o método streaming answer e devolver uma resposta gerada sob a forma de uma série de respostas JSON. Normalmente, cada resposta contém uma frase da resposta.

Este comando básico mostra apenas a entrada necessária. As opções são mantidas como predefinições.

Para ver exemplos de outras opções, consulte o artigo Receba respostas e seguimentos. Algumas opções de resposta não estão disponíveis para o streaming de respostas. Consulte as limitações nesta página.

REST

Para pesquisar e receber resultados com uma resposta gerada em streaming, faça o seguinte:

  1. Execute o seguinte comando curl:

    curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/engines/APP_ID/servingConfigs/default_search:streamAnswer" \
      -d '{
            "query": { "text": "QUERY"}
          }'
    

    Substitua o seguinte:

    • PROJECT_ID: o ID do seu projeto Google Cloud .
    • APP_ID: o ID da app Vertex AI Search que quer consultar.
    • QUERY: uma string de texto livre que contém a pergunta ou a consulta de pesquisa. Por exemplo, "Qual base de dados é mais rápida, o BigQuery ou o Spanner?".

Outros exemplos

O comando básico apresentado em Transmitir uma resposta é o comando mais simples sem opções especificadas. No entanto, pode aplicar as mesmas opções disponíveis com o método answer, com exceção das limitações indicadas nesta página.

As respostas de streaming também podem ser usadas com sessões de seguimento.