回答をストリーミングする

このページでは、ストリーミング回答メソッドについて説明します。

ストリーミング回答メソッドには、answer メソッドと同じ機能の多くに加えて、ストリーミングという追加機能があります。回答をストリーミングすると、生成された回答が複数の部分に分割され、順次送信されます。

ストリーミング回答は、生成された回答が長く、回答全体を一度に送信すると遅延が発生する場合に特に便利です。回答をストリーミングすると、レイテンシが短縮されます。

制限事項

ストリーミング answer メソッドには、次の例外を除き、answer メソッドと同じ機能があります。

  • 言い換えステップの数は 1 です。言い換えを無効にしたり、最大ステップ数を変更したりすることはできません。

  • ストリーミング回答メソッドで使用できるのは Gemini モデルのみです。モデルの一覧については、使用可能なモデルをご覧ください。

回答をストリーミングする

次のコマンドは、ストリーミング回答メソッドを呼び出して、生成された回答を JSON レスポンスの形式で返す方法を示しています。通常、各レスポンスには回答の 1 文が含まれます。

この基本的なコマンドは、必要な入力のみを示しています。オプションはデフォルトのままにします。

他のオプションの例については、回答とフォローアップを取得するをご覧ください。回答ストリーミングでは一部の回答オプションを使用できません。このページの制限事項をご覧ください。

REST

ストリーミングされた生成回答で検索して結果を取得する手順は次のとおりです。

  1. 次の curl コマンドを実行します。

    curl -X POST -H "Authorization: Bearer $(gcloud auth print-access-token)" \
      -H "Content-Type: application/json" \
      "https://discoveryengine.googleapis.com/v1/projects/PROJECT_ID/locations/global/collections/default_collection/engines/APP_ID/servingConfigs/default_search:streamAnswer" \
      -d '{
            "query": { "text": "QUERY"}
          }'
    

    次のように置き換えます。

    • PROJECT_ID: 実際の Google Cloud プロジェクト ID。
    • APP_ID: クエリする Vertex AI Search アプリの ID。
    • QUERY: 質問または検索クエリを含むフリーテキスト文字列。たとえば、「bigquery と spanner のどちらが高速ですか?」などです。

その他の例

回答をストリーミングするで示されている基本的なコマンドは、オプションが指定されていない最もシンプルなコマンドです。ただし、このページに記載されている制限事項を除き、回答メソッドで使用できるオプションと同じオプションを適用できます。

ストリーミング回答は、フォローアップ セッションでも使用できます。