大規模言語モデル(LLM)のベスト プラクティス

マルチモーダル プロンプト

マルチモーダル プロンプトのベスト プラクティスについては、使用しているモダリティに応じて次のページをご覧ください。

レイテンシを短縮する

インタラクティブなアプリケーションを構築する場合、レスポンス時間(レイテンシ)はユーザー エクスペリエンスにおいて重要な役割を果たします。このセクションでは、Vertex AI LLM API のコンテキストでレイテンシのコンセプトについて説明し、レイテンシを最小限に抑えて AI を活用したアプリケーションの応答時間を改善するための実用的な戦略を示します。

LLM のレイテンシ指標について

レイテンシとは、モデルが入力プロンプトを処理し、対応する出力レスポンスを生成するまでにかかる時間のことです。

モデルでレイテンシを調べる際は、次の点を考慮してください。

最初のトークンまでの時間(TTFT)は、モデルがプロンプトを受け取ってからレスポンスの最初のトークンを生成するまでにかかる時間です。TTFT は、即時フィードバックの提供が不可欠なストリーミングを利用するアプリに特に関連しています。

最後のトークンまでの時間(TTLT)は、モデルがプロンプトを処理してレスポンスを生成するまでにかかる全体的な時間を測定します。

レイテンシを短縮するための戦略

Vertex AI では、レイテンシを最小限に抑え、アプリケーションの応答性を高めるために、いくつかの戦略を利用できます。

ユースケースに適したモデルの選択

Vertex AI には、さまざまな機能とパフォーマンス特性を持つさまざまなモデルが用意されています。特定のニーズに最適なモデルを選択します。

  • Gemini 1.5 Flash: 大規模で費用対効果の高いアプリケーション向けに設計されたマルチモーダル モデル。Gemini 1.5 Flash は、スピードと効率を実現し、品質を損なうことなく、迅速で低コストのアプリケーションを構築します。テキスト、コード、画像、音声、音声ありまたはなしの動画、PDF、またはこれらの組み合わせをサポートしています。

  • Gemini 1.5 Pro: より高度なマルチモーダル モデルで、より大きなコンテキストをサポートしています。テキスト、コード、画像、音声、音声ありまたは音声なしの動画、PDF、またはこれらの組み合わせをサポートしています。

  • Gemini 1.0 Pro: 速度が最優先で、プロンプトにテキストのみが含まれている場合は、このモデルの使用を検討してください。このモデルは、優れた結果を提供するとともに、高速なレスポンス時間を実現します。

速度と出力の品質に関する要件を慎重に評価し、ユースケースに最適なモデルを選択します。使用可能なモデルのリストについては、すべてのモデルを確認するをご覧ください。

プロンプトと出力の長さを最適化する

入力プロンプトと期待される出力の両方のトークン数は、処理時間に直接影響します。トークン数を最小限に抑えてレイテンシを低減します。

  • 不要な詳細や冗長性のない、意図を効果的に伝える明確で簡潔なプロンプトを作成します。プロンプトを短くすると、最初のトークンまでの時間が短縮されます。

  • システム指示を使用して、レスポンスの長さを制御します。簡潔な回答を提供するようモデルに指示するか、出力を特定の数の文または段落に制限します。この戦略により、最後のトークンまでの時間を短縮できます。

  • temperature を調整します。temperature パラメータを試して、出力のランダム性を制御します。temperature の値が低いほど、より短く、より焦点を絞ったレスポンスが得られます。一方、値が高いほど、より多様で長い出力が得られます。詳細については、モデル パラメータ リファレンスの temperature をご覧ください。

  • 上限を設定して出力を制限します。max_output_tokens パラメータを使用して、生成されるレスポンスの長さに最大上限を設定し、出力の長くなりすぎを防ぎます。ただし、文の途中で回答が途切れる可能性があるため、注意が必要です。

レスポンスをストリーミングする

ストリーミングでは、モデルは完全な出力を生成する前にレスポンスを送信し始めます。これにより、出力のリアルタイム処理が可能になり、ユーザー インターフェースをすぐに更新して、他のタスクを同時に実行できます。

ストリーミングは、応答性の向上とよりインタラクティブなユーザー エクスペリエンスを実現します。

次のステップ