大規模言語モデル（LLM）のベストプラクティス

マルチモーダルプロンプト

マルチモーダルプロンプトのベストプラクティスについては、使用しているモダリティに応じて次のページをご覧ください。

レイテンシを短縮する

インタラクティブなアプリケーションを構築する場合、レスポンス時間（レイテンシ）はユーザーエクスペリエンスにおいて重要な役割を果たします。このセクションでは、Vertex AI LLM API のコンテキストでレイテンシの概念について説明し、レイテンシを最小限に抑えて AI 搭載アプリケーションのレスポンス時間を改善するための実用的な戦略を示します。

LLM のレイテンシ指標について

レイテンシとは、モデルが入力プロンプトを処理し、対応する出力レスポンスを生成するまでにかかる時間のことです。

モデルでレイテンシを調べる際は、次の点を考慮してください。

最初のトークンまでの時間（TTFT）は、モデルがプロンプトを受け取ってからレスポンスの最初のトークンを生成するまでにかかる時間です。TTFT は、ストリーミングを利用するアプリケーションにおいて特に重要で、即時のフィードバックを提供することが不可欠な場合に適しています。

最後のトークンまでの時間（TTLT）は、モデルがプロンプトを処理してレスポンスを生成するまでにかかる全体的な時間を測定します。

レイテンシを短縮するための戦略

Vertex AI では、レイテンシを最小限に抑え、アプリケーションの応答性を高めるために、いくつかの戦略を利用できます。

ユースケースに適したモデルを選択する

Vertex AI には、さまざまな機能とパフォーマンス特性を持つさまざまなモデルが用意されています。特定のニーズに最適なモデルを選択します。

Gemini 1.5 Flash: 大規模で費用対効果の高いアプリケーション向けに設計されたマルチモーダルモデル。Gemini 1.5 Flash は、スピードと効率を実現し、品質を損なうことなく、高速で低コストのアプリケーションを構築します。テキスト、コード、画像、音声、音声ありまたは音声なしの動画、PDF、またはこれらの組み合わせをサポートしています。
Gemini 1.5 Pro: より高度なマルチモーダルモデルで、より大きなコンテキストをサポートしています。テキスト、コード、画像、音声、音声ありまたは音声なしの動画、PDF、またはこれらの組み合わせをサポートしています。
Gemini 1.0 Pro: 速度が最優先で、プロンプトに含まれるのがテキストのみの場合は、このモデルの使用を検討してください。このモデルは、優れた結果を提供するとともに、高速なレスポンス時間を実現します。

速度と出力の品質に関する要件を慎重に評価し、ユースケースに最適なモデルを選択します。使用可能なモデルの一覧については、すべてのモデルを確認するをご覧ください。

プロンプトと出力の長さを最適化する

入力プロンプトと期待される出力の両方のトークン数は、処理時間に直接影響します。トークン数を最小限に抑えてレイテンシを低減します。

不要な詳細や冗長性のない、意図を効果的に伝える明確で簡潔なプロンプトを作成します。プロンプトを短くすると、最初のトークンまでの時間が短縮されます。
システム指示を使用して、レスポンスの長さを制御します。簡潔な回答を提供するようモデルに指示するか、出力の文または段落を特定の数に制限します。この戦略により、最後のトークンまでの時間を短縮できます。
temperature を調整します。temperature パラメータを試して、出力のランダム性を制御します。temperature の値が低いほど、より短く、より焦点を絞ったレスポンスが得られます。一方、値が高いほど、より多様で長い出力が得られます。詳細については、モデルパラメータリファレンスの temperature をご覧ください。
上限を設定して出力を制限します。max_output_tokens パラメータを使用して、生成されるレスポンスの長さに上限を設定し、出力が長くなりすぎないようにします。ただし、文の途中でレスポンスが途切れる可能性があるため、注意が必要です。

レスポンスをストリーミングする

ストリーミングでは、モデルは完全な出力を生成する前にレスポンスを送信し始めます。これにより、出力のリアルタイム処理が可能になり、ユーザーインターフェースをすぐに更新して、他のタスクを同時に実行できます。

ストリーミングにより、応答性が向上し、よりインタラクティブなユーザーエクスペリエンスを実現できます。

次のステップ

一般的なプロンプトの設計方法を確認する。
サンプルプロンプトを確認する。
チャットプロンプトを送信する方法を学習する。
責任ある AI のベストプラクティスと Vertex AI の安全フィルタについて学習する。
モデルのチューニング方法を学習する。
本番環境ワークロードを確保するプロビジョンドスループットについて学習する。

大規模言語モデル（LLM）のベスト プラクティス コレクションでコンテンツを整理 必要に応じて、コンテンツの保存と分類を行います。

マルチモーダル プロンプト