プロンプトを設計する

このページでは、テキストとマルチモーダル Gemini モデル用の効果的なプロンプトを設計する方法について説明します。プロンプトを慎重に設計し、モデルのパラメータを調整することで、Gemini モデルを誘導して、高品質で関連性の高いクリエイティブな出力を生成できます。

プロンプトの設計について詳しくは、 Google Cloud ドキュメントのプロンプト戦略の概要をご覧ください。

テキスト プロンプトを設計する

テキスト プロンプトは、Gemini モデルとやり取りする主な方法です。適切に作成されたテキスト プロンプトを使用すると、モデルをガイドして、高品質で関連性の高い出力を生成できます。テキスト プロンプトを設計する際のベスト プラクティスは次のとおりです。

  • 明確かつ簡潔に記述する: 曖昧さや不必要な複雑さを避けます。
  • コンテキストを提供する: モデルがリクエストを理解するために必要な背景情報を提供します。
  • 期待される出力を指定する: どのようなレスポンスを求めているかをモデルに伝えます(例: 要約、リスト、詩)。
  • キーワードを使用する: 関連性の高いキーワードを含めて、モデルが適切なトピックに焦点を当てられるようにします。
  • さまざまなアプローチを試す: さまざまなプロンプトのスタイルや長さを試して、最適なものを見つけます。

一般的なテキスト プロンプト タスク

次のカテゴリに分類できる任意の数のタスクを処理するためのテキスト プロンプトを作成できます。

  • 分類: テキストにラベルまたはカテゴリを割り当てます。
  • 要約: 長いテキストを短い要約にまとめます。
  • 抽出: テキストから特定の情報を抽出します。

マルチモーダル プロンプトを設計する

マルチモーダル プロンプトは、テキストと画像や音声などの他のモダリティを組み合わせて、Gemini モデルにリッチな入力を提供し、より複雑でニュアンスのあるやり取りを可能にします。マルチモーダル プロンプトを設計する際のベスト プラクティスは次のとおりです。

  • 適切なモダリティを選択する: タスクに関連し、テキスト プロンプトを補完するモダリティを選択します。
  • モダリティを調整する: さまざまなモダリティで一貫した情報が伝わるようにします。
  • 順序を考慮する: モダリティを提示する順序は、モデルの出力に影響します。
  • 適切な形式を使用する: モデルが理解できる形式でプロンプトをフォーマットします。

パラメータを調整する

パラメータを調整して、Gemini モデルの出力を制御できます。

  • 最大トークン数: モデルがレスポンスで生成できるトークンの最大数を決定します。値が小さいほど回答が短くなり、値が大きいほど回答が長くなる可能性があります。トークンは約 4 文字です。
  • 温度: 出力のランダム性を制御します。温度が高いほど、より創造的で予測不可能な出力が生成されます。一方、温度が低いほど、より決定的で保守的な出力が生成されます。
  • Top-P: モデルが出力用にトークンを選択する方法を変更し、モデルの語彙を、ユーザーが定義した累積確率を持つトークンのサブセットに制限します。

調整可能なパラメータの詳細については、パラメータを試すAPI パラメータをご覧ください。

次のステップ