利用可能な Gemini モデル

Gemini は、テキスト、画像、音声、動画など、複数のモダリティの情報を処理するモデルのファミリーです。Gemini は、膨大な量の情報を探索して分析し、これらのマルチモーダル データ型をシームレスに理解して処理できます。詳細については、Gemini の概要をご覧ください。

Gemini 1.5 Flash は、Gemini ファミリーのモデルの軽量で高速かつ費用対効果の高いバージョンです。Gemini 1.5 Pro は、より堅牢になるように設計されています。

このページでは、Google Distributed Cloud(GDC)エアギャップで使用できる Gemini モデルの仕様について説明します。

ユースケースのモデル化

次の表は、Gemini API で使用可能なモデルのユースケースをまとめたものです。

モデル 入力 出力 ユースケース
Gemini 1.5 Pro テキスト、コード、画像、音声、動画、音声付き動画、ドキュメント テキスト 回答の品質の向上を必要とするアプリケーションをサポートします。
Gemini 1.5 Flash テキスト、コード、画像、音声、動画、音声付き動画、ドキュメント テキスト 費用対効果に優れたアプリケーションを迅速かつ効率的に構築できます。

以下に、各 Gemini モデルの詳細を示します。

機能 Gemini 1.5 Pro Gemini 1.5 Flash
説明 マルチモーダル ユースケース向けの汎用モデル。多数のリクエストと長いコンテキストの理解を処理できるモデルが必要な場合に使用します。 マルチモーダル ユースケース向けに設計された、軽量で高速かつ費用対効果の高いバージョン。大量のリクエストを処理でき、費用対効果の高いモデルが必要な場合に使用します。
機能
  • テキスト プロンプト
  • マルチモーダル プロンプト:
    • 画像
    • 音声
    • 動画
    • ドキュメント
  • テキスト プロンプト
  • マルチモーダル プロンプト:
    • 画像
    • 音声
    • 動画
    • ドキュメント
コンテキスト ウィンドウ 最大 32,000 トークン 最大 32,000 トークン
プロンプトあたりの最大画像数 100 100
最大 RAW 画像サイズ 20 MB 20 MB
base64 エンコードされた画像の最大サイズ 7 MB 7 MB
プロンプトあたりの音声ファイルの最大数 制限なし 制限なし
音声の最大長 15 分 09 分
プロンプトあたりの最大動画数 10 10
動画の最大長(フレームのみ) 120 秒 120 秒
動画の最大長(フレームと音声) 100 秒 100 秒
ドキュメントの最大ファイルサイズ 50 MB 50 MB
リクエストあたりの最大ドキュメント ファイル数 100 100
ドキュメントあたりの最大ページ数 100 100

モデルを選択してプロンプトを作成する

コンテンツ生成リクエストからレスポンスを生成するモデルを選択する必要があります。選択したモデルは出力に影響し、費用にも影響します。

GDC の Gemini モデル エンドポイント ID は次のとおりです。

名前 モデル エンドポイント ID
Gemini Flash gemini-1.5-flash
Gemini Pro gemini-1.5-pro

次に、モデルから出力を取得するためのプロンプトを作成する必要があります。モデルに正確な指示、例、必要なコンテキストや専門的な情報を提供することで、出力を改善できます。プロンプトの詳細については、プロンプトの概要をご覧ください。