利用可能な Gemini モデル

Gemini は、テキスト、画像、音声、動画など、複数のモダリティの情報を処理するモデルのファミリーです。Gemini は、膨大な量の情報を探索して分析し、これらのマルチモーダルデータ型をシームレスに理解して処理できます。詳細については、Gemini の概要をご覧ください。

Gemini 1.5 Flash は、Gemini ファミリーのモデルの軽量で高速かつ費用対効果の高いバージョンです。Gemini 1.5 Pro は、より堅牢になるように設計されています。

このページでは、Google Distributed Cloud（GDC）エアギャップで使用できる Gemini モデルの仕様について説明します。

ユースケースのモデル化

次の表は、Gemini API で使用可能なモデルのユースケースをまとめたものです。

モデル	入力	出力	ユースケース
Gemini 1.5 Pro	テキスト、コード、画像、音声、動画、音声付き動画、ドキュメント	テキスト	回答の品質の向上を必要とするアプリケーションをサポートします。
Gemini 1.5 Flash	テキスト、コード、画像、音声、動画、音声付き動画、ドキュメント	テキスト	費用対効果に優れたアプリケーションを迅速かつ効率的に構築できます。

以下に、各 Gemini モデルの詳細を示します。

機能	Gemini 1.5 Pro	Gemini 1.5 Flash
説明	マルチモーダルユースケース向けの汎用モデル。多数のリクエストと長いコンテキストの理解を処理できるモデルが必要な場合に使用します。	マルチモーダルユースケース向けに設計された、軽量で高速かつ費用対効果の高いバージョン。大量のリクエストを処理でき、費用対効果の高いモデルが必要な場合に使用します。
機能	テキストプロンプトマルチモーダルプロンプト: 画像音声動画ドキュメント	テキストプロンプトマルチモーダルプロンプト: 画像音声動画ドキュメント
コンテキストウィンドウ	最大 32,000 トークン	最大 32,000 トークン
プロンプトあたりの最大画像数	100	100
最大 RAW 画像サイズ	20 MB	20 MB
base64 エンコードされた画像の最大サイズ	7 MB	7 MB
プロンプトあたりの音声ファイルの最大数	制限なし	制限なし
音声の最大長	15 分	09 分
プロンプトあたりの最大動画数	10	10
動画の最大長（フレームのみ）	120 秒	120 秒
動画の最大長（フレームと音声）	100 秒	100 秒
ドキュメントの最大ファイルサイズ	50 MB	50 MB
リクエストあたりの最大ドキュメントファイル数	100	100
ドキュメントあたりの最大ページ数	100	100

コンテンツ生成リクエストからレスポンスを生成するモデルを選択する必要があります。選択したモデルは出力に影響し、費用にも影響します。

GDC の Gemini モデルエンドポイント ID は次のとおりです。

名前	モデルエンドポイント ID
Gemini Flash	`gemini-1.5-flash`
Gemini Pro	`gemini-1.5-pro`

次に、モデルから出力を取得するためのプロンプトを作成する必要があります。モデルに正確な指示、例、必要なコンテキストや専門的な情報を提供することで、出力を改善できます。プロンプトの詳細については、プロンプトの概要をご覧ください。