Gemini は、テキスト、画像、音声、動画など、複数のモダリティの情報を処理するモデルのファミリーです。Gemini は、膨大な量の情報を探索して分析し、これらのマルチモーダル データ型をシームレスに理解して処理できます。詳細については、Gemini の概要をご覧ください。
Gemini 1.5 Flash は、Gemini ファミリーのモデルの軽量で高速かつ費用対効果の高いバージョンです。Gemini 1.5 Pro は、より堅牢になるように設計されています。
このページでは、Google Distributed Cloud(GDC)エアギャップで使用できる Gemini モデルの仕様について説明します。
ユースケースのモデル化
次の表は、Gemini API で使用可能なモデルのユースケースをまとめたものです。
| モデル | 入力 | 出力 | ユースケース |
|---|---|---|---|
| Gemini 1.5 Pro | テキスト、コード、画像、音声、動画、音声付き動画、ドキュメント | テキスト | 回答の品質の向上を必要とするアプリケーションをサポートします。 |
| Gemini 1.5 Flash | テキスト、コード、画像、音声、動画、音声付き動画、ドキュメント | テキスト | 費用対効果に優れたアプリケーションを迅速かつ効率的に構築できます。 |
以下に、各 Gemini モデルの詳細を示します。
| 機能 | Gemini 1.5 Pro | Gemini 1.5 Flash |
|---|---|---|
| 説明 | マルチモーダル ユースケース向けの汎用モデル。多数のリクエストと長いコンテキストの理解を処理できるモデルが必要な場合に使用します。 | マルチモーダル ユースケース向けに設計された、軽量で高速かつ費用対効果の高いバージョン。大量のリクエストを処理でき、費用対効果の高いモデルが必要な場合に使用します。 |
| 機能 |
|
|
| コンテキスト ウィンドウ | 最大 32,000 トークン | 最大 32,000 トークン |
| プロンプトあたりの最大画像数 | 100 | 100 |
| 最大 RAW 画像サイズ | 20 MB | 20 MB |
| base64 エンコードされた画像の最大サイズ | 7 MB | 7 MB |
| プロンプトあたりの音声ファイルの最大数 | 制限なし | 制限なし |
| 音声の最大長 | 15 分 | 09 分 |
| プロンプトあたりの最大動画数 | 10 | 10 |
| 動画の最大長(フレームのみ) | 120 秒 | 120 秒 |
| 動画の最大長(フレームと音声) | 100 秒 | 100 秒 |
| ドキュメントの最大ファイルサイズ | 50 MB | 50 MB |
| リクエストあたりの最大ドキュメント ファイル数 | 100 | 100 |
| ドキュメントあたりの最大ページ数 | 100 | 100 |
モデルを選択してプロンプトを作成する
コンテンツ生成リクエストからレスポンスを生成するモデルを選択する必要があります。選択したモデルは出力に影響し、費用にも影響します。
GDC の Gemini モデル エンドポイント ID は次のとおりです。
| 名前 | モデル エンドポイント ID |
|---|---|
| Gemini Flash | gemini-1.5-flash |
| Gemini Pro | gemini-1.5-pro |
次に、モデルから出力を取得するためのプロンプトを作成する必要があります。モデルに正確な指示、例、必要なコンテキストや専門的な情報を提供することで、出力を改善できます。プロンプトの詳細については、プロンプトの概要をご覧ください。