Vertex AI には、AI ベースのアプリケーションで使用するためにテスト、デプロイ、カスタマイズできる基盤モデルがあり、その数は増え続けています。基盤モデルは特定のユースケースに合わせてファインチューニングされており、さまざまな価格で提供されます。このページでは、さまざまな API で使用可能なモデルの概要と、ユースケースごとに選択するモデルに関するガイダンスを示します。
Vertex AI のすべての AI モデルと API の詳細については、Model Garden で AI モデルを確認するをご覧ください。
Gemini モデル
次の表は、Gemini API で使用可能なモデルをまとめたものです。API の詳細については、Gemini API リファレンスをご覧ください。
Google Cloud コンソールでモデルを確認するには、Model Garden でモデルカードを選択します。
モデル | 入力 | 出力 | ユースケース | モデルを試す |
---|---|---|---|---|
Gemini 2.0 Flash の思考モード |
テキスト、画像 | テキスト | より強力な推論機能を提供します。回答に思考プロセスを含めます。 | 思考モード モデルを試す |
Gemini 2.0 Flash |
テキスト、コード、画像、音声、動画、音声付き動画、PDF | テキスト、音声、画像 | 次世代の機能、優れた速度、ネイティブ ツールの使用、マルチモーダル生成を実現します。 | Gemini 2.0 Flash モデルを試す |
Gemini 1.5 Flash |
テキスト、コード、画像、音声、動画、音声付き動画、PDF | テキスト | 大量の高品質で費用対効果の高いアプリを迅速かつ効率的に構築できます。 | Gemini 1.5 Flash モデルを試す |
Gemini 1.5 Pro |
テキスト、コード、画像、音声、動画、音声付き動画、PDF | テキスト | テキスト レスポンスまたはコード レスポンスのテキスト プロンプトまたはチャット プロンプトをサポートします。 最大入力トークンの上限までの長いコンテキストの理解をサポートします。 |
Gemini 1.5 Pro モデルを試す |
Gemini 1.0 Pro |
テキスト | テキスト | 幅広いテキストのみのタスクで最高のパフォーマンスを発揮するモデル。 | Gemini 1.0 Pro モデルカードに移動する |
Gemini 1.0 Pro Vision |
テキスト、画像、音声、動画、音声付き動画、PDF | テキスト | 幅広いアプリケーションに対応する、パフォーマンスが最も優れた画像と動画の理解モデル。 | Gemini 1.0 Pro Vision モデルを試す |
次の表に、各 Gemini モデルの詳細を示します。
思考モード
説明
Gemini 2.0 Flash 思考モードは、テスト時の計算モデルの試験運用版で、モデルがレスポンスの一部として行う「思考プロセス」を生成するようにトレーニングされています。その結果、Thinking Mode は、ベースの Gemini 2.0 Flash モデルよりも回答の推論能力が強化されています。
詳細については、Gemini 2.0 Flash の思考モードのドキュメントをご覧ください。
機能
能力 | 対象 |
---|---|
グラウンディング | × |
チューニング | × |
システム命令 | いいえ。システム指示を使用するをご覧ください。 |
JSONに対応 | × |
プロビジョニングされたスループット | いいえ。サポートされているモデルをご覧ください。 |
仕様
仕様 |
---|
最大入力トークン: 32,760 |
最大出力トークン: 8,192 |
トレーニング データ: 2024 年 5 月まで |
Gemini 2.0 Flash
説明
次世代の Gemini Flash モデル。2.0 Flash は、1.5 モデルよりも優れた速度を実現し、Multimodal Live API による双方向ストリーミング、マルチモーダル レスポンスの生成、ネイティブ ツールの使用など、幅広い機能をサポートしています。
機能
能力 | 対象 |
---|---|
グラウンディング | × |
チューニング | × |
システム命令 | いいえ。システム指示を使用するをご覧ください。 |
JSONに対応 | ○ |
プロビジョニングされたスループット | いいえ。サポートされているモデルをご覧ください。 |
仕様
仕様 |
---|
最大入力トークン: 1,048,576 |
最大出力トークン: 8,192 |
トレーニング データ: 2024 年 5 月まで |
Gemini 1.5 Flash
説明
大量の費用対効果の高いアプリケーション向けに設計されたマルチモーダル モデル。スピードと効率を実現し、品質を損なうことなく、高速で低コストのアプリケーションを構築します。
機能
能力 | 対象 |
---|---|
グラウンディング | はい(テキスト入力のみ) |
チューニング | ○ |
システム命令 | はい。システム指示を使用するをご覧ください。 |
JSONに対応 | ○ |
プロビジョニングされたスループット | はい。サポートされているモデルをご覧ください。 |
仕様
仕様 |
---|
最大入力トークン: 1,048,576 |
最大出力トークン: 8,192 |
未加工画像の最大サイズ: 20 MB |
base64 エンコード画像の最大サイズ: 7 MB |
プロンプトあたりの最大画像数: 3,000 |
動画の長さの上限: 1 時間 |
プロンプトあたりの動画の最大数: 10 |
音声の最大長: 約 8.4 時間 |
プロンプトあたりの最大音声: 1 |
PDF の最大サイズ: 30 MB |
トレーニング データ: 2024 年 5 月まで |
モデル バージョン
モデル バージョンの詳細については、モデル バージョンをご覧ください。
安定版
Gemini 1.5 Flash モデル | リリース日 | 廃止日 | モデル バージョンのハイライト |
---|---|---|---|
gemini-1.5-flash-002 | 2024 年 9 月 24 日 | 2025 年 9 月 24 日 | モデルの全般的な品質が向上し、次のカテゴリで大幅な改善が行われました。
Gemini 1.5 Flash 002 は動的共有割り当てを使用します。 プロンプトが別の言語で記述されている場合でも、gemini-1.5-flash-002 がローカル言語で応答することがあります。この問題は、英語以外のプロンプトにのみ当てはまります。この問題を軽減するには、システム指示に次の文言を追加して、モデルがプロンプトと同じ言語で応答するようにすることをおすすめします。
|
gemini-1.5-flash-001 | 2024 年 5 月 24 日 | 2025 年 5 月 24 日 | Gemini 1.5 Flash の初期バージョン。 |
プレビュー バージョン
モデル名 | プレビュー名 | 廃止日 |
---|---|---|
Gemini 1.5 Flash(プレビュー) | gemini-1.5-flash-preview-0514 |
2024 年 6 月 24 日 |
Gemini 1.5 Pro
説明
テキスト レスポンスまたはコード レスポンス用のテキスト プロンプトまたはチャット プロンプトでの画像、音声、動画、PDF ファイルの追加をサポートするマルチモーダル モデル。このモデルは、最大入力トークンの上限までの長いコンテキストの理解をサポートします。
機能
能力 | 対象 |
---|---|
グラウンディング | はい(テキスト入力のみ) |
チューニング | ○ |
システム命令 | はい。システム指示を使用するをご覧ください。 |
JSONに対応 | ○ |
プロビジョニングされたスループット | はい。サポートされているモデルをご覧ください。 |
仕様
仕様 |
---|
最大入力トークン: 2,097,152 |
最大出力トークン: 8,192 |
プロンプトあたりの最大画像数: 3,000 |
動画の長さの上限(フレームのみ): 約 1 時間 |
動画の最大長(フレームと音声): 約 45 分 |
プロンプトあたりの動画の最大数: 10 |
音声の最大長: 約 8.4 時間 |
プロンプトあたりの最大音声: 1 |
PDF の最大サイズ: 30 MB |
トレーニング データ: 2024 年 5 月まで |
モデル バージョン
モデル バージョンの詳細については、モデル バージョンをご覧ください。
安定版
Gemini 1.5 Pro モデル | リリース日 | 廃止日 | モデル バージョンのハイライト |
---|---|---|---|
gemini-1.5-pro-002 | 2024 年 9 月 24 日 | 2025 年 9 月 24 日 | モデルの全般的な品質が向上し、次のカテゴリで大幅な改善が行われました。
Gemini 1.5 Pro 002 は動的共有割り当てを使用します。 プロンプトが別の言語で記述されている場合でも、gemini-1.5-pro-002 がローカル言語で応答することがあります。この問題は、英語以外のプロンプトにのみ当てはまります。この問題を軽減するには、システム指示に次の文言を追加して、モデルがプロンプトと同じ言語で応答するようにすることをおすすめします。
|
gemini-1.5-pro-001 | 2024 年 5 月 24 日 | 2025 年 5 月 24 日 | Gemini 1.5 Pro の初期バージョン。 |
プレビュー バージョン
モデル名 | モデル ID | 廃止日 |
---|---|---|
Gemini 1.5 Pro(プレビュー) | gemini-1.5-pro-preview-0514 |
2024 年 6 月 24 日 |
Gemini 1.5 Pro(プレビュー) | gemini-1.5-pro-preview-0409 (gemini-1.5-pro-preview-0514 を指して使用) |
2024 年 6 月 14 日 |
Gemini 1.0 Pro
説明
幅広いテキストのみのタスク向けの特徴を持つ、パフォーマンスが最も優れたモデル。このモデルは、入力としてテキストのみをサポートします。
機能
能力 | 対象 |
---|---|
グラウンディング | はい(テキスト入力のみ) |
チューニング | はい。教師ありチューニングは gemini-1.0-pro-002 でサポートされています。 |
システム命令 | はい。gemini-1.0-pro-002 でサポートされています。システム指示を使用するをご覧ください。 |
JSONに対応 | ○ |
プロビジョニングされたスループット | はい。サポートされているモデルをご覧ください。 |
仕様
仕様 |
---|
最大入力トークン: 32,760 |
最大出力トークン: 8,192 |
トレーニング データ: 2023 年 2 月まで |
モデル バージョン
モデル バージョンの詳細については、モデル バージョンをご覧ください。
安定版
Gemini 1.0 Pro モデル | リリース日 | 廃止日 |
---|---|---|
gemini-1.0-pro-001 | 2024 年 2 月 15 日 | 2025 年 4 月 9 日 |
gemini-1.0-pro-002 | 2024 年 4 月 9 日 | 2025 年 4 月 9 日 |
自動更新バージョン
モデル名 | 自動更新される名前 | 対応する安定版 |
---|---|---|
Gemini 1.0 Pro | gemini-1.0-pro |
gemini-1.0-pro-002 |
Gemini 1.0 Pro Vision
説明
幅広いアプリケーションに対応する、パフォーマンスが最も優れた画像と動画の理解モデル。Gemini 1.0 Pro Vision は、テキスト、画像、動画を入力としてサポートしています。
機能
能力 | 対象 |
---|---|
グラウンディング | × |
チューニング | × |
システム命令 | × |
JSONに対応 | × |
プロビジョニングされたスループット | はい。サポートされているモデルをご覧ください。 |
仕様
仕様 |
---|
最大入力トークン: 16,384 |
最大出力トークン: 2,048 |
プロンプトあたりの最大画像数: 16 |
動画の長さの上限: 2 分 |
プロンプトあたりの動画の最大数: 1 |
トレーニング データ: 2023 年 2 月まで |
モデル バージョン
モデル バージョンの詳細については、モデル バージョンをご覧ください。
安定版
Gemini 1.0 Pro Vision モデル | リリース日 | 廃止日 |
---|---|---|
gemini-1.0-pro-vision-001 | 2024 年 2 月 15 日 | 2025 年 4 月 9 日 |
自動更新エイリアス
モデル名 | 自動更新される名前 | 対応する安定版 |
---|---|---|
Gemini 1.0 Pro Vision | gemini-1.0-pro-vision |
gemini-1.0-pro-vision-001 |
Gemini 1.0 Ultra
説明
Google の最も高性能なテキストモデル。指示、コード、推論などの複雑なタスク向けに最適化されています。Gemini 1.0 Ultra は、入力としてテキストのみをサポートしています。
機能
能力 | 対象 |
---|---|
グラウンディング | × |
チューニング | × |
システム命令 | × |
JSONに対応 | × |
プロビジョニングされたスループット | はい。サポートされているモデルをご覧ください。 |
仕様
仕様 |
---|
最大トークン入力: 8,192 |
最大出力トークン: 2,048 |
モデル バージョン
モデル バージョンの詳細については、モデル バージョンをご覧ください。
Gemini 1.0 Ultra Vision
説明
Google の最も高性能なマルチモーダル ビジョンモデル。テキスト、画像、動画の共同入力をサポートするように最適化されています。
機能
能力 | 対象 |
---|---|
グラウンディング | × |
チューニング | × |
システム命令 | × |
JSONに対応 | × |
プロビジョニングされたスループット | はい。サポートされているモデルをご覧ください。 |
仕様
仕様 |
---|
最大トークン入力: 8,192 |
最大出力トークン: 2,048 |
モデル バージョン
モデル バージョンの詳細については、モデル バージョンをご覧ください。
Gemini の言語サポート
すべての Gemini モデルは、次の言語を理解して応答できます。
アラビア語(ar)、ベンガル語(bn)、ブルガリア語(bg)、中国語(簡体字、繁体字)(zh)、クロアチア語(hr)、チェコ語(cs)、デンマーク語(da)、オランダ語(nl)、英語(en)、エストニア語(et)、フィンランド語(fi)、フランス語(fr)、ドイツ語(de)、ギリシャ語(el)、ヘブライ語(iw)、ヒンディー語(hi)、ハンガリー語(hu)、インドネシア語(id)、イタリア語(it)、日本語(ja)、韓国語(ko)、ラトビア語(lv)、リトアニア語(lt)、ノルウェー語(no)、ポーランド語(pl)、ポルトガル語(pt)、ルーマニア語(ro)、ロシア語(ru)、セルビア語(sr)、スロバキア語(sk)、スロベニア語(sl)、スペイン語(es)、スワヒリ語(sw)、スウェーデン語(sv)、タイ語(th)、トルコ語(tr)、ウクライナ語(uk)、ベトナム語(vi)
Gemini 1.5 Pro モデルと Gemini 1.5 Flash モデルは、次の追加の言語を理解して回答できます。
アフリカーンス語(af)、アムハラ語(am)、アッサム語(as)、アゼリー語(az)、ベラルーシ語(be)、ボスニア語(bs)、カタロニア語(ca)、セブアノ語(ceb)、コルシカ語(co)、ウェールズ語(cy)、ディベヒ語(dv)、エスペラント語(eo)、バスク語(eu)、ペルシア語(fa)、フィリピン語(タガログ語)(fil)、フリジア語(fy)、アイルランド語(ga)、スコットランド ゲール語(gd)、ガリシア語(gl)、グジャラート語(gu)、ハウサ語(ha)、ハワイ語(haw)、モンゴル語(hmn)、ハイチ語(ht)、アルメニア語(hy)、イボ語(ig)、アイスランド語(is)、ジャワ語(jv)、グルジア語(ka)、カザフ語(kk)、クメール語(km)、カンナダ語(kn)、クリオ語(kri)、クルド語(ku)、キルギス語(ky)、ラテン語(la)、ルクセンブルク語(lb)、ラオス語(lo)、マダガスカル語(mg)、マオリ語(mi)、マケドニア語(mk)、マラヤーラム語(ml)、モンゴル語(mn)、メイテイ語(マニプル語)(mni-Mtei)、マラーティー語(mr)、マレー語(ms)、マルタ語(mt)、ミャンマー語(ビルマ語)(my)、ネパール語(ne)、ニャンジャ語(チチェワ語)(ny)、オディア語(オリア語)(or)、パンジャブ語(pa)、パシュトゥ語(ps)、シンド語(sd)、シンハラ語(シンハラ語)(si)、サモア語(sm)、ショナ語(sn)、ソマリ語(so)、アルバニア語(sq)、セソト語(st)、スンダ語(su)、タミル語(ta)、テルグ語(te)、タジク語(tg)、ウイグル語(ug)、ウルドゥ語(ur)、ウズベク語(uz)、コサ語(xh)、イディッシュ語(yi)、ヨルバ語(yo)、ズールー語(zu)
Gemma モデル
次の表に、Gemma モデルの概要を示します。
モデル | 入力 | 出力 | ユースケース | モデルを試す |
---|---|---|---|---|
Gemma モデルの詳細 |
テキスト | テキスト | テキストの生成、要約、抽出をサポートする、小型で軽量なオープンテキスト モデル。リソースが限られている環境にデプロイできます。 | Gemma を試す |
CodeGemma モデルの詳細 |
テキスト、コード、PDF | テキスト | Gemma 上に構築された軽量のオープンコードモデルのコレクション。コードの生成と補完に最適。 | CodeGemma を試す |
PaliGemma モデルの詳細 |
テキスト、画像 | テキスト | 軽量のビジョン言語モデル(VLM)。画像のキャプション付けや、視覚的な質問と回答のタスクに最適。 | PaliGemma を試す |
Gemma の言語サポート
Gemma は英語のみをサポートしています。
エンベディング モデル
次の表に、Embeddings API で使用可能なモデルをまとめます。
モデル名 | 説明 | 仕様 | モデルを試す |
---|---|---|---|
テキスト用エンベディング ( textembedding-gecko@001, )モデルの詳細 |
英語のテキスト入力のエンベディングを返します。 テキスト用エンベディング モデルの教師ありチューニングをサポート(英語のみ)。 |
最大トークン入力: 3,072(textembedding-gecko@001 )。その他: 2,048。 エンベディング ディメンション: text-embedding-004 : 768 以下。その他: 768。 |
テキスト用エンベディングを試す |
多言語テキストのエンベディング ( textembedding-gecko-multilingual@001 、text-multilingual-embedding-002 )モデルの詳細 |
100 を超える言語のテキスト入力のエンベディングを返します。text-multilingual-embedding-002 モデルの教師ありチューニングをサポートしています。は 100 の言語をサポートしています。 |
最大トークン入力: 2,048。 エンベディング ディメンション: text-multilingual-embedding-002 : 768 以下。その他: 768。 |
多言語テキスト エンベディングを試す |
マルチモーダルのエンベディング(multimodalembedding) モデルの詳細 |
テキスト、画像、動画の入力のエンベディングを返して、さまざまなモデル間でコンテンツを比較します。 テキスト、画像、動画を同じベクトル空間に変換します。動画では 1,408 個のディメンションのみがサポートされます。 英語のみ |
最大トークン入力: 32。 最大画像サイズ: 20 MB。 動画の最大長: 2 分。 エンベディング ディメンション: テキストと画像の入力の場合は 128、256、512、1,408、動画の入力の場合は 1,408。 |
マルチモーダルのエンベディングを試す |
エンベディング言語のサポート
テキスト多言語エンベディング モデルは、次の言語をサポートしています。
アフリカーンス語、アルバニア語、アムハラ語、アラビア語、アルメニア語、アゼリー語、バスク語、ベラルーシ語、ベンガル語、ブルガリア語、ビルマ語、カタロニア語、セブアノ語、チチェワ語、中国語、コルシカ語、チェコ語、デンマーク語、オランダ語、英語、エスペラント語、エストニア語、フィリピン語、フィンランド語、フランス語、ガリシア語、グルジア語、ドイツ語、ギリシャ語、グジャラート語、ハイチ語クレオール語、ハウサ語、ハワイ語、ヘブライ語、ヒンディー語、モンゴル語、ハンガリー語、アイスランド語、イボ語、インドネシア語、アイルランド語、イタリア語、日本語、ジャワ語、カンナダ語、カザフ語、クメール語、韓国語、クルド語、キルギス語、ラオ語、ラテン語、ラトビア語、リトアニア語、ルクセンブルク語、マケドニア語、マダガスカル語、マレー語、マラヤーラム語、マルタ語、マオリ語、マラーティー語、モンゴル語、ネパール語、ノルウェー語、パシュトゥ語、ペルシア語、ポーランド語、ポルトガル語、パンジャブ語、ルーマニア語、ロシア語、サモア語、スコットランド ゲール語、セルビア語、ショナ語、シンド語、シンハラ語、スロバキア語、スロベニア語、ソマリ語、ソト語、スペイン語、スンダ語、スワヒリ語、スウェーデン語、タジク語、タミル語、テルグ語、タイ語、トルコ語、ウクライナ語、ウルドゥ語、ウズベク語、ベトナム語、ウェールズ語、西フリジア語、クワハ語、イディッシュ語、ヨルバ語、ズールー語。
Imagen モデル
次の表は、Imagen API で使用可能なモデルをまとめたものです。
モデル | 入力 | 出力 | ユースケース | モデルを試す |
---|---|---|---|---|
Imagen 3 ( imagen-3.0-generate-001 、
imagen-3.0-fast-generate-001 )Imagen 2 ( imagegeneration@006 、
imagegeneration@005 )Imagen ( imagegeneration@002 )モデルの詳細 |
テキスト | 画像 | このモデルは画像の生成と編集をサポートし、高品質の画像を数秒で作成できます。これには、ゼロショット学習を使用した画像生成が含まれます。 | 画像生成用の Imagen を試す |
Imagen 3(編集とカスタマイズ) ( imagen-3.0-capability-001 )Imagen 2(編集) ( imagegeneration@006 )Imagen(編集) imagegeneration@002 )モデルの詳細 |
テキストと画像 | 画像 | このモデルは、画像編集とカスタマイズされた(少数ショット)画像生成をサポートし、高品質の画像を数秒で作成できます。 編集機能は、インペイント(オブジェクトの削除または挿入)、アウトペイント、商品画像の編集をサポートしています。 カスタマイズは少数ショット学習をサポートしており、出力画像の生成をガイドする参照画像を提供できます。このモデルは、被写体(商品、人物、ペット)、スタイル、制御されたカスタマイズ(落書きまたはキャニーエッジ)、指示によるカスタマイズ(スタイル転送)のカスタマイズをサポートしています。 |
編集とカスタマイズに Imagen を試す |
Imagen 3 の言語サポート
Imagen 3 は、英語、中国語、ヒンディー語、日本語、韓国語、ポルトガル語、スペイン語に対応しています。
コード補完モデル
次の表は、Codey API で利用可能なモデルをまとめたものです。
モデル | 入力 | 出力 | ユースケース | モデルを試す |
---|---|---|---|---|
コード補完用の Codey ( code-gecko )モデルの詳細 |
サポートされている言語でコードを記述する | サポートされている言語でコードを記述する | 記述されたコードのコンテキストに基づいてコード補完を提案するようにファインチューニングされたモデル。 | コード補完用の Codey を試す |
コード補完モデルの言語サポート
コード補完モデルは英語をサポートしています。
MedLM モデル
次の表は、MedLM API で使用可能なモデルをまとめたものです。
モデル名 | 説明 | 仕様 | モデルを試す |
---|---|---|---|
MedLM-medium(medlm-medium )モデルの詳細 |
Google Research が提供する、医療向けにチューニングされたモデルと API の HIPAA 準拠スイート。 このモデルは、医療従事者が医療に関する質問と回答のタスク、および医療文書と医療ドキュメントの要約タスクを行う際に役立ちます。 medlm-large モデルよりもスループットが高く、より新しいデータが含まれています。 |
最大トークン(入力 + 出力): 32,768。 最大出力トークン: 8,192。 |
MedLM-medium を試す |
MedLM-large(medlm-large )モデルの詳細 |
Google Research が提供する、医療向けにチューニングされたモデルと API の HIPAA 準拠スイート。 このモデルは、医療従事者が医療に関する質問と回答のタスク、および医療文書と医療ドキュメントの要約タスクを行う際に役立ちます。 |
最大入力トークン: 8,192。 最大出力トークン: 1,024。 |
MedLM-large を試す |
MedLM プロビジョニングされたスループットのサポート
MedLM-medium と MedLM-large はプロビジョニングされたスループットをサポートしています。サポートされているモデルをご覧ください。
MedLM の言語サポート
MedLM モデルは英語をサポートしています。
場所
これらのモデルを利用できるロケーションの一覧については、Vertex AI の生成 AI のロケーションをご覧ください。
モデル バージョン
モデル バージョンの詳細については、モデル バージョンをご覧ください。
Model Garden でモデルを探索する
Model Garden は、Google 独自の厳選された OSS モデルやアセットを調査、テスト、カスタマイズ、デプロイする場合に便利なプラットフォームです。Vertex AI で使用可能な生成 AI モデルと API を探索するには、 Google Cloud コンソールの Model Garden に移動します。
使用可能なモデルや機能など、Model Garden の詳細については、Model Garden で AI モデルを調べるをご覧ください。
次のステップ
- Vertex AI Studio または Vertex AI API を使用したクイックスタート チュートリアルを試す。
- テキスト プロンプトのテスト方法を学習する。
- チャット プロンプトのテスト方法を確認する。
- Model Garden でトレーニング済みモデルを確認する。
- 基盤モデルのチューニング方法を学習する。
- 責任ある AI のベスト プラクティスと Vertex AI の安全フィルタについて学習する。
- Model Garden 組織のポリシーを使用して、Model Garden の特定のモデルへのアクセスを制御する方法について学習する。