Google モデル

Vertex AI には、AI ベースのアプリケーションで使用するためにテスト、デプロイ、カスタマイズできる基盤モデルがあり、その数は増え続けています。基盤モデルは特定のユースケースに合わせてファインチューニングされており、さまざまな価格で提供されます。このページでは、さまざまな API で使用可能なモデルの概要と、ユースケースごとに選択するモデルに関するガイダンスを示します。

Vertex AI のすべての AI モデルと API の詳細については、Model Garden で AI モデルを確認するをご覧ください。

Gemini モデル

次の表は、Gemini API で使用可能なモデルをまとめたものです。API の詳細については、Gemini API リファレンスをご覧ください。

Google Cloud コンソールでモデルを確認するには、Model Garden でモデルカードを選択します。

モデル 入力 出力 ユースケース モデルを試す
Gemini 2.0 Flash
gemini-2.0-flash
テキスト、コード、画像、音声、動画、音声付き動画、PDF テキスト、音声(限定公開プレビュー)、画像(限定公開プレビュー) 日常のあらゆるタスクに対応する頼れるモデル。全体的なパフォーマンスが優れており、リアルタイム ストリーミングの Live API をサポートしています。 Gemini 2.0 Flash を試す
Gemini 2.0 Pro
gemini-2.0-pro-exp-02-05
テキスト、画像、動画、音声、PDF テキスト モデルの品質が最も高く、特にコードと世界に関する知識に優れています。200 万文字の長いコンテキストに対応しています。 Gemini 2.0 Pro を試す
Gemini 2.0 Flash-Lite
gemini-2.0-flash-lite
テキスト、画像、動画、音声、PDF テキスト 高スループットをサポートする費用対効果の高いサービス。 Gemini 2.0 Flash-Lite を試す
Gemini 2.0 Flash Thinking
gemini-2.0-flash-thinking-exp-01-21
テキスト、画像 テキスト より強力な推論機能を提供します。回答に思考プロセスが含まれます。 Gemini 2.0 Flash Thinking を試す
Gemini 1.5 Flash
gemini-1.5-flash
テキスト、コード、画像、音声、動画、音声付き動画、PDF テキスト 大量の高品質で費用対効果の高いアプリを迅速かつ効率的に構築できます。 Gemini 1.5 Flash を試す
Gemini 1.5 Pro
gemini-1.5-pro
テキスト、コード、画像、音声、動画、音声付き動画、PDF テキスト テキスト レスポンスまたはコード レスポンスのテキスト プロンプトまたはチャット プロンプトをサポートします。
最大入力トークンの上限までの長いコンテキストの理解をサポートします。
Gemini 1.5 Pro を試す
Gemini 1.0 Pro
gemini-1.0-pro
テキスト テキスト 幅広いテキストのみのタスクで最高のパフォーマンスを発揮するモデル。 Gemini 1.0 Pro を試す
Gemini 1.0 Pro Vision
gemini-1.0-pro-vision
テキスト、画像、音声、動画、音声付き動画、PDF テキスト 幅広いアプリケーションに対応する、パフォーマンスが最も優れた画像と動画の理解モデル。 Gemini 1.0 Pro Vision を試す

次の表に、各 Gemini モデルの詳細を示します。

Gemini 2.0 Flash

次世代の Gemini Flash モデル。Gemini 2.0 Flash は、1.5 モデルよりも優れた速度を実現し、Multimodal Live API による双方向ストリーミング、マルチモーダル回答の生成、組み込みツールの使用など、幅広い機能をサポートしています。

機能

能力 対象
Google 検索によるグラウンディング
コードの実行
チューニング
システム命令 システム指示を使用するをご覧ください。
生成制御機能
プロビジョニングされたスループット サポートされているモデルをご覧ください。
バッチ予測
関数呼び出し

仕様

仕様
最大入力トークン 1,048,576
最大出力トークン 8,192
トレーニング データ 2024 年 6 月まで

Gemini 2.0 Pro

Gemini 2.0 Pro は、コーディングと世界に関する知識を扱う Google の最強のモデルであり、200 万長のコンテキスト ウィンドウを備えています。Gemini 2.0 Pro は Vertex AI で試験運用版モデルとして利用できます。品質の向上を望んでいる場合や、長いコンテキストとコードに特に重点を置いている 1.5 Pro ユーザーのアップグレード パスです。

機能

能力 対象
Google 検索によるグラウンディング
コードの実行
チューニング
システム命令 システム指示を使用するをご覧ください。
生成制御機能
プロビジョニングされたスループット サポートされているモデルをご覧ください。

仕様

仕様
最大入力トークン 2,097,152
最大出力トークン 8,192
トレーニング データ 2024 年 6 月まで

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash-Lite は、最も高速で費用対効果の高い Flash モデルです。1.5 Flash ユーザーが、同じ価格と速度で品質を高めたい場合に利用できるアップグレード パスです。

機能

能力 対象
Google 検索によるグラウンディング
コードの実行
チューニング
システム命令 システム指示を使用するをご覧ください。
生成制御機能
プロビジョニングされたスループット サポートされているモデルをご覧ください。
関数呼び出し

仕様

仕様
最大入力トークン 1,048,576
最大出力トークン 8,192
トレーニング データ 2025 年 1 月まで

Gemini 2.0 Flash Thinking

Gemini 2.0 Flash Thinking は、テスト時の計算モデルの試験運用版で、レスポンスの一部としてモデルが行う「思考プロセス」を生成するようにトレーニングされています。その結果、Flash Thinking は、ベースの Gemini 2.0 Flash モデルよりも回答の推論能力が強化されています。詳細については、Gemini 2.0 Flash Thinking のドキュメントをご覧ください。

機能

能力 対象
Google 検索によるグラウンディング
チューニング
システム命令 システム指示を使用するをご覧ください。
生成制御機能
プロビジョニングされたスループット サポートされているモデルをご覧ください。

仕様

仕様
最大入力トークン 1,048,576
最大出力トークン 65,536
トレーニング データ 2024 年 5 月まで

Gemini 1.5 Flash

大量の費用対効果の高いアプリケーション向けに設計されたマルチモーダル モデル。スピードと効率を実現し、品質を損なうことなく、高速で低コストのアプリケーションを構築します。

機能

能力 対象
Google 検索によるグラウンディング テキスト入力のみ
チューニング
システム命令 システム指示を使用するをご覧ください。
生成制御機能
プロビジョニングされたスループット サポートされているモデルをご覧ください。
バッチ予測
関数呼び出し

仕様

仕様
最大入力トークン 1,048,576
最大出力トークン 8,192
最大 RAW 画像サイズ 20 MB
base64 エンコードされた画像の最大サイズ 7 MB
プロンプトあたりの最大画像数 3,000
動画の長さの上限 1 時間
プロンプトあたりの最大動画数 10
音声の長さの上限 約 8.4 時間
プロンプトあたりの最大音声 1
最大 PDF サイズ 30 MB
トレーニング データ 2024 年 5 月まで

Gemini 1.5 Pro

テキスト レスポンスまたはコード レスポンス用のテキスト プロンプトまたはチャット プロンプトでの画像、音声、動画、PDF ファイルの追加をサポートするマルチモーダル モデル。このモデルは、最大入力トークンの上限まで長いコンテキストの理解をサポートします。

機能

能力 対象
Google 検索によるグラウンディング ○(テキスト入力のみ)
チューニング
システム命令 はい。システム指示を使用するをご覧ください。
生成制御機能
生成制御機能
プロビジョニングされたスループット はい。サポートされているモデルをご覧ください。
バッチ予測
関数呼び出し

仕様

仕様
最大入力トークン 2,097,152
最大出力トークン 8,192
プロンプトあたりの最大画像数 3,000
動画の長さの上限(フレームのみ) 約 1 時間
動画の長さの上限(フレームと音声) 約 45 分
プロンプトあたりの最大動画数 10
音声の長さの上限 約 8.4 時間
プロンプトあたりの最大音声 1
最大 PDF サイズ 30 MB
トレーニング データ 2024 年 5 月まで

Gemini 1.0 Pro

幅広いテキストのみのタスク向けの特徴を持つ、パフォーマンスが最も優れたモデル。このモデルは、入力としてテキストのみをサポートしています。

機能

能力 対象
グラウンディング ○(テキスト入力のみ)
チューニング はい。教師ありチューニングは gemini-1.0-pro-002 でサポートされています。
システム命令 はい。gemini-1.0-pro-002 でサポートされています。システム指示を使用するをご覧ください。
JSON サポート
プロビジョニングされたスループット はい。サポートされているモデルをご覧ください。
バッチ予測
関数呼び出し

仕様

仕様
最大入力トークン 32,760
最大出力トークン 8,192
トレーニング データ 2023 年 2 月まで

Gemini 1.0 Pro Vision

幅広いアプリケーションに対応する、パフォーマンスが最も優れた画像と動画の理解モデル。Gemini 1.0 Pro Vision は、テキスト、画像、動画を入力としてサポートしています。

機能

能力 対象
グラウンディング
チューニング
システム命令
JSON サポート
プロビジョニングされたスループット はい。サポートされているモデルをご覧ください。
バッチ予測

仕様

仕様
最大入力トークン 16,384
最大出力トークン 2,048
プロンプトあたりの最大画像数 16
動画の長さの上限 2 分
プロンプトあたりの最大動画数 1
トレーニング データ 2023 年 2 月まで

Gemini 1.0 Ultra

Google の最も高性能なテキストモデル。指示、コード、推論などの複雑なタスク向けに最適化されています。Gemini 1.0 Ultra は、入力としてテキストのみをサポートします。

機能

能力 対象
グラウンディング
チューニング
システム命令
JSON サポート
プロビジョニングされたスループット はい。サポートされているモデルをご覧ください。

仕様

仕様
最大入力トークン 8,192
最大出力トークン 2,048

Gemini 1.0 Ultra Vision

Google の最も高性能なマルチモーダル ビジョンモデル。テキスト、画像、動画の共同入力をサポートするように最適化されています。

機能

能力 対象
グラウンディング
チューニング
システム命令
JSON サポート
プロビジョニングされたスループット サポートされているモデルをご覧ください。

仕様

仕様
最大入力トークン 8,192
最大出力トークン 2,048

Gemini の言語サポート

  • すべての Gemini モデルは、次の言語でユーザーの入力内容を理解して回答できます。

    アラビア語(ar)、ベンガル語(bn)、ブルガリア語(bg)、中国語(簡体字、繁体字)(zh)、クロアチア語(hr)、チェコ語(cs)、デンマーク語(da)、オランダ語(nl)、英語(en)、エストニア語(et)、フィンランド語(fi)、フランス語(fr)、ドイツ語(de)、ギリシャ語(el)、ヘブライ語(iw)、ヒンディー語(hi)、ハンガリー語(hu)、インドネシア語(id)、イタリア語(it)、日本語(ja)、韓国語(ko)、ラトビア語(lv)、リトアニア語(lt)、ノルウェー語(no)、ポーランド語(pl)、ポルトガル語(pt)、ルーマニア語(ro)、ロシア語(ru)、セルビア語(sr)、スロバキア語(sk)、スロベニア語(sl)、スペイン語(es)、スワヒリ語(sw)、スウェーデン語(sv)、タイ語(th)、トルコ語(tr)、ウクライナ語(uk)、ベトナム語(vi)

  • Gemini 2.0 Flash、Gemini 1.5 Pro、Gemini 1.5 Flash モデルは、次の追加の言語でユーザーの入力内容を理解して回答できます。

    アフリカーンス語(af)、アムハラ語(am)、アッサム語(as)、アゼリー語(az)、ベラルーシ語(be)、ボスニア語(bs)、カタロニア語(ca)、セブアノ語(ceb)、コルシカ語(co)、ウェールズ語(cy)、ディベヒ語(dv)、エスペラント語(eo)、バスク語(eu)、ペルシア語(fa)、フィリピン語(タガログ語)(fil)、フリジア語(fy)、アイルランド語(ga)、スコットランド ゲール語(gd)、ガリシア語(gl)、グジャラート語(gu)、ハウサ語(ha)、ハワイ語(haw)、モンゴル語(hmn)、ハイチ語(ht)、アルメニア語(hy)、イボ語(ig)、アイスランド語(is)、ジャワ語(jv)、グルジア語(ka)、カザフ語(kk)、クメール語(km)、カンナダ語(kn)、クリオ語(kri)、クルド語(ku)、キルギス語(ky)、ラテン語(la)、ルクセンブルク語(lb)、ラオス語(lo)、マダガスカル語(mg)、マオリ語(mi)、マケドニア語(mk)、マラヤーラム語(ml)、モンゴル語(mn)、メイテイ語(マニプル語)(mni-Mtei)、マラーティー語(mr)、マレー語(ms)、マルタ語(mt)、ミャンマー語(ビルマ語)(my)、ネパール語(ne)、ニャンジャ語(チチェワ語)(ny)、オディア語(オリア語)(or)、パンジャブ語(pa)、パシュトゥ語(ps)、シンド語(sd)、シンハラ語(シンハラ語)(si)、サモア語(sm)、ショナ語(sn)、ソマリ語(so)、アルバニア語(sq)、セソト語(st)、スンダ語(su)、タミル語(ta)、テルグ語(te)、タジク語(tg)、ウイグル語(ug)、ウルドゥ語(ur)、ウズベク語(uz)、コサ語(xh)、イディッシュ語(yi)、ヨルバ語(yo)、ズールー語(zu)

Gemma モデル

次の表に、Gemma モデルの概要を示します。

モデル 入力 出力 ユースケース モデルを試す
Gemma
モデルの詳細
テキスト テキスト テキストの生成、要約、抽出をサポートする、小型で軽量なオープンテキスト モデル。リソースが限られている環境にデプロイできます。 Gemma を試す
CodeGemma
モデルの詳細
テキスト、コード、PDF テキスト Gemma 上に構築された軽量のオープンコードモデルのコレクション。コードの生成と補完に最適。 CodeGemma を試す
PaliGemma
モデルの詳細
テキスト、画像 テキスト 軽量のビジョン言語モデル(VLM)。画像のキャプション付けや、視覚的な質問と回答のタスクに最適。 PaliGemma を試す

Gemma の言語サポート

Gemma は英語のみをサポートしています。

エンベディング モデル

次の表に、Embeddings API で使用可能なモデルをまとめます。

モデル名 説明 仕様 モデルを試す
テキスト用エンベディング
textembedding-gecko@001,
textembedding-gecko@002,
textembedding-gecko@003,
text-embedding-004

モデルの詳細
英語のテキスト入力のエンベディングを返します。

テキスト用エンベディング モデルの教師ありチューニングをサポート(英語のみ)。
最大トークン入力: 3,072(textembedding-gecko@001)。
その他: 2,048。

エンベディング ディメンション: text-embedding-004: 768 以下。
その他: 768。
テキスト用エンベディングを試す
多言語テキストのエンベディング
textembedding-gecko-multilingual@001
text-multilingual-embedding-002
モデルの詳細
100 を超える言語のテキスト入力のエンベディングを返します。

text-multilingual-embedding-002 モデルの教師ありチューニングをサポートしています。
は 100 の言語をサポートしています。
最大トークン入力: 2,048。

エンベディング ディメンション: text-multilingual-embedding-002: 768 以下。
その他: 768。
多言語テキストのエンベディングを試す
マルチモーダルのエンベディング
(multimodalembedding)
モデルの詳細
テキスト、画像、動画の入力のエンベディングを返して、さまざまなモデル間でコンテンツを比較します。

テキスト、画像、動画を同じベクトル空間に変換します。動画では 1,408 個のディメンションのみがサポートされます。
英語のみ
最大トークン入力: 32。
最大画像サイズ: 20 MB。
動画の最大長: 2 分。

エンベディング ディメンション: テキストと画像の入力の場合は 128、256、512、1,408、動画の入力の場合は 1,408。
マルチモーダルのエンベディングを試す

エンベディング言語のサポート

テキスト多言語エンベディング モデルは、次の言語をサポートしています。
アフリカーンス語、アルバニア語、アムハラ語、アラビア語、アルメニア語、アゼリー語、バスク語、ベラルーシ語、ベンガル語、ブルガリア語、ビルマ語、カタロニア語、セブアノ語、チチェワ語、中国語、コルシカ語、チェコ語、デンマーク語、オランダ語、英語、エスペラント語、エストニア語、フィリピン語、フィンランド語、フランス語、ガリシア語、グルジア語、ドイツ語、ギリシャ語、グジャラート語、ハイチ語クレオール語、ハウサ語、ハワイ語、ヘブライ語、ヒンディー語、モンゴル語、ハンガリー語、アイスランド語、イボ語、インドネシア語、アイルランド語、イタリア語、日本語、ジャワ語、カンナダ語、カザフ語、クメール語、韓国語、クルド語、キルギス語、ラオ語、ラテン語、ラトビア語、リトアニア語、ルクセンブルク語、マケドニア語、マダガスカル語、マレー語、マラヤーラム語、マルタ語、マオリ語、マラーティー語、モンゴル語、ネパール語、ノルウェー語、パシュトゥ語、ペルシア語、ポーランド語、ポルトガル語、パンジャブ語、ルーマニア語、ロシア語、サモア語、スコットランド ゲール語、セルビア語、ショナ語、シンド語、シンハラ語、スロバキア語、スロベニア語、ソマリ語、ソト語、スペイン語、スンダ語、スワヒリ語、スウェーデン語、タジク語、タミル語、テルグ語、タイ語、トルコ語、ウクライナ語、ウルドゥ語、ウズベク語、ベトナム語、ウェールズ語、西フリジア語、クワハ語、イディッシュ語、ヨルバ語、ズールー語。

Imagen モデル

次の表は、Imagen API で使用可能なモデルをまとめたものです。

モデル 入力 出力 ユースケース モデルを試す
Imagen 3
imagen-3.0-generate-001imagen-3.0-fast-generate-001

Imagen 2
imagegeneration@006imagegeneration@005

Imagen
imagegeneration@002
モデルの詳細
テキスト 画像 このモデルは画像の生成と編集をサポートし、高品質の画像を数秒で作成できます。これには、ゼロショット学習を使用した画像生成が含まれます。 画像生成用の Imagen を試す
Imagen 3(編集とカスタマイズ)
imagen-3.0-capability-001

Imagen 2(編集)
imagegeneration@006

Imagen(編集)
imagegeneration@002
モデルの詳細
テキストと画像 画像 このモデルは、画像編集とカスタマイズされた(少数ショット)画像生成をサポートし、高品質の画像を数秒で作成できます。

編集機能は、インペイント(オブジェクトの削除または挿入)、アウトペイント、商品画像の編集をサポートしています。

カスタマイズは少数ショット学習をサポートしており、出力画像の生成をガイドする参照画像を提供できます。このモデルは、被写体(商品、人物、ペット)、スタイル、制御されたカスタマイズ(落書きまたはキャニーエッジ)、指示によるカスタマイズ(スタイル転送)のカスタマイズをサポートしています。
編集とカスタマイズに Imagen を試す

Imagen 3 の言語サポート

Imagen 3 は、英語、中国語、ヒンディー語、日本語、韓国語、ポルトガル語、スペイン語に対応しています。

コード補完モデル

次の表は、Codey API で利用可能なモデルをまとめたものです。

モデル 入力 出力 ユースケース モデルを試す
コード補完用の Codey
code-gecko
モデルの詳細
サポートされている言語でコードを記述する サポートされている言語でコードを記述する 記述されたコードのコンテキストに基づいてコード補完を提案するようにファインチューニングされたモデル。 コード補完用の Codey を試す

コード補完モデルの言語サポート

コード補完モデルは英語をサポートしています。

MedLM モデル

次の表は、MedLM API で利用可能なモデルをまとめたものです。

モデル名 説明 仕様 モデルを試す
MedLM-mediummedlm-medium
モデルの詳細
Google Research が提供する、医療向けにチューニングされたモデルと API の HIPAA 準拠スイート。

このモデルは、医療従事者が医療に関する質問と回答のタスク、および医療文書と医療ドキュメントの要約タスクを行う際に役立ちます。medlm-large モデルよりもスループットが高く、より新しいデータが含まれています。
最大トークン(入力 + 出力): 32,768。
最大出力トークン: 8,192。
MedLM-medium を試す
MedLM-largemedlm-large
モデルの詳細
Google Research が提供する、医療向けにチューニングされたモデルと API の HIPAA 準拠スイート。

このモデルは、医療従事者が医療に関する質問と回答のタスク、および医療文書と医療ドキュメントの要約タスクを行う際に役立ちます。
最大入力トークン: 8,192。
最大出力トークン: 1,024。
MedLM-large を試す

MedLM プロビジョニングされたスループットのサポート

MedLM-medium と MedLM-large はプロビジョニングされたスループットをサポートしています。サポートされているモデルをご覧ください。

MedLM の言語サポート

MedLM モデルは英語をサポートしています。

ロケーション

これらのモデルを利用できるロケーションの一覧については、Vertex AI の生成 AI のロケーションをご覧ください。

モデル バージョン

モデル バージョンの詳細については、モデル バージョンをご覧ください。

Model Garden でモデルを探索する

Model Garden は、Google 独自の厳選された OSS モデルやアセットを調査、テスト、カスタマイズ、デプロイする場合に便利なプラットフォームです。Vertex AI で使用可能な生成 AI モデルと API を探索するには、Google Cloud コンソールで Model Garden に移動します。

Model Garden に移動

使用可能なモデルや機能など、Model Garden の詳細については、Model Garden で AI モデルを調べるをご覧ください。

次のステップ