Google モデル

Vertex AI には、AI ベースのアプリケーションで使用するためにテスト、デプロイ、カスタマイズできる基盤モデルがあり、その数は増え続けています。基盤モデルは特定のユースケースに合わせてファインチューニングされており、さまざまな価格で提供されます。このページでは、さまざまな API で使用可能なモデルの概要と、ユースケースごとに選択するモデルに関するガイダンスを示します。

Vertex AI のすべての AI モデルと API の詳細については、Model Garden で AI モデルを確認するをご覧ください。

Gemini モデル

次の表は、Gemini API で使用可能なモデルをまとめたものです。API の詳細については、Gemini API リファレンスをご覧ください。

Google Cloud コンソールでモデルを確認するには、Model Garden でモデルカードを選択します。

モデル 入力 出力 ユースケース モデルを試す
Gemini 2.0 Flash
gemini-2.0-flash-001
テキスト、コード、画像、音声、動画、音声付きの動画、PDF テキスト、音声(限定公開プレビュー)、画像(限定公開プレビュー) 日常のあらゆるタスクに役立つモデル。全体的なパフォーマンスが優れており、リアルタイム ストリーミングの Live API をサポートします。 Gemini 2.0 Flash を試す
Gemini 2.0 Pro
gemini-2.0-pro-exp-02-05
テキスト、画像、動画、音声、PDF テキスト 非常に品質の高いモデルで、特にコードと世界中の知識に優れています。200 万個のトークンの長いコンテキストに対応しています。 Gemini 2.0 Pro を試す
Gemini 2.0 Flash-Lite
gemini-2.0-flash-lite-preview-02-05
テキスト、画像、動画、音声、PDF テキスト 高スループットをサポートする費用対効果に優れたサービス。 Gemini 2.0 Flash-Lite を試す
Gemini 2.0 Flash Thinking
gemini-2.0-flash-thinking-exp-01-21
テキスト、画像 テキスト 推論機能が強化されており、回答に思考プロセスが含まれます。 Gemini 2.0 Flash Thinking を試す
Gemini 1.5 Flash
gemini-1.5-flash
テキスト、コード、画像、音声、動画、音声付きの動画、PDF テキスト 高品質で費用対効果に優れた大容量のアプリを迅速かつ効率的に構築できます。 Gemini 1.5 Flash を試す
Gemini 1.5 Pro
gemini-1.5-pro
テキスト、コード、画像、音声、動画、音声付きの動画、PDF テキスト テキストまたはコードの回答を得るためのテキスト プロンプトまたはチャット プロンプトをサポートします。
最大入力トークン数までの長いコンテキストの理解をサポートします。
Gemini 1.5 Pro を試す
Gemini 1.0 Pro
gemini-1.0-pro
テキスト テキスト テキストのみのタスクに幅広く対応する高性能モデル。 Gemini 1.0 Pro を試す
Gemini 1.0 Pro Vision
gemini-1.0-pro-vision
テキスト、画像、音声、動画、音声付きの動画、PDF テキスト 幅広いアプリケーションに対応可能で、画像と動画の理解に優れたパフォーマンスを発揮するモデル。 Gemini 1.0 Pro Vision を試す

以下に、各 Gemini モデルの詳細を示します。

Gemini 2.0 Flash

次世代の Gemini Flash モデル。Gemini 2.0 Flash は、1.5 モデルよりも優れた速度を提供し、Multimodal Live API による双方向ストリーミング、マルチモーダルの回答の生成、組み込みツールの使用など、幅広い機能をサポートします。

機能

機能 可用性
Google 検索によるグラウンディング
コードの実行
チューニング
システム指示 システム指示を使用するをご覧ください。
生成制御機能
プロビジョニングされたスループット サポートされているモデルをご覧ください。

仕様

仕様
最大入力トークン数 1,048,576
最大出力トークン数 8,192
トレーニング データ 2024 年 6 月まで

Gemini 2.0 Pro

Gemini 2.0 Pro は、コーディングと世界中の知識を扱う非常に優れたモデルで、200 万個のトークンの長いコンテキスト ウィンドウを備えています。Gemini 2.0 Pro は Vertex AI で試験運用版モデルとして利用できます。品質の向上を求めている 1.5 Pro ユーザーや、長いコンテキストとコードに重点を置いている 1.5 Pro ユーザー向けのアップグレード パスです。

機能

機能 可用性
Google 検索によるグラウンディング
コードの実行
チューニング
システム指示 システム指示を使用するをご覧ください。
JSON サポート
プロビジョニングされたスループット サポートされているモデルをご覧ください。

仕様

仕様
最大入力トークン数 2,097,152
最大出力トークン数 8,192
トレーニング データ 2024 年 6 月まで

Gemini 2.0 Flash-Lite

Gemini 2.0 Flash-Lite は、Google 史上最も高速で費用対効果に優れた Flash モデルです。価格と速度はそのままに品質の向上を求めている 1.5 Flash ユーザー向けのアップグレード パスです。

機能

機能 可用性
Google 検索によるグラウンディング
コードの実行
チューニング
システム指示 システム指示を使用するをご覧ください。
JSON サポート
プロビジョニングされたスループット サポートされているモデルをご覧ください。

仕様

仕様
最大入力トークン数 1,048,576
最大出力トークン数 8,192
トレーニング データ 2024 年 6 月まで

Gemini 2.0 Flash Thinking

Gemini 2.0 Flash Thinking は、モデルが行う「思考プロセス」を回答の一部として生成するようにトレーニングされた試験運用版のテスト時計算モデルです。そのため、Flash Thinking は、ベースの Gemini 2.0 Flash モデルよりも回答の推論能力が強化されています。詳細については、Gemini 2.0 Flash Thinking のドキュメントをご覧ください。

機能

機能 可用性
グラウンディング
チューニング
システム指示 システム指示を使用するをご覧ください。
JSON サポート
プロビジョニングされたスループット サポートされているモデルをご覧ください。

仕様

仕様
最大入力トークン数 1,048,576
最大出力トークン数 65,536
トレーニング データ 2024 年 5 月まで

Gemini 1.5 Flash

費用対効果に優れた大容量のアプリケーション向けに設計されたマルチモーダル モデルであり、品質を損なうことなく、高速で低コストのアプリケーションを迅速かつ効率的に構築できます。

機能

機能 可用性
グラウンディング テキスト入力のみ
チューニング
システム指示 システム指示を使用するをご覧ください。
生成制御機能
プロビジョニングされたスループット サポートされているモデルをご覧ください。

仕様

仕様
最大入力トークン数 1,048,576
最大出力トークン数 8,192
最大 RAW 画像サイズ 20 MB
base64 エンコードされた画像の最大サイズ 7 MB
プロンプトあたりの最大画像数 3,000
動画の最大長 1 時間
プロンプトあたりの最大動画数 10
音声の最大長 約 8.4 時間
プロンプトあたりの最大音声数 1
最大 PDF サイズ 30 MB
トレーニング データ 2024 年 5 月まで

Gemini 1.5 Pro

テキストまたはコードの回答を得るためのテキスト プロンプトまたはチャット プロンプトで画像、音声、動画、PDF ファイルを追加できるマルチモーダル モデル。このモデルは、最大入力トークン数までの長いコンテキストの理解をサポートします。

機能

機能 可用性
グラウンディング 使用可能(テキスト入力のみ)
チューニング
システム指示 使用可能。システム指示を使用するをご覧ください。
JSON サポート
プロビジョニングされたスループット 使用可能。サポートされているモデルをご覧ください。

仕様

仕様
最大入力トークン数 2,097,152
最大出力トークン数 8,192
プロンプトあたりの最大画像数 3,000
動画の最大長(フレームのみ) 約 1 時間
動画の最大長(フレームと音声) 約 45 分
プロンプトあたりの最大動画数 10
音声の最大長 約 8.4 時間
プロンプトあたりの最大音声数 1
最大 PDF サイズ 30 MB
トレーニング データ 2024 年 5 月まで

Gemini 1.0 Pro

テキストのみのタスクに幅広く対応する機能を持つ高性能モデル。このモデルは、入力としてテキストのみをサポートします。

機能

機能 可用性
グラウンディング 使用可能(テキスト入力のみ)
チューニング 使用可能。教師ありチューニングは gemini-1.0-pro-002 でサポートされています。
システム指示 使用可能。gemini-1.0-pro-002 でサポートされています。システム指示を使用するをご覧ください。
JSON サポート
プロビジョニングされたスループット 使用可能。サポートされているモデルをご覧ください。

仕様

仕様
最大入力トークン数 32,760
最大出力トークン数 8,192
トレーニング データ 2023 年 2 月まで

Gemini 1.0 Pro Vision

幅広いアプリケーションに対応可能で、画像と動画の理解に優れたパフォーマンスを発揮するモデル。Gemini 1.0 Pro Vision は、テキスト、画像、動画を入力としてサポートします。

機能

機能 可用性
グラウンディング
チューニング
システム指示
JSON サポート
プロビジョニングされたスループット 使用可能。サポートされているモデルをご覧ください。

仕様

仕様
最大入力トークン数 16,384
最大出力トークン数 2,048
プロンプトあたりの最大画像数 16
動画の最大長 2 分
プロンプトあたりの最大動画数 1
トレーニング データ 2023 年 2 月まで

Gemini 1.0 Ultra

Google の最も高性能なテキスト モデル。指示、コード、推論などの複雑なタスク向けに最適化されています。Gemini 1.0 Ultra は、入力としてテキストのみをサポートします。

機能

機能 可用性
グラウンディング
チューニング
システム指示
JSON サポート
プロビジョニングされたスループット 使用可能。サポートされているモデルをご覧ください。

仕様

仕様
最大入力トークン数 8,192
最大出力トークン数 2,048

Gemini 1.0 Ultra Vision

Google の最も高性能なマルチモーダル ビジョンモデル。テキスト、画像、動画を組み合わせた入力をサポートするように最適化されています。

機能

機能 可用性
グラウンディング
チューニング
システム指示
JSON サポート
プロビジョニングされたスループット サポートされているモデルをご覧ください。

仕様

仕様
最大入力トークン数 8,192
最大出力トークン数 2,048

Gemini の言語サポート

  • すべての Gemini モデルは、次の言語を理解して回答できます。

    アラビア語(ar)、ベンガル語(bn)、ブルガリア語(bg)、中国語(簡体字、繁体字)(zh)、クロアチア語(hr)、チェコ語(cs)、デンマーク語(da)、オランダ語(nl)、英語(en)、エストニア語(et)、フィンランド語(fi)、フランス語(fr)、ドイツ語(de)、ギリシャ語(el)、ヘブライ語(iw)、ヒンディー語(hi)、ハンガリー語(hu)、インドネシア語(id)、イタリア語(it)、日本語(ja)、韓国語(ko)、ラトビア語(lv)、リトアニア語(lt)、ノルウェー語(no)、ポーランド語(pl)、ポルトガル語(pt)、ルーマニア語(ro)、ロシア語(ru)、セルビア語(sr)、スロバキア語(sk)、スロベニア語(sl)、スペイン語(es)、スワヒリ語(sw)、スウェーデン語(sv)、タイ語(th)、トルコ語(tr)、ウクライナ語(uk)、ベトナム語(vi)

  • Gemini 1.5 Pro モデルと Gemini 1.5 Flash モデルは、次の追加の言語を理解して回答できます。

    アフリカーンス語(af)、アムハラ語(am)、アッサム語(as)、アゼルバイジャン語(az)、ベラルーシ語(be)、ボスニア語(bs)、カタルーニャ語(ca)、セブアノ語(ceb)、コルシカ語(co)、ウェールズ語(cy)、ディベヒ語(dv)、エスペラント語(eo)、バスク語(eu)、ペルシア語(fa)、フィリピン語(タガログ語)(fil)、フリジア語(fy)、アイルランド語(ga)、スコットランド ゲール語(gd)、ガリシア語(gl)、グジャラート語(gu)、ハウサ語(ha)、ハワイ語(haw)、モン語(hmn)、クレオール語(ハイチ)(ht)、アルメニア語(hy)、イボ語(ig)、アイスランド語(is)、ジャワ語(jv)、ジョージア語(ka)、カザフ語(kk)、クメール語(km)、カンナダ語(kn)、クリオ語(kri)、クルド語(ku)、キルギス語(ky)、ラテン語(la)、ルクセンブルク語(lb)、ラオ語(lo)、マダガスカル語(mg)、マオリ語(mi)、マケドニア語(mk)、マラヤーラム語(ml)、モンゴル語(mn)、メイテイ語(マニプル語)(mni-Mtei)、マラーティー語(mr)、マレー語(ms)、マルタ語(mt)、ミャンマー語(ビルマ語)(my)、ネパール語(ne)、ニャンジャ語(チェワ語)(ny)、オディア語(オリヤー語)(or)、パンジャブ語(pa)、パシュトゥ語(ps)、シンド語(sd)、シンハラ語(si)、サモア語(sm)、ショナ語(sn)、ソマリ語(so)、アルバニア語(sq)、ソト語(st)、スンダ語(su)、タミル語(ta)、テルグ語(te)、タジク語(tg)、ウイグル語(ug)、ウルドゥー語(ur)、ウズベク語(uz)、コーサ語(xh)、イディッシュ語(yi)、ヨルバ語(yo)、ズールー語(zu)

Gemma モデル

次の表に、Gemma モデルの概要を示します。

モデル 入力 出力 ユースケース モデルを試す
Gemma
モデルの詳細
テキスト テキスト テキストの生成、要約、抽出をサポートし、自由記述のテキストに対応する小型で軽量なモデル。リソースが限られている環境にデプロイできます。 Gemma を試す
CodeGemma
モデルの詳細
テキスト、コード、PDF テキスト Gemma を基盤とし、自由記述のコードに対応する軽量モデルのコレクション。コードの生成と補完に最適。 CodeGemma を試す
PaliGemma
モデルの詳細
テキスト、画像 テキスト 軽量の視覚言語モデル(VLM)。画像のキャプション付けや、視覚的な質問と回答のタスクに最適。 PaliGemma を試す

Gemma の言語サポート

Gemma は英語のみをサポートしています。

エンベディング モデル

次の表は、Embeddings API で利用可能なモデルをまとめたものです。

モデル名 説明 仕様 モデルを試す
テキスト用エンベディング
textembedding-gecko@001,
textembedding-gecko@002,
textembedding-gecko@003,
text-embedding-004

モデルの詳細
英語のテキスト入力のエンベディングを返します。

テキスト用エンベディング モデルの教師ありチューニングをサポートします(英語のみ)。
最大トークン入力: 3,072(textembedding-gecko@001)。
その他: 2,048。

エンベディング次元数: text-embedding-004: 768 以下。
その他: 768。
テキスト用エンベディングを試す
多言語テキスト用エンベディング
textembedding-gecko-multilingual@001
text-multilingual-embedding-002
モデルの詳細
100 を超える言語のテキスト入力のエンベディングを返します。

text-multilingual-embedding-002 モデルの教師ありチューニングをサポートします。
100 の言語をサポートしています。
最大トークン入力: 2,048。

エンベディング次元数: text-multilingual-embedding-002: 768 以下。
その他: 768。
多言語テキスト用エンベディングを試す
マルチモーダル用エンベディング
(multimodalembedding)
モデルの詳細
テキスト、画像、動画入力のエンベディングを返して、さまざまなモデル間でコンテンツを比較します。

テキスト、画像、動画を同じベクトル空間に変換します。動画では 1,408 個の次元のみがサポートされます。
英語のみ。
最大トークン入力: 32。
最大画像サイズ: 20 MB。
動画の最大長: 2 分。

エンベディング次元数: テキストと画像入力の場合は 128、256、512、1,408、動画入力の場合は 1,408。
マルチモーダル用エンベディングを試す

エンベディング言語のサポート

多言語テキストのエンベディング モデルは、次の言語をサポートしています。
アフリカーンス語、アルバニア語、アムハラ語、アラビア語、アルメニア語、アゼルバイジャン語、バスク語、ベラルーシ語、ベンガル語、ブルガリア語、ビルマ語、カタルーニャ語、セブアノ語、チェワ語、中国語、コルシカ語、チェコ語、デンマーク語、オランダ語、英語、エスペラント語、エストニア語、フィリピン語、フィンランド語、フランス語、ガリシア語、ジョージア語、ドイツ語、ギリシャ語、グジャラート語、クレオール語(ハイチ)、ハウサ語、ハワイ語、ヘブライ語、ヒンディー語、モン語、ハンガリー語、アイスランド語、イボ語、インドネシア語、アイルランド語、イタリア語、日本語、ジャワ語、カンナダ語、カザフ語、クメール語、韓国語、クルド語、キルギス語、ラオ語、ラテン語、ラトビア語、リトアニア語、ルクセンブルク語、マケドニア語、マダガスカル語、マレー語、マラヤーラム語、マルタ語、マオリ語、マラーティー語、モンゴル語、ネパール語、ノルウェー語、パシュトゥ語、ペルシア語、ポーランド語、ポルトガル語、パンジャブ語、ルーマニア語、ロシア語、サモア語、スコットランド ゲール語、セルビア語、ショナ語、シンド語、シンハラ語、スロバキア語、スロベニア語、ソマリ語、ソト語、スペイン語、スンダ語、スワヒリ語、スウェーデン語、タジク語、タミル語、テルグ語、タイ語、トルコ語、ウクライナ語、ウルドゥ語、ウズベク語、ベトナム語、ウェールズ語、西フリジア語、クワハ語、イディッシュ語、ヨルバ語、ズールー語。

Imagen モデル

次の表は、Imagen API で使用可能なモデルをまとめたものです。

モデル 入力 出力 ユースケース モデルを試す
Imagen 3
imagen-3.0-generate-001imagen-3.0-fast-generate-001

Imagen 2
imagegeneration@006imagegeneration@005

Imagen
imagegeneration@002
モデルの詳細
テキスト 画像 このモデルは画像の生成と編集をサポートし、高品質の画像を数秒で作成できます。これには、ゼロショット学習を使用した画像生成が含まれます。 画像生成用の Imagen を試す
Imagen 3(編集とカスタマイズ)
imagen-3.0-capability-001

Imagen 2(編集)
imagegeneration@006

Imagen(編集)
imagegeneration@002
モデルの詳細
テキストと画像 画像 このモデルは、画像編集とカスタマイズされた(少数ショット)画像生成をサポートし、高品質の画像を数秒で作成できます。

編集機能は、インペイント(オブジェクトの削除または挿入)、アウトペイント、商品画像の編集をサポートします。

カスタマイズでは少数ショット学習がサポートされており、出力画像の生成をガイドする参照画像を与えることができます。このモデルは、カスタマイズのタイプとして、被写体のカスタマイズ(商品、人物、ペット)、スタイルのカスタマイズ、制御されたカスタマイズ(フリーハンドまたは Canny エッジ)、カスタマイズの指示(スタイル転送)をサポートします。
編集とカスタマイズ用の Imagen を試す

Imagen 3 の言語サポート

Imagen 3 は、次の言語をサポートしています。
英語、中国語、ヒンディー語、日本語、韓国語、ポルトガル語、スペイン語。

コード補完モデル

次の表は、Codey API で利用可能なモデルをまとめたものです。

モデル 入力 出力 ユースケース モデルを試す
コード補完用の Codey
code-gecko
モデルの詳細
サポートされている言語のコード サポートされている言語のコード 記述されたコードのコンテキストに基づいてコード補完を提案するようにファインチューニングされたモデル。 コード補完用の Codey を試す

コード補完モデルの言語サポート

コード補完モデルは英語をサポートしています。

MedLM モデル

次の表は、MedLM API で利用可能なモデルをまとめたものです。

モデル名 説明 仕様 モデルを試す
MedLM-mediummedlm-medium
モデルの詳細
Google Research が提供する、医療向けにチューニングされたモデルと API の HIPAA 準拠スイート。

このモデルは、医療従事者が医療に関する質問と回答のタスクや、ヘルスケア文書と医療文書の要約タスクを行う際に役立ちます。medlm-large モデルよりもスループットが高く、より新しいデータが含まれています。
最大トークン(入力 + 出力): 32,768。
最大出力トークン: 8,192。
MedLM-medium を試す
MedLM-largemedlm-large
モデルの詳細
Google Research が提供する、医療向けにチューニングされたモデルと API の HIPAA 準拠スイート。

このモデルは、医療従事者が医療に関する質問と回答のタスクや、ヘルスケア文書と医療文書の要約タスクを行う際に役立ちます。
最大入力トークン: 8,192。
最大出力トークン: 1,024。
MedLM-large を試す

MedLM でのプロビジョンド スループットのサポート

MedLM-medium と MedLM-large はプロビジョンド スループットをサポートします。サポートされているモデルをご覧ください。

MedLM の言語サポート

MedLM モデルは英語をサポートしています。

ロケーション

これらのモデルを利用できるロケーションの一覧については、Vertex AI の生成 AI のロケーションをご覧ください。

モデル バージョン

モデル バージョンの詳細については、モデルのバージョンをご覧ください。

Model Garden でモデルを確認する

Model Garden は、Google 独自の厳選された OSS モデルやアセットを調査、テスト、カスタマイズ、デプロイする場合に便利なプラットフォームです。Vertex AI で使用可能な生成 AI モデルと API を探索するには、Google Cloud コンソールで Model Garden に移動します。

Model Garden に移動

使用可能なモデルや機能など、Model Garden の詳細については、Model Garden で AI モデルを調べるをご覧ください。

次のステップ