モデル情報

Vertex AI には、AI ベースのアプリケーションで使用するためにテスト、デプロイ、カスタマイズできる基盤モデルがあり、その数は増え続けています。基盤モデルは特定のユースケースに合わせてファインチューニングされており、さまざまな価格で提供されます。このページでは、さまざまな API で使用可能なモデルの概要と、ユースケースごとに選択するモデルに関するガイダンスを示します。

Vertex AI のすべての AI モデルと API の詳細については、AI モデルと API の詳細を確認するをご覧ください。

基盤モデル API

Vertex AI には、次の基盤モデル API があります。

  • Gemini API(マルチモーダル テキスト、画像、音声、動画、PDF、コード、チャット)
  • PaLM API(テキスト、チャット、エンベディング)
  • Codey API(コード生成、コードチャット、コード補完)
  • Imagen API(画像生成、画像編集、画像キャプション、Visual Question Answering、マルチモーダル エンベディング)

Gemini API モデル

次の表は、Gemini API で使用可能なモデルをまとめたものです。

モデル名 説明 モデル プロパティ チューニングのサポート
Gemini 1.5 Proプレビュー
gemini-1.5-pro
テキスト レスポンスまたはコード レスポンス用のテキスト プロンプトまたはチャット プロンプトでの画像、音声、動画、PDF ファイルの追加をサポートするマルチモーダル モデル。Gemini 1.5 Pro は最大 100 万個のトークンによる長いコンテキストの理解をサポートします。 最大合計トークン(入力と出力): 100 万
最大出力トークン: 8,192
最大未加工画像サイズ: 20 MB
最大 base64 エンコード画像サイズ: 7 MB
プロンプトあたりの最大画像数: 3,000
動画の最大長: 1 時間
プロンプトあたりの最大動画数: 10
音声の最大長: 約 8.4 時間
プロンプトあたりの最大音声数: 1
最大 PDF サイズ: 50 MB
トレーニング データ: 2024 年 4 月まで
教師: なし
RLHF: なし
抽出: なし
Gemini 1.0 Pro
gemini-1.0-pro
自然言語タスク、マルチターン テキストとコードチャット、コード生成を処理するように設計されています。テキストのみを含むプロンプトには Gemini 1.0 Pro を使用します。 最大合計トークン(入力と出力): 32,760
最大出力トークン: 8,192
トレーニング データ: 2023 年 2 月まで
教師: あり
RLHF: なし
抽出: なし
Gemini 1.0 Pro Vision
gemini-1.0-pro-vision
テキストまたはコード レスポンスのテキスト プロンプトまたはチャット プロンプトでの画像、PDF、動画の追加をサポートするマルチモーダル モデル。Prome 1.0 Pro Vision マルチモーダル プロンプトを使用します。 最大合計トークン(入力と出力): 16,384
最大出力トークン: 2,048
画像の最大サイズ: 制限なし
プロンプトあたりの最大画像数: 16
動画の長さの上限: 2 分
プロンプトあたりの最大動画数: 1
トレーニング データ: 2023 年 2 月まで
教師: なし
RLHF: なし
抽出: なし
Gemini 1.0 Ultra(一般提供、許可リスト付き) Google の最も高性能なマルチモーダル モデル。指示、コード、根拠分析などの複雑なタスク向けに最適化され、複数の言語をサポートしています。Gemini 1.0 Ultra は、一部のお客様を対象に一般提供(GA)されています。 最大トークン入力: 8,192
最大トークン出力: 2,048
教師: なし
RLHF: なし
抽出: なし
Gemini 1.0 Ultra Vision(一般提供、許可リスト付き) Google の最も高性能なマルチモーダル ビジョンモデル。テキスト、画像、動画、マルチターン チャットをサポートするように最適化されています。Gemini 1.0 Ultra Vision は、一部のお客様を対象に一般提供(GA)されています。 最大トークン入力: 8,192
最大トークン出力: 2,048
教師: なし
RLHF: なし
抽出: なし

PaLM API モデル

次の表は、PaLM API で利用可能なモデルをまとめたものです。

モデル名 説明 モデル プロパティ チューニングのサポート
テキスト用 PaLM 2
text-bison
自然言語の指示に従うように微調整されており、分類、要約、抽出などのさまざまな言語タスクに適しています。 最大入力トークン: 8,192
最大出力トークン: 1,024
トレーニング データ: 2023 年 2 月まで
教師: あり
RLHF: ありプレビュー
抽出: なし
テキスト用 PaLM 2text-unicorn 複雑な自然言語タスクに使用する PaLM モデル ファミリーの中で最も高度なテキストモデル。 最大入力トークン: 8,192
最大出力トークン: 1,024
トレーニング データ: 2023 年 2 月まで
教師: なし
RLHF: なし
抽出: ありプレビュー
テキスト用 PaLM 2 32k
text-bison-32k
自然言語による指示に対応できるようファインチューニングされています。さまざまな言語タスクに適しています。 最大トークン(入力 + 出力): 32,768
最大出力トークン: 8,192
トレーニング データ: 2023 年 8 月まで
教師: あり
RLHF: なし
抽出: なし
チャット用 PaLM 2
chat-bison
マルチターンの会話向けにファインチューニングされています。 最大入力トークン: 8,192
最大出力トークン: 2,048
トレーニング データ: 2023 年 2 月まで
最大ターン数 : 2,500
教師: あり
RLHF: なし
抽出: なし
チャット用 PaLM 2 32k
chat-bison-32k
マルチターンの会話向けにファインチューニングされています。 最大トークン(入力 + 出力): 32,768
最大出力トークン: 8,192
トレーニング データ: 2023 年 8 月まで
最大ターン数 : 2,500
教師: あり
RLHF: なし
抽出: なし
テキスト エンベディング
textembedding-gecko
テキスト入力のモデル エンベディングを返します。 3,072 個の入力トークン。768 次元のベクトル エンベディングを出力します。 教師: あり
RLHF: なし
抽出: なし
多言語テキスト エンベディング
textembedding-gecko-multilingual
100 を超える言語をサポートするテキスト入力のモデル エンベディングを返します。 3,072 個の入力トークン。768 次元のベクトル エンベディングを出力します。 教師: ありプレビュー
RLHF: なし
抽出: なし

Codey API モデル

次の表は、Codey API で利用可能なモデルをまとめたものです。

モデル名 説明 モデル プロパティ チューニングのサポート
コード生成用の Codey
code-bison
目的のコードの自然言語記述に基づいてコードを生成するようにファインチューニングされたモデル。たとえば、関数の単体テストを生成できます。 最大入力トークン: 6,144
最大出力トークン: 1,024
教師: あり
RLHF: なし
抽出: なし
コード生成用の Codey 32k
code-bison-32k
目的のコードの自然言語記述に基づいてコードを生成するようにファインチューニングされたモデル。たとえば、関数の単体テストを生成できます。 最大トークン(入力 + 出力): 32,768
最大出力トークン: 8,192
教師: あり
RLHF: なし
抽出: なし
コードチャット用の Codey
codechat-bison
コード関連の質問に対応する chatbot との会話用にファインチューニングされたモデルです。 最大入力トークン: 6,144
最大出力トークン: 1,024
教師: あり
RLHF: なし
抽出: なし
コードチャット用 Codey 32k
codechat-bison-32k
コード関連の質問に対応する chatbot との会話用にファインチューニングされたモデルです。 最大トークン(入力 + 出力): 32,768
最大出力トークン: 8,192
教師: あり
RLHF: なし
抽出: なし
コード補完用 Codey
code-gecko
記述されたコードのコンテキストに基づいてコード補完を提案するようにファインチューニングされたモデル。 最大入力トークン: 2,048
最大出力トークン: 64
教師: なし
RLHF: なし
抽出: なし

Imagen API モデル

次の表は、Imagen API で使用可能なモデルをまとめたものです。

モデル名 説明 モデル プロパティ チューニングのサポート
画像生成用の Imagen
imagegeneration
このモデルは画像生成をサポートし、高品質のビジュアル アセットを数秒で作成できます。 1 プロジェクト 1 分あたりの最大リクエスト数: 100
最大生成画像数: 8
最大ベース画像(編集/アップスケール): 10 MB
生成される画像の解像度: 1024 x 1024 ピクセル
教師: なし
RLHF: なし
マルチモーダルのエンベディング
multimodalembedding
このモデルは、指定した入力に基づいてベクトルを生成します。この入力には、画像とテキストの組み合わせを含めることができます。 1 プロジェクト 1 分あたりの最大リクエスト数: 120
テキストの最大長: 32 トークン
言語: 英語
画像の最大サイズ: 20 MB
教師: なし
RLHF: なし
画像キャプション
imagetext
画像キャプションをサポートするモデル。このモデルは、指定された言語に基づいて、指定された画像から字幕を生成します。 1 プロジェクト 1 分あたりの最大リクエスト数: 500
言語: 英語、フランス語、ドイツ語、イタリア語、スペイン語
画像の最大サイズ: 10 MB
字幕の最大数: 3
教師: なし
RLHF: なし
Visual Question Answering - VQA
imagetext
画像に対する質問と回答をサポートするモデル。 1 プロジェクト 1 分あたりの最大リクエスト数: 500
言語: 英語
画像の最大サイズ: 10 MB
回答の最大数: 3
教師: なし
RLHF: なし

MedLM API モデル

次の表は、MedLM API で利用可能なモデルをまとめたものです。

モデル名 説明 モデル プロパティ チューニングのサポート
MedLM-mediummedlm-medium Google Research が提供する、医療向けにチューニングされたモデルと API の HIPAA 準拠スイート。これらのモデルは、医療従事者に医療に関する質問と回答(Q&A)を提供し、医療文書とヘルスケア ドキュメントを要約するのに役立ちます。 最大トークン(入力 + 出力): 32,768
最大出力トークン: 8,192
言語: 英語
教師: なし
RLHF: なし
MedLM-largemedlm-large Google Research が提供する、医療向けにチューニングされたモデルと API の HIPAA 準拠スイート。これらのモデルは、医療従事者に医療に関する質問と回答(Q&A)を提供し、医療文書とヘルスケア ドキュメントを要約するのに役立ちます。 最大入力トークン: 8,192
最大出力トークン: 1,024
言語: 英語
教師: なし
RLHF: なし

言語サポート

Vertex AI PaLM APIVertex AI Gemini API は、次の言語で一般提供(GA)になりました。

  • アラビア語(ar
  • ベンガル語(bn
  • ブルガリア語(bg
  • 中国語(簡体および繁体)(zh
  • クロアチア語(hr
  • チェコ語(cs
  • デンマーク語(da
  • オランダ語(nl
  • 英語(en
  • エストニア語(et
  • フィンランド語(fi
  • フランス語(fr
  • ドイツ語(de
  • ギリシャ語(el
  • ヘブライ語(iw
  • ヒンディー語(hi
  • ハンガリー語(hu
  • インドネシア語(id
  • イタリア語(it
  • 日本語(ja
  • 韓国語(ko
  • ラトビア語(lv
  • リトアニア語(lt
  • ノルウェー語(no
  • ポーランド語(pl
  • ポルトガル語(pt
  • ルーマニア語(ro
  • ロシア語(ru
  • セルビア語(sr
  • スロバキア語(sk
  • スロベニア語(sl
  • スペイン語(es
  • スワヒリ語(sw
  • スウェーデン語(sv
  • タイ語(th
  • トルコ語(tr
  • ウクライナ語(uk
  • ベトナム語(vi

その他の言語については、Google Cloud の担当者にお問い合わせください。

Model Garden でモデルを探索する

Model Garden は、Google 独自の厳選された OSS モデルやアセットを調査、テスト、カスタマイズ、デプロイする場合に便利なプラットフォームです。Vertex AI で使用可能な生成 AI モデルと API を探索するには、Google Cloud コンソールで Model Garden に移動します。

Model Garden に移動

使用可能なモデルや機能など、Model Garden の詳細については、Model Garden で AI モデルを調べるをご覧ください。

次のステップ