Vertex AI には、AI ベースのアプリケーションで使用するためにテスト、デプロイ、カスタマイズできる基盤モデルがあり、その数は増え続けています。基盤モデルは特定のユースケースに合わせてファインチューニングされており、さまざまな価格で提供されます。このページでは、さまざまな API で使用可能なモデルの概要と、ユースケースごとに選択するモデルに関するガイダンスを示します。
Vertex AI のすべての AI モデルと API の詳細については、AI モデルと API の詳細を確認するをご覧ください。
基盤モデル API
Vertex AI には、次の基盤モデル API があります。
- Gemini API(マルチモーダル テキスト、画像、音声、動画、PDF、コード、チャット)
- PaLM API(テキスト、チャット、エンベディング)
- Codey API(コード生成、コードチャット、コード補完)
- Imagen API(画像生成、画像編集、画像キャプション、Visual Question Answering、マルチモーダル エンベディング)
Gemini API モデル
次の表は、Gemini API で使用可能なモデルをまとめたものです。
モデル名 | 説明 | モデル プロパティ | チューニングのサポート |
---|---|---|---|
Gemini 1.5 Pro(プレビュー) ( gemini-1.5-pro ) |
テキスト レスポンスまたはコード レスポンス用のテキスト プロンプトまたはチャット プロンプトでの画像、音声、動画、PDF ファイルの追加をサポートするマルチモーダル モデル。Gemini 1.5 Pro は最大 100 万個のトークンによる長いコンテキストの理解をサポートします。 | 最大合計トークン(入力と出力): 100 万 最大出力トークン: 8,192 最大未加工画像サイズ: 20 MB 最大 base64 エンコード画像サイズ: 7 MB プロンプトあたりの最大画像数: 3,000 動画の最大長: 1 時間 プロンプトあたりの最大動画数: 10 音声の最大長: 約 8.4 時間 プロンプトあたりの最大音声数: 1 最大 PDF サイズ: 50 MB トレーニング データ: 2024 年 4 月まで |
教師: なし RLHF: なし 抽出: なし |
Gemini 1.0 Pro ( gemini-1.0-pro ) |
自然言語タスク、マルチターン テキストとコードチャット、コード生成を処理するように設計されています。テキストのみを含むプロンプトには Gemini 1.0 Pro を使用します。 | 最大合計トークン(入力と出力): 32,760 最大出力トークン: 8,192 トレーニング データ: 2023 年 2 月まで |
教師: あり RLHF: なし 抽出: なし |
Gemini 1.0 Pro Vision ( gemini-1.0-pro-vision ) |
テキストまたはコード レスポンスのテキスト プロンプトまたはチャット プロンプトでの画像、PDF、動画の追加をサポートするマルチモーダル モデル。Prome 1.0 Pro Vision マルチモーダル プロンプトを使用します。 | 最大合計トークン(入力と出力): 16,384 最大出力トークン: 2,048 画像の最大サイズ: 制限なし プロンプトあたりの最大画像数: 16 動画の長さの上限: 2 分 プロンプトあたりの最大動画数: 1 トレーニング データ: 2023 年 2 月まで |
教師: なし RLHF: なし 抽出: なし |
Gemini 1.0 Ultra(一般提供、許可リスト付き) | Google の最も高性能なマルチモーダル モデル。指示、コード、根拠分析などの複雑なタスク向けに最適化され、複数の言語をサポートしています。Gemini 1.0 Ultra は、一部のお客様を対象に一般提供(GA)されています。 | 最大トークン入力: 8,192 最大トークン出力: 2,048 |
教師: なし RLHF: なし 抽出: なし |
Gemini 1.0 Ultra Vision(一般提供、許可リスト付き) | Google の最も高性能なマルチモーダル ビジョンモデル。テキスト、画像、動画、マルチターン チャットをサポートするように最適化されています。Gemini 1.0 Ultra Vision は、一部のお客様を対象に一般提供(GA)されています。 | 最大トークン入力: 8,192 最大トークン出力: 2,048 |
教師: なし RLHF: なし 抽出: なし |
PaLM API モデル
次の表は、PaLM API で利用可能なモデルをまとめたものです。
モデル名 | 説明 | モデル プロパティ | チューニングのサポート |
---|---|---|---|
テキスト用 PaLM 2 ( text-bison ) |
自然言語の指示に従うように微調整されており、分類、要約、抽出などのさまざまな言語タスクに適しています。 | 最大入力トークン: 8,192 最大出力トークン: 1,024 トレーニング データ: 2023 年 2 月まで |
教師: あり RLHF: あり(プレビュー) 抽出: なし |
テキスト用 PaLM 2(text-unicorn ) |
複雑な自然言語タスクに使用する PaLM モデル ファミリーの中で最も高度なテキストモデル。 | 最大入力トークン: 8,192 最大出力トークン: 1,024 トレーニング データ: 2023 年 2 月まで |
教師: なし RLHF: なし 抽出: あり(プレビュー) |
テキスト用 PaLM 2 32k ( text-bison-32k ) |
自然言語による指示に対応できるようファインチューニングされています。さまざまな言語タスクに適しています。 | 最大トークン(入力 + 出力): 32,768 最大出力トークン: 8,192 トレーニング データ: 2023 年 8 月まで |
教師: あり RLHF: なし 抽出: なし |
チャット用 PaLM 2 ( chat-bison ) |
マルチターンの会話向けにファインチューニングされています。 | 最大入力トークン: 8,192 最大出力トークン: 2,048 トレーニング データ: 2023 年 2 月まで 最大ターン数 : 2,500 |
教師: あり RLHF: なし 抽出: なし |
チャット用 PaLM 2 32k ( chat-bison-32k ) |
マルチターンの会話向けにファインチューニングされています。 | 最大トークン(入力 + 出力): 32,768 最大出力トークン: 8,192 トレーニング データ: 2023 年 8 月まで 最大ターン数 : 2,500 |
教師: あり RLHF: なし 抽出: なし |
テキスト エンベディング ( textembedding-gecko ) |
テキスト入力のモデル エンベディングを返します。 | 3,072 個の入力トークン。768 次元のベクトル エンベディングを出力します。 |
教師: あり RLHF: なし 抽出: なし |
多言語テキスト エンベディング ( textembedding-gecko-multilingual ) |
100 を超える言語をサポートするテキスト入力のモデル エンベディングを返します。 | 3,072 個の入力トークン。768 次元のベクトル エンベディングを出力します。 |
教師: あり(プレビュー) RLHF: なし 抽出: なし |
Codey API モデル
次の表は、Codey API で利用可能なモデルをまとめたものです。
モデル名 | 説明 | モデル プロパティ | チューニングのサポート |
---|---|---|---|
コード生成用の Codey ( code-bison ) |
目的のコードの自然言語記述に基づいてコードを生成するようにファインチューニングされたモデル。たとえば、関数の単体テストを生成できます。 | 最大入力トークン: 6,144 最大出力トークン: 1,024 |
教師: あり RLHF: なし 抽出: なし |
コード生成用の Codey 32k ( code-bison-32k ) |
目的のコードの自然言語記述に基づいてコードを生成するようにファインチューニングされたモデル。たとえば、関数の単体テストを生成できます。 | 最大トークン(入力 + 出力): 32,768 最大出力トークン: 8,192 |
教師: あり RLHF: なし 抽出: なし |
コードチャット用の Codey ( codechat-bison ) |
コード関連の質問に対応する chatbot との会話用にファインチューニングされたモデルです。 | 最大入力トークン: 6,144 最大出力トークン: 1,024 |
教師: あり RLHF: なし 抽出: なし |
コードチャット用 Codey 32k ( codechat-bison-32k ) |
コード関連の質問に対応する chatbot との会話用にファインチューニングされたモデルです。 | 最大トークン(入力 + 出力): 32,768 最大出力トークン: 8,192 |
教師: あり RLHF: なし 抽出: なし |
コード補完用 Codey ( code-gecko ) |
記述されたコードのコンテキストに基づいてコード補完を提案するようにファインチューニングされたモデル。 | 最大入力トークン: 2,048 最大出力トークン: 64 |
教師: なし RLHF: なし 抽出: なし |
Imagen API モデル
次の表は、Imagen API で使用可能なモデルをまとめたものです。
モデル名 | 説明 | モデル プロパティ | チューニングのサポート |
---|---|---|---|
画像生成用の Imagen ( imagegeneration ) | このモデルは画像生成をサポートし、高品質のビジュアル アセットを数秒で作成できます。 | 1 プロジェクト 1 分あたりの最大リクエスト数: 100 最大生成画像数: 8 最大ベース画像(編集/アップスケール): 10 MB 生成される画像の解像度: 1024 x 1024 ピクセル |
教師: なし RLHF: なし |
マルチモーダルのエンベディング ( multimodalembedding ) | このモデルは、指定した入力に基づいてベクトルを生成します。この入力には、画像とテキストの組み合わせを含めることができます。 | 1 プロジェクト 1 分あたりの最大リクエスト数: 120 テキストの最大長: 32 トークン 言語: 英語 画像の最大サイズ: 20 MB |
教師: なし RLHF: なし |
画像キャプション ( imagetext ) | 画像キャプションをサポートするモデル。このモデルは、指定された言語に基づいて、指定された画像から字幕を生成します。 | 1 プロジェクト 1 分あたりの最大リクエスト数: 500 言語: 英語、フランス語、ドイツ語、イタリア語、スペイン語 画像の最大サイズ: 10 MB 字幕の最大数: 3 |
教師: なし RLHF: なし |
Visual Question Answering - VQA ( imagetext ) | 画像に対する質問と回答をサポートするモデル。 | 1 プロジェクト 1 分あたりの最大リクエスト数: 500 言語: 英語 画像の最大サイズ: 10 MB 回答の最大数: 3 |
教師: なし RLHF: なし |
MedLM API モデル
次の表は、MedLM API で利用可能なモデルをまとめたものです。
モデル名 | 説明 | モデル プロパティ | チューニングのサポート |
---|---|---|---|
MedLM-medium(medlm-medium ) | Google Research が提供する、医療向けにチューニングされたモデルと API の HIPAA 準拠スイート。これらのモデルは、医療従事者に医療に関する質問と回答(Q&A)を提供し、医療文書とヘルスケア ドキュメントを要約するのに役立ちます。 | 最大トークン(入力 + 出力): 32,768 最大出力トークン: 8,192 言語: 英語 |
教師: なし RLHF: なし |
MedLM-large(medlm-large ) | Google Research が提供する、医療向けにチューニングされたモデルと API の HIPAA 準拠スイート。これらのモデルは、医療従事者に医療に関する質問と回答(Q&A)を提供し、医療文書とヘルスケア ドキュメントを要約するのに役立ちます。 | 最大入力トークン: 8,192 最大出力トークン: 1,024 言語: 英語 |
教師: なし RLHF: なし |
言語サポート
Vertex AI PaLM API と Vertex AI Gemini API は、次の言語で一般提供(GA)になりました。
- アラビア語(
ar
) - ベンガル語(
bn
) - ブルガリア語(
bg
) - 中国語(簡体および繁体)(
zh
) - クロアチア語(
hr
) - チェコ語(
cs
) - デンマーク語(
da
) - オランダ語(
nl
) - 英語(
en
) - エストニア語(
et
) - フィンランド語(
fi
) - フランス語(
fr
) - ドイツ語(
de
) - ギリシャ語(
el
) - ヘブライ語(
iw
) - ヒンディー語(
hi
) - ハンガリー語(
hu
) - インドネシア語(
id
) - イタリア語(
it
) - 日本語(
ja
) - 韓国語(
ko
) - ラトビア語(
lv
) - リトアニア語(
lt
) - ノルウェー語(
no
) - ポーランド語(
pl
) - ポルトガル語(
pt
) - ルーマニア語(
ro
) - ロシア語(
ru
) - セルビア語(
sr
) - スロバキア語(
sk
) - スロベニア語(
sl
) - スペイン語(
es
) - スワヒリ語(
sw
) - スウェーデン語(
sv
) - タイ語(
th
) - トルコ語(
tr
) - ウクライナ語(
uk
) - ベトナム語(
vi
)
その他の言語については、Google Cloud の担当者にお問い合わせください。
Model Garden でモデルを探索する
Model Garden は、Google 独自の厳選された OSS モデルやアセットを調査、テスト、カスタマイズ、デプロイする場合に便利なプラットフォームです。Vertex AI で使用可能な生成 AI モデルと API を探索するには、Google Cloud コンソールで Model Garden に移動します。
使用可能なモデルや機能など、Model Garden の詳細については、Model Garden で AI モデルを調べるをご覧ください。
次のステップ
- Vertex AI Studio または Vertex AI API を使用したクイックスタート チュートリアルを試す。
- テキスト プロンプトのテスト方法を学習する。
- チャット プロンプトのテスト方法を確認する。
- Model Garden でトレーニング済みモデルを確認する。
- 基盤モデルのチューニング方法を学習する。
- 責任ある AI のベスト プラクティスと Vertex AI の安全フィルタについて学習する。