Model Garden でサポートされているモデル

Google の自社モデルのリスト

次の表に、Model Garden で利用できる Google の自社モデルを示します。

モデル名 モダリティ 説明 クイックスタート
Gemini 1.5 Flash 言語、音声、ビジョン 最も高速で費用対効果の高い Gemini マルチモーダル モデル。大量のタスクや、レイテンシを重視する低価格のアプリケーション向けに構築されています。Gemini 1.5 Flash はレスポンスが速いため、チャット アシスタントやオンデマンド コンテンツ生成アプリケーションの作成に適しています。 モデルカード
Gemini 1.5 Pro 言語、音声、ビジョン テキスト レスポンスまたはコード レスポンス用のテキスト プロンプトまたはチャット プロンプトでの画像、音声、動画、PDF ファイルの追加をサポートするマルチモーダル モデル。 モデルカード
Gemini 1.0 Pro 言語 自然言語タスク、マルチターン テキストとコードチャット、コード生成を処理するように設計されています。 モデルカード
Gemini 1.0 Pro Vision 言語、ビジョン テキスト レスポンスまたはコード レスポンス用のテキスト プロンプトまたはチャット プロンプトでの画像、動画、PDF ファイルの追加をサポートするマルチモーダル モデル。 モデルカード
テキスト用 PaLM 2 言語 自然言語による指示に対応できるよう微調整されていて、さまざまな言語タスクに適しています。 モデルカード
チャット用 PaLM 2 言語 自然な会話ができるよう微調整されています。このモデルは、独自の chatbot アプリケーションを構築してカスタマイズするために使用します。 モデルカード
コード補完用の Codey 言語 コード プロンプトに基づいてコードを生成します。コードの提案やコードのバグを最小限に抑えるうえで有効です。 モデルカード
コード生成用の Codey 言語 自然言語の入力に基づいてコードを生成します。関数、クラス、単体テストなどの記述に適しています。 モデルカード
コードチャット用の Codey 言語 自然な会話を通じてコード関連のサポートを受けることができます。API やサポートされている言語の構文などに関する質問に適しています。 モデルカード
テキストのエンベディング 言語 テキストデータを ML アルゴリズム(特に大規模なモデル)で処理できる数値ベクトルに変換します。 モデルカード
画像生成用の Imagen Vision テキスト プロンプトを使用して、高品質な画像を大規模に作成できます。このモデルを使用して画像をアップスケールすることもできます。 モデルカード
編集とカスタマイズ用の Imagen Vision ベース画像とテキスト プロンプト、または参照画像とテキスト プロンプトを使用して、少数ショット学習を編集するか、高品質な画像を大規模に作成します。 モデルカード
Vertex 画像セグメンテーション(プレビュー ビジョン テキスト プロンプトを使用するか、フリーハンド機能で描画して画像をセグメント化します。画像セグメンテーションを使用すると、オブジェクトの検出、画像の背景の削除、画像の前景のセグメンテーションなどを行うことができます。 モデルカード
キャプションと VQA 用の Imagen 言語 指定された画像に関連する説明を生成します。 モデルカード
マルチモーダルのエンベディング ビジョン 画像に基づいてベクトルを生成します。このベクトルは、画像分類や画像検索などのダウンストリーム タスクに使用できます。 モデルカード
Chirp 音声 1 つのモデルで 20 億を超えるパラメータを持ち、100 を超える言語で音声文字変換が可能なユニバーサル音声モデルのバージョン。 モデルカード

Model Garden のオープンソース チューニングまたはサービス提供レシピを含むモデルのリスト

次の表に、Model Garden でオープンソースのチューニングまたはレシピの提供をサポートする OSS モデルを示します。

モデル名 モダリティ 説明 クイックスタート
Llama 3.3 言語 Meta Llama 3.3 多言語大規模言語モデル(LLM)は、70B の事前トレーニング済みかつ指示用にチューニングされた生成モデル(テキスト入力/テキスト出力)です。 モデルカード
Flux ビジョン テキストの説明から高品質の画像を生成する 120 億のパラメータ修正フロー トランスフォーマー モデル。 モデルカード
プロンプト ガード 言語 ジェイルブレイク手法と間接インジェクションから LLM 入力を保護します。 モデルカード
Llama 3.2 言語 1B と 3B の事前トレーニング済みで指示用にチューニングされた生成モデルである、多言語大規模言語モデルのコレクション。 モデルカード
Llama 3.2-Vision 言語、ビジョン 11B と 90B の事前トレーニング済みで指示用にチューニングされた画像推論生成モデルである、マルチモーダル大規模言語モデルのコレクション。これらのモデルは、画像認識、画像推論、キャプション、画像に関する一般的な質問への回答用に最適化されています。 モデルカード
Llama Guard 3 言語 コンテンツの安全性分類用にファインチューニングされた Llama-3.1-8B 事前トレーニング済みモデル。 モデルカード
Qwen2 言語 大規模言語モデルの基盤モデルシリーズである Qwen2 をデプロイします。 Colab
モデルカード
Phi-3 言語 大規模言語モデルの基盤モデルシリーズである Phi-3 をデプロイします。 Colab
モデルカード
E5 言語 E5(テキスト エンベディング モデル シリーズ)をデプロイします。 Colab
モデルカード
Instant ID 言語、ビジョン Instant ID をデプロイします。これは、ID を保持するテキストから画像の生成モデルです。 Colab
モデルカード
Llama 3 言語 Vertex AI で Meta の Llama 3 モデル(8B、70B、405B)を使用して、モデルの探索と構築を行います。 モデルカード
Gemma 2 言語 Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されたオープン ウェイト モデル(9B、27B)。 モデルカード
Gemma 言語 Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されたオープン ウェイト モデル(2B、7B)。 モデルカード
CodeGemma 言語 コードの生成と補完用に設計されたオープン ウェイト モデル(2B、7B)。Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されています。 モデルカード
PaliGemma 言語 画像キャプション タスク、画像に関する質問応答タスク用に設計されたオープン ウェイトの 3B モデル。Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されています。 モデルカード
Vicuna v1.5 言語 LLama2 からテキスト生成のためにファインチューニングされた基盤モデルである Vicuna v1.5 シリーズモデルをデプロイします。 モデルカード
NLLB 言語 多言語翻訳用の NLLB シリーズモデルをデプロイします。 モデルカード
Colab
Mistral-7B 言語 テキスト生成の基盤モデルである Mistral-7B をデプロイします。 モデルカード
BioGPT 言語 生物医学分野向けのテキスト生成モデル BioGPT をデプロイします。 モデルカード
Colab
BiomedCLIP 言語、ビジョン 生物医学分野向けのマルチモーダル基盤モデルである BiomedCLIP をデプロイします。 モデルカード
Colab
ImageBind 言語、ビジョン、
音声
マルチモーダル エンベディングの基盤モデルである ImageBind をデプロイします。 モデルカード
Colab
DITO 言語、ビジョン DITO(オープンな語彙オブジェクト検出タスクのためのマルチモーダル基盤モデル)をファインチューニングしてデプロイします。 モデルカード
Colab
OWL-ViT v2 言語、ビジョン OWL-ViT v2(オープン語彙オブジェクト検出タスク用のマルチモーダル基盤モデル)をデプロイします。 モデルカード
Colab
FaceStylizer(Mediapipe) ビジョン 人の顔の画像を新しいスタイルに変換する生成パイプライン。 モデルカード
Colab
Llama 2 言語 Meta の Llama 2 基盤モデル(7B、13B、70B)をファインチューニングして Vertex AI にデプロイします。 モデルカード
Code Llama 言語 Meta の Code Llama 基盤モデル(7B、13B、34B)を Vertex AI にデプロイします。 モデルカード
Falcon-instruct 言語 PEFT を使用して Falcon-instruct のモデル(7B、40B)をファインチューニングしてデプロイします。 Colab
モデルカード
OpenLLaMA 言語 PEFT を使用して OpenLLaMA モデル(3B、7B、13B)をファインチューニングしてデプロイします。 Colab
モデルカード
T5-FLAN 言語 T5-FLAN(ベース、小、大)をファインチューニングしてデプロイします。 モデルカード(ファインチューニング パイプラインを含む)
BERT 言語 PEFT を使用して BERT をファインチューニングしてデプロイします。 Colab
モデルカード
BART-large-cnn 言語 双方向(BERT-like)のエンコーダと自己回帰(GPT-like)デコーダを備えた Transformer Encoder-Encoder(seq2seq)モデルである BART をデプロイします。 Colab
モデルカード
RoBERTa-large 言語 PEFT を使用して RoBERTa-large をファインチューニングしてデプロイします。 Colab
モデルカード
XLM-RoBERTa-large 言語 PEFT を使用して XLM-RoBERTa-large(RoBERTa の多言語バージョン)をファインチューニングしてデプロイします。 Colab
モデルカード
Dolly-v2-7b 言語 Dolly-v2-7b(69 億個のパラメータを備えた指示実行型大規模言語モデル)をデプロイします。 Colab
モデルカード
Stable Diffusion XL v1.0 言語、ビジョン テキストからの画像の生成をサポートする Stable Diffusion XL v1.0 をデプロイします。 Colab
モデルカード
Stable Diffusion XL Lightning 言語、ビジョン Stable Diffusion XL Lightning(テキストから画像の生成モデル)をデプロイします。 Colab
モデルカード
Stable Diffusion v2.1 言語、ビジョン Dreambooth を使用して Stable Diffusion v2.1(テキストから画像の生成をサポート)の微調整とデプロイを行います。 Colab
モデルカード
Stable Diffusion 4x アップスケーラー 言語、ビジョン Stable Diffusion 4x アップスケーラー(テキスト条件の画像スーパー解像度をサポート)をデプロイする。 Colab
モデルカード
InstructPix2Pix 言語、ビジョン InstructPix2Pix(テキスト プロンプトを使用した画像の編集をサポート)をデプロイします。 Colab
モデルカード
Stable Diffusion Inpainting 言語、ビジョン Stable Diffusion Inpainting(テキスト プロンプトを使用してマスクされた画像の描画をサポート)をファインチューニングしてデプロイします。 Colab
モデルカード
SAM 言語、ビジョン Segment Anything(ゼロショット画像セグメンテーションをサポート)をデプロイします。 Colab
モデルカード
Text-to-video(ModelScope) 言語、ビジョン ModelScope の text-to-video(テキストから動画の生成をサポート)をデプロイします。 Colab
モデルカード
Pic2Word Composed Image Retrieval 言語、ビジョン Pic2Word(マルチモーダルな合成画像の取得をサポート)をデプロイします。 Colab
モデルカード
BLIP2 言語、ビジョン BLIP2(画像のキャプションと視覚的な質問応答をサポート)をデプロイします。 Colab
モデルカード
Open-CLIP 言語、ビジョン Open-CLIP(ゼロショット分類をサポート)を微調整してデプロイします。 Colab
モデルカード
F-VLM 言語、ビジョン F-VLM(オープン語彙画像オブジェクト検出をサポート)をデプロイします。 Colab
モデルカード
tfhub / EfficientNetV2 Vision EfficientNetV2 画像分類モデルの TensorFlow Vision 実装をファインチューニングしてデプロイします。 Colab
モデルカード
EfficientNetV2(TIMM) ビジョン EfficientNetV2 画像分類モデルの PyTorch 実装をファインチューニングしてデプロイします。 Colab
モデルカード
Proprietary / EfficientNetV2 ビジョン EfficientNetV2 画像分類モデルの Google 独自のチェックポイントをファインチューニングしてデプロイします。 Colab
モデルカード
EfficientNetLite(MediaPipe) ビジョン MediaPipe モデルメーカーを使用して EfficientNetLite 画像分類モデルをファインチューニングします。 Colab
モデルカード
tfvision / vit ビジョン ViT 画像分類モデルの TensorFlow Vision 実装をファインチューニングしてデプロイします。 Colab
モデルカード
ViT(TIMM) ビジョン ViT 画像分類モデルの PyTorch 実装をファインチューニングしてデプロイします。 Colab
モデルカード
Proprietary / ViT ビジョン ViT 画像分類モデルの Google 独自のチェックポイントをファインチューニングしてデプロイします。 Colab
モデルカード
Proprietary / MaxViT ビジョン MaxViT ハイブリッド(CNN + ViT)画像分類モデルの Google 独自のチェックポイントをファインチューニングしてデプロイします。 Colab
モデルカード
ViT(JAX) ビジョン ViT 画像分類モデルの JAX 実装をファインチューニングしてデプロイします。 Colab
モデルカード
tfvision / SpineNet Vision SpineNet オブジェクト検出モデルの TensorFlow Vision 実装をファインチューニングしてデプロイします。 Colab
モデルカード
Proprietary / Spinenet ビジョン Spinenet オブジェクト検出モデルの Google 独自のチェックポイントをファインチューニングしてデプロイします。 Colab
モデルカード
tfvision / YOLO ビジョン YOLO の 1 ステージ オブジェクト検出モデルの TensorFlow Vision 実装をファインチューニングしてデプロイします。 Colab
モデルカード
Proprietary / YOLO ビジョン YOLO の 1 ステージ オブジェクト検出モデルの Google 独自のチェックポイントをファインチューニングしてデプロイします。 Colab
モデルカード
YOLOv8(Keras) ビジョン オブジェクト検出用の YOLOv8 モデルの Keras 実装をファインチューニングしてデプロイします。 Colab
モデルカード
tfvision / YOLOv7 ビジョン オブジェクト検出用の YOLOv7 モデルをファインチューニングしてデプロイします。 Colab
モデルカード
ByteTrack Video Object Tracking ビジョン ByteTrack トラッカーを使用して、動画オブジェクト トラッキングのバッチ予測を実行します。 Colab
モデルカード
ResNeSt(TIMM) ビジョン ResNeSt 画像分類モデルの PyTorch 実装をファインチューニングしてデプロイします。 Colab
モデルカード
ConvNeXt(TIMM) ビジョン ConvNeXt(Vision Transformers の設計にヒントを得た画像分類の純粋な畳み込みモデル)のファインチューニングとデプロイを行います。 Colab
モデルカード
CspNet(TIMM) ビジョン CSPNet(クロスステージ部分ネットワーク)画像分類モデルをファインチューニングしてデプロイします。 Colab
モデルカード
Inception(TIMM) ビジョン Inception 画像分類モデルをファインチューニングしてデプロイします。 Colab
モデルカード
DeepLabv3+(チェックポイントを使用) ビジョン セマンティック画像セグメンテーション用に DeepLab-v3 Plus モデルをファインチューニングしてデプロイします。 Colab
モデルカード
Faster R-CNN(Detectron2) ビジョン 画像オブジェクト検出の Faster R-CNN モデルの Detectron2 実装をファインチューニングしてデプロイします。 Colab
モデルカード
RetinaNet(Detectron2) ビジョン 画像オブジェクト検出用に RetinaNet モデルの Detectron2 実装をファインチューニングしてデプロイします。 Colab
モデルカード
Mask R-CNN(Detectron2) ビジョン 画像オブジェクト検出とセグメンテーションのための Mask R-CNN モデルの Detectron2 実装をファインチューニングしてデプロイします。 Colab
モデルカード
ControlNet ビジョン ControlNet のテキストからの画像の生成モデルをファインチューニングしてデプロイします。 Colab
モデルカード
MobileNet(TIMM) ビジョン MobileNet 画像分類モデルの PyTorch 実装をファインチューニングしてデプロイします。 Colab
モデルカード
MobileNetV2(MediaPipe)Image Classification ビジョン MediaPipe モデルメーカーを使用して MobileNetV2 画像分類モデルをファインチューニングします。 Colab
モデルカード
MobileNetV2(MediaPipe)Object Detection ビジョン MediaPipe モデルメーカーを使用して MobileNetV2 オブジェクト検出モデルをファインチューニングします。 Colab
モデルカード
MobileNet-MultiHW-AVG(MediaPipe) ビジョン MediaPipe モデルメーカーを使用して MobileNet-MultiHW-AVG オブジェクト検出モデルをファインチューニングします。 Colab
モデルカード
DeiT ビジョン 画像分類用の DeiT(Data-efficient Image Transformers)モデルをファインチューニングしてデプロイします。 Colab
モデルカード
BEiT ビジョン 画像分類用の BEiT(Bidirectional Encoder representation from Image Transformers)モデルをファインチューニングしてデプロイします。 Colab
モデルカード
Hand Gesture Recognition(MediaPipe) ビジョン MediaPipe を使用して、デバイス上で Hand Gesture Recognition モデルをファインチューニングしてデプロイします。 Colab
モデルカード
Average Word Embedding Classifier(MediaPipe) ビジョン MediaPipe を使用して Average Word Embedding Classifier モデルをデバイス上でファインチューニングしてデプロイします。 Colab
モデルカード
MobileBERT Classifier(MediaPipe) ビジョン MediaPipe を使用して、デバイス上で MobileBERT Classifier モデルをファインチューニングし、デプロイします。 Colab
モデルカード
MoViNet Video Clip Classification 動画 MoViNet の動画クリップ分類モデルをファインチューニングしてデプロイします。 Colab
モデルカード
MoViNet Video Action Recognition 動画 動作認識推論用の MoViNet モデルをファインチューニングしてデプロイします。 Colab
モデルカード
Stable Diffusion XL LCM ビジョン このモデルは Latent Consistency Model(LCM)を使用します。デプロイすると、より少ないステップで迅速かつ高品質の画像を作成できるため、潜在拡散モデルにおけるテキストから画像の生成が強化されます。 Colab
モデルカード
LLaVA 1.5 ビジョン、言語 LLaVA 1.5 モデルをデプロイします。 Colab
モデルカード
Pytorch-ZipNeRF ビジョン、動画 Pytorch-ZipNeRF モデルをトレーニングします。このモデルは、Pytorch フレームワークの ZipNeRF アルゴリズムの最先端の実装であり、2D 画像から効率的かつ正確に 3D を再構成するように設計されています。 Colab
モデルカード
Mixtral 言語 Mistral AI が開発した Mixture of Experts(MoE)大規模言語モデル(LLM)である Mixtral モデルをデプロイします。 モデルカード
Llama 2(量子化) 言語 Meta の Llama 2 モデルの量子化バージョンをファインチューニングしてデプロイします。 Colab
モデルカード
LaMa(Large Mask Inpainting) ビジョン Fast Fourier Convolution(FFC)、High Receptive Field Perceptual Loss、Large Training Masks を使用する LaMa をデプロイします。これにより、解像度の高い画像修復を行います。 Colab
モデルカード
AutoGluon 表形式 AutoGluon を使用すると、表形式データ用の高精度 ML モデルとディープ ラーニング モデルをトレーニングしてデプロイできます。 Colab
モデルカード
MaMMUT 言語、ビジョン マルチモーダル タスク(Visual Question Answering、画像テキスト検索、テキスト画像検索、マルチモーダル エンベディングの生成など)用のビジョン エンコーダとテキスト デコーダのアーキテクチャ。 Colab
モデルカード

Model Garden で利用できるパートナー モデルのリスト

一部のパートナー モデルは、Vertex AI Model Garden でマネージド API(Model as a Service)として提供されます。次の表に、Model Garden で Google パートナーから入手可能なモデルを示します。

モデル名 モダリティ 説明 クイックスタート
Anthropic の Claude 3.5 Sonnet v2 言語 アップグレードされた Claude 3.5 Sonnet は、現実世界のソフトウェア エンジニアリング タスクとエージェント機能向けの最先端のモデルです。Claude 3.5 Sonnet は、前のモデルと同じ価格とスピードでこれらの進歩を実現しています。 モデルカード
Anthropic の Claude 3.5 Haiku 言語 Anthropic の最も高速で費用対効果の高い次世代モデルである Claude 3.5 Haiku は、スピードと手頃な価格が重視されるユースケースに最適です。 モデルカード
Anthropic の Claude 3 Opus 言語 強力な AI モデルで、非常に複雑なタスクでもトップレベルのパフォーマンスを発揮します。自由形式のプロンプトや未知のシナリオを、きわめて流暢に、人間のような理解力でナビゲートできます。 モデルカード
Anthropic の Claude 3 Haiku 言語 Anthropic で最も高速なビジョンとテキストのモデルです。基本的なクエリにほぼ瞬時に応答し、人間のやり取りに近いシームレスな AI エクスペリエンスを実現します。 モデルカード
Anthropic の Claude 3.5 Sonnet 言語 Anthropic の Claude 3.5 Sonnet は、Anthropic の幅広い評価において Claude 3 Opus を上回っています。また、そのスピードと料金は Anthropic の中間モデルである Claude 3 Sonnet と同じです。 モデルカード
Jamba 1.5 Large(プレビュー 言語 AI21 Labs の Jamba 1.5 Large は、同サイズクラスの他のモデルと比較して、優れた品質のレスポンス、高いスループット、競争力のある価格を実現するように設計されています。 モデルカード
Jamba 1.5 Mini(プレビュー 言語 AI21 Labs の Jamba 1.5 Mini は、品質、スループット、低コストのバランスが取れています。 モデルカード
Llama 3.2(プレビュー 言語、ビジョン チャートやグラフの分析、画像キャプションなど、画像推論をサポートできる中規模の 90B マルチモーダル モデル。 モデルカード
Llama 3.1(プレビュー 言語 多言語の会話のユースケース用に最適化された多言語 LLM のコレクション。一般的な業界ベンチマークでは、利用可能なオープンソース チャットモデルやクローズド チャットモデルの多くを上回るパフォーマンスを発揮します。 モデルカード
Mistral Large(24.11) 言語 Mistral Large(24.11)は、推論機能と関数呼び出し機能が強化された Mistral Large(24.07)モデルの次バージョンです。 モデルカード
Mistral Large(24.07) 言語 Mistral Large(24.07)は、Mistral AI のテキスト生成用フラグシップ モデルです。最上位の推論機能を備え、テキストの理解、変換、コード生成などの複雑な多言語タスクに使用できます。 モデルカード
Mistral Nemo 言語 Mistral AI の最も費用対効果に優れた独自モデルです。Mistral Nemo の低レイテンシ ワークロードと、分類、カスタマー サポート、テキスト生成など、一括で実行できる基本的なタスクを使用します。 モデルカード
Codestral(25.01) コード Fill-In-the-Middle やコード補完などのコード生成用に設計された最先端のモデル。 モデルカード
Codestral(24.05) コード コード生成用に特別に設計され、最適化された生成モデル。Codestral(24.05)を使用して、高度な AI アプリケーションを設計できます。 モデルカード