Google の自社モデルのリスト
次の表に、Model Garden で利用できる Google の自社モデルを示します。
モデル名 | モダリティ | 説明 | クイックスタート |
---|---|---|---|
Gemini 1.5 Flash | 言語、音声、ビジョン | 最も高速で費用対効果の高い Gemini マルチモーダル モデル。大量のタスクや、レイテンシを重視する低価格のアプリケーション向けに構築されています。Gemini 1.5 Flash はレスポンスが速いため、チャット アシスタントやオンデマンド コンテンツ生成アプリケーションの作成に適しています。 | モデルカード |
Gemini 1.5 Pro | 言語、音声、ビジョン | テキスト レスポンスまたはコード レスポンス用のテキスト プロンプトまたはチャット プロンプトでの画像、音声、動画、PDF ファイルの追加をサポートするマルチモーダル モデル。 | モデルカード |
Gemini 1.0 Pro | 言語 | 自然言語タスク、マルチターン テキストとコードチャット、コード生成を処理するように設計されています。 | モデルカード |
Gemini 1.0 Pro Vision | 言語、ビジョン | テキスト レスポンスまたはコード レスポンス用のテキスト プロンプトまたはチャット プロンプトでの画像、動画、PDF ファイルの追加をサポートするマルチモーダル モデル。 | モデルカード |
テキスト用 PaLM 2 | 言語 | 自然言語による指示に対応できるよう微調整されていて、さまざまな言語タスクに適しています。 | モデルカード |
チャット用 PaLM 2 | 言語 | 自然な会話ができるよう微調整されています。このモデルは、独自の chatbot アプリケーションを構築してカスタマイズするために使用します。 | モデルカード |
コード補完用の Codey | 言語 | コード プロンプトに基づいてコードを生成します。コードの提案やコードのバグを最小限に抑えるうえで有効です。 | モデルカード |
コード生成用の Codey | 言語 | 自然言語の入力に基づいてコードを生成します。関数、クラス、単体テストなどの記述に適しています。 | モデルカード |
コードチャット用の Codey | 言語 | 自然な会話を通じてコード関連のサポートを受けることができます。API やサポートされている言語の構文などに関する質問に適しています。 | モデルカード |
テキストのエンベディング | 言語 | テキストデータを ML アルゴリズム(特に大規模なモデル)で処理できる数値ベクトルに変換します。 | モデルカード |
画像生成用の Imagen | Vision | テキスト プロンプトを使用して、高品質な画像を大規模に作成できます。このモデルを使用して画像をアップスケールすることもできます。 | モデルカード |
編集とカスタマイズ用の Imagen | Vision | ベース画像とテキスト プロンプト、または参照画像とテキスト プロンプトを使用して、少数ショット学習を編集するか、高品質な画像を大規模に作成します。 | モデルカード |
Vertex 画像セグメンテーション(プレビュー) | ビジョン | テキスト プロンプトを使用するか、フリーハンド機能で描画して画像をセグメント化します。画像セグメンテーションを使用すると、オブジェクトの検出、画像の背景の削除、画像の前景のセグメンテーションなどを行うことができます。 | モデルカード |
キャプションと VQA 用の Imagen | 言語 | 指定された画像に関連する説明を生成します。 | モデルカード |
マルチモーダルのエンベディング | ビジョン | 画像に基づいてベクトルを生成します。このベクトルは、画像分類や画像検索などのダウンストリーム タスクに使用できます。 | モデルカード |
Chirp | 音声 | 1 つのモデルで 20 億を超えるパラメータを持ち、100 を超える言語で音声文字変換が可能なユニバーサル音声モデルのバージョン。 | モデルカード |
Model Garden のオープンソース チューニングまたはサービス提供レシピを含むモデルのリスト
次の表に、Model Garden でオープンソースのチューニングまたはレシピの提供をサポートする OSS モデルを示します。
モデル名 | モダリティ | 説明 | クイックスタート |
---|---|---|---|
Llama 3.3 | 言語 | Meta Llama 3.3 多言語大規模言語モデル(LLM)は、70B の事前トレーニング済みかつ指示用にチューニングされた生成モデル(テキスト入力/テキスト出力)です。 | モデルカード |
Flux | ビジョン | テキストの説明から高品質の画像を生成する 120 億のパラメータ修正フロー トランスフォーマー モデル。 | モデルカード |
プロンプト ガード | 言語 | ジェイルブレイク手法と間接インジェクションから LLM 入力を保護します。 | モデルカード |
Llama 3.2 | 言語 | 1B と 3B の事前トレーニング済みで指示用にチューニングされた生成モデルである、多言語大規模言語モデルのコレクション。 | モデルカード |
Llama 3.2-Vision | 言語、ビジョン | 11B と 90B の事前トレーニング済みで指示用にチューニングされた画像推論生成モデルである、マルチモーダル大規模言語モデルのコレクション。これらのモデルは、画像認識、画像推論、キャプション、画像に関する一般的な質問への回答用に最適化されています。 | モデルカード |
Llama Guard 3 | 言語 | コンテンツの安全性分類用にファインチューニングされた Llama-3.1-8B 事前トレーニング済みモデル。 | モデルカード |
Qwen2 | 言語 | 大規模言語モデルの基盤モデルシリーズである Qwen2 をデプロイします。 | Colab モデルカード |
Phi-3 | 言語 | 大規模言語モデルの基盤モデルシリーズである Phi-3 をデプロイします。 | Colab モデルカード |
E5 | 言語 | E5(テキスト エンベディング モデル シリーズ)をデプロイします。 | Colab モデルカード |
Instant ID | 言語、ビジョン | Instant ID をデプロイします。これは、ID を保持するテキストから画像の生成モデルです。 | Colab モデルカード |
Llama 3 | 言語 | Vertex AI で Meta の Llama 3 モデル(8B、70B、405B)を使用して、モデルの探索と構築を行います。 | モデルカード |
Gemma 2 | 言語 | Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されたオープン ウェイト モデル(9B、27B)。 | モデルカード |
Gemma | 言語 | Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されたオープン ウェイト モデル(2B、7B)。 | モデルカード |
CodeGemma | 言語 | コードの生成と補完用に設計されたオープン ウェイト モデル(2B、7B)。Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されています。 | モデルカード |
PaliGemma | 言語 | 画像キャプション タスク、画像に関する質問応答タスク用に設計されたオープン ウェイトの 3B モデル。Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されています。 | モデルカード |
Vicuna v1.5 | 言語 | LLama2 からテキスト生成のためにファインチューニングされた基盤モデルである Vicuna v1.5 シリーズモデルをデプロイします。 | モデルカード |
NLLB | 言語 | 多言語翻訳用の NLLB シリーズモデルをデプロイします。 | モデルカード Colab |
Mistral-7B | 言語 | テキスト生成の基盤モデルである Mistral-7B をデプロイします。 | モデルカード |
BioGPT | 言語 | 生物医学分野向けのテキスト生成モデル BioGPT をデプロイします。 | モデルカード Colab |
BiomedCLIP | 言語、ビジョン | 生物医学分野向けのマルチモーダル基盤モデルである BiomedCLIP をデプロイします。 | モデルカード Colab |
ImageBind | 言語、ビジョン、 音声 |
マルチモーダル エンベディングの基盤モデルである ImageBind をデプロイします。 | モデルカード Colab |
DITO | 言語、ビジョン | DITO(オープンな語彙オブジェクト検出タスクのためのマルチモーダル基盤モデル)をファインチューニングしてデプロイします。 | モデルカード Colab |
OWL-ViT v2 | 言語、ビジョン | OWL-ViT v2(オープン語彙オブジェクト検出タスク用のマルチモーダル基盤モデル)をデプロイします。 | モデルカード Colab |
FaceStylizer(Mediapipe) | ビジョン | 人の顔の画像を新しいスタイルに変換する生成パイプライン。 | モデルカード Colab |
Llama 2 | 言語 | Meta の Llama 2 基盤モデル(7B、13B、70B)をファインチューニングして Vertex AI にデプロイします。 | モデルカード |
Code Llama | 言語 | Meta の Code Llama 基盤モデル(7B、13B、34B)を Vertex AI にデプロイします。 | モデルカード |
Falcon-instruct | 言語 | PEFT を使用して Falcon-instruct のモデル(7B、40B)をファインチューニングしてデプロイします。 | Colab モデルカード |
OpenLLaMA | 言語 | PEFT を使用して OpenLLaMA モデル(3B、7B、13B)をファインチューニングしてデプロイします。 | Colab モデルカード |
T5-FLAN | 言語 | T5-FLAN(ベース、小、大)をファインチューニングしてデプロイします。 | モデルカード(ファインチューニング パイプラインを含む) |
BERT | 言語 | PEFT を使用して BERT をファインチューニングしてデプロイします。 | Colab モデルカード |
BART-large-cnn | 言語 | 双方向(BERT-like)のエンコーダと自己回帰(GPT-like)デコーダを備えた Transformer Encoder-Encoder(seq2seq)モデルである BART をデプロイします。 | Colab モデルカード |
RoBERTa-large | 言語 | PEFT を使用して RoBERTa-large をファインチューニングしてデプロイします。 | Colab モデルカード |
XLM-RoBERTa-large | 言語 | PEFT を使用して XLM-RoBERTa-large(RoBERTa の多言語バージョン)をファインチューニングしてデプロイします。 | Colab モデルカード |
Dolly-v2-7b | 言語 | Dolly-v2-7b(69 億個のパラメータを備えた指示実行型大規模言語モデル)をデプロイします。 | Colab モデルカード |
Stable Diffusion XL v1.0 | 言語、ビジョン | テキストからの画像の生成をサポートする Stable Diffusion XL v1.0 をデプロイします。 | Colab モデルカード |
Stable Diffusion XL Lightning | 言語、ビジョン | Stable Diffusion XL Lightning(テキストから画像の生成モデル)をデプロイします。 | Colab モデルカード |
Stable Diffusion v2.1 | 言語、ビジョン | Dreambooth を使用して Stable Diffusion v2.1(テキストから画像の生成をサポート)の微調整とデプロイを行います。 | Colab モデルカード |
Stable Diffusion 4x アップスケーラー | 言語、ビジョン | Stable Diffusion 4x アップスケーラー(テキスト条件の画像スーパー解像度をサポート)をデプロイする。 | Colab モデルカード |
InstructPix2Pix | 言語、ビジョン | InstructPix2Pix(テキスト プロンプトを使用した画像の編集をサポート)をデプロイします。 | Colab モデルカード |
Stable Diffusion Inpainting | 言語、ビジョン | Stable Diffusion Inpainting(テキスト プロンプトを使用してマスクされた画像の描画をサポート)をファインチューニングしてデプロイします。 | Colab モデルカード |
SAM | 言語、ビジョン | Segment Anything(ゼロショット画像セグメンテーションをサポート)をデプロイします。 | Colab モデルカード |
Text-to-video(ModelScope) | 言語、ビジョン | ModelScope の text-to-video(テキストから動画の生成をサポート)をデプロイします。 | Colab モデルカード |
Pic2Word Composed Image Retrieval | 言語、ビジョン | Pic2Word(マルチモーダルな合成画像の取得をサポート)をデプロイします。 | Colab モデルカード |
BLIP2 | 言語、ビジョン | BLIP2(画像のキャプションと視覚的な質問応答をサポート)をデプロイします。 | Colab モデルカード |
Open-CLIP | 言語、ビジョン | Open-CLIP(ゼロショット分類をサポート)を微調整してデプロイします。 | Colab モデルカード |
F-VLM | 言語、ビジョン | F-VLM(オープン語彙画像オブジェクト検出をサポート)をデプロイします。 | Colab モデルカード |
tfhub / EfficientNetV2 | Vision | EfficientNetV2 画像分類モデルの TensorFlow Vision 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
EfficientNetV2(TIMM) | ビジョン | EfficientNetV2 画像分類モデルの PyTorch 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
Proprietary / EfficientNetV2 | ビジョン | EfficientNetV2 画像分類モデルの Google 独自のチェックポイントをファインチューニングしてデプロイします。 | Colab モデルカード |
EfficientNetLite(MediaPipe) | ビジョン | MediaPipe モデルメーカーを使用して EfficientNetLite 画像分類モデルをファインチューニングします。 | Colab モデルカード |
tfvision / vit | ビジョン | ViT 画像分類モデルの TensorFlow Vision 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
ViT(TIMM) | ビジョン | ViT 画像分類モデルの PyTorch 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
Proprietary / ViT | ビジョン | ViT 画像分類モデルの Google 独自のチェックポイントをファインチューニングしてデプロイします。 | Colab モデルカード |
Proprietary / MaxViT | ビジョン | MaxViT ハイブリッド(CNN + ViT)画像分類モデルの Google 独自のチェックポイントをファインチューニングしてデプロイします。 | Colab モデルカード |
ViT(JAX) | ビジョン | ViT 画像分類モデルの JAX 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
tfvision / SpineNet | Vision | SpineNet オブジェクト検出モデルの TensorFlow Vision 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
Proprietary / Spinenet | ビジョン | Spinenet オブジェクト検出モデルの Google 独自のチェックポイントをファインチューニングしてデプロイします。 | Colab モデルカード |
tfvision / YOLO | ビジョン | YOLO の 1 ステージ オブジェクト検出モデルの TensorFlow Vision 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
Proprietary / YOLO | ビジョン | YOLO の 1 ステージ オブジェクト検出モデルの Google 独自のチェックポイントをファインチューニングしてデプロイします。 | Colab モデルカード |
YOLOv8(Keras) | ビジョン | オブジェクト検出用の YOLOv8 モデルの Keras 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
tfvision / YOLOv7 | ビジョン | オブジェクト検出用の YOLOv7 モデルをファインチューニングしてデプロイします。 | Colab モデルカード |
ByteTrack Video Object Tracking | ビジョン | ByteTrack トラッカーを使用して、動画オブジェクト トラッキングのバッチ予測を実行します。 | Colab モデルカード |
ResNeSt(TIMM) | ビジョン | ResNeSt 画像分類モデルの PyTorch 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
ConvNeXt(TIMM) | ビジョン | ConvNeXt(Vision Transformers の設計にヒントを得た画像分類の純粋な畳み込みモデル)のファインチューニングとデプロイを行います。 | Colab モデルカード |
CspNet(TIMM) | ビジョン | CSPNet(クロスステージ部分ネットワーク)画像分類モデルをファインチューニングしてデプロイします。 | Colab モデルカード |
Inception(TIMM) | ビジョン | Inception 画像分類モデルをファインチューニングしてデプロイします。 | Colab モデルカード |
DeepLabv3+(チェックポイントを使用) | ビジョン | セマンティック画像セグメンテーション用に DeepLab-v3 Plus モデルをファインチューニングしてデプロイします。 | Colab モデルカード |
Faster R-CNN(Detectron2) | ビジョン | 画像オブジェクト検出の Faster R-CNN モデルの Detectron2 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
RetinaNet(Detectron2) | ビジョン | 画像オブジェクト検出用に RetinaNet モデルの Detectron2 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
Mask R-CNN(Detectron2) | ビジョン | 画像オブジェクト検出とセグメンテーションのための Mask R-CNN モデルの Detectron2 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
ControlNet | ビジョン | ControlNet のテキストからの画像の生成モデルをファインチューニングしてデプロイします。 | Colab モデルカード |
MobileNet(TIMM) | ビジョン | MobileNet 画像分類モデルの PyTorch 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
MobileNetV2(MediaPipe)Image Classification | ビジョン | MediaPipe モデルメーカーを使用して MobileNetV2 画像分類モデルをファインチューニングします。 | Colab モデルカード |
MobileNetV2(MediaPipe)Object Detection | ビジョン | MediaPipe モデルメーカーを使用して MobileNetV2 オブジェクト検出モデルをファインチューニングします。 | Colab モデルカード |
MobileNet-MultiHW-AVG(MediaPipe) | ビジョン | MediaPipe モデルメーカーを使用して MobileNet-MultiHW-AVG オブジェクト検出モデルをファインチューニングします。 | Colab モデルカード |
DeiT | ビジョン | 画像分類用の DeiT(Data-efficient Image Transformers)モデルをファインチューニングしてデプロイします。 | Colab モデルカード |
BEiT | ビジョン | 画像分類用の BEiT(Bidirectional Encoder representation from Image Transformers)モデルをファインチューニングしてデプロイします。 | Colab モデルカード |
Hand Gesture Recognition(MediaPipe) | ビジョン | MediaPipe を使用して、デバイス上で Hand Gesture Recognition モデルをファインチューニングしてデプロイします。 | Colab モデルカード |
Average Word Embedding Classifier(MediaPipe) | ビジョン | MediaPipe を使用して Average Word Embedding Classifier モデルをデバイス上でファインチューニングしてデプロイします。 | Colab モデルカード |
MobileBERT Classifier(MediaPipe) | ビジョン | MediaPipe を使用して、デバイス上で MobileBERT Classifier モデルをファインチューニングし、デプロイします。 | Colab モデルカード |
MoViNet Video Clip Classification | 動画 | MoViNet の動画クリップ分類モデルをファインチューニングしてデプロイします。 | Colab モデルカード |
MoViNet Video Action Recognition | 動画 | 動作認識推論用の MoViNet モデルをファインチューニングしてデプロイします。 | Colab モデルカード |
Stable Diffusion XL LCM | ビジョン | このモデルは Latent Consistency Model(LCM)を使用します。デプロイすると、より少ないステップで迅速かつ高品質の画像を作成できるため、潜在拡散モデルにおけるテキストから画像の生成が強化されます。 | Colab モデルカード |
LLaVA 1.5 | ビジョン、言語 | LLaVA 1.5 モデルをデプロイします。 | Colab モデルカード |
Pytorch-ZipNeRF | ビジョン、動画 | Pytorch-ZipNeRF モデルをトレーニングします。このモデルは、Pytorch フレームワークの ZipNeRF アルゴリズムの最先端の実装であり、2D 画像から効率的かつ正確に 3D を再構成するように設計されています。 | Colab モデルカード |
Mixtral | 言語 | Mistral AI が開発した Mixture of Experts(MoE)大規模言語モデル(LLM)である Mixtral モデルをデプロイします。 | モデルカード |
Llama 2(量子化) | 言語 | Meta の Llama 2 モデルの量子化バージョンをファインチューニングしてデプロイします。 | Colab モデルカード |
LaMa(Large Mask Inpainting) | ビジョン | Fast Fourier Convolution(FFC)、High Receptive Field Perceptual Loss、Large Training Masks を使用する LaMa をデプロイします。これにより、解像度の高い画像修復を行います。 | Colab モデルカード |
AutoGluon | 表形式 | AutoGluon を使用すると、表形式データ用の高精度 ML モデルとディープ ラーニング モデルをトレーニングしてデプロイできます。 | Colab モデルカード |
MaMMUT | 言語、ビジョン | マルチモーダル タスク(Visual Question Answering、画像テキスト検索、テキスト画像検索、マルチモーダル エンベディングの生成など)用のビジョン エンコーダとテキスト デコーダのアーキテクチャ。 | Colab モデルカード |
Model Garden で利用できるパートナー モデルのリスト
一部のパートナー モデルは、Vertex AI Model Garden でマネージド API(Model as a Service)として提供されます。次の表に、Model Garden で Google パートナーから入手可能なモデルを示します。
モデル名 | モダリティ | 説明 | クイックスタート |
---|---|---|---|
Anthropic の Claude 3.5 Sonnet v2 | 言語 | アップグレードされた Claude 3.5 Sonnet は、現実世界のソフトウェア エンジニアリング タスクとエージェント機能向けの最先端のモデルです。Claude 3.5 Sonnet は、前のモデルと同じ価格とスピードでこれらの進歩を実現しています。 | モデルカード |
Anthropic の Claude 3.5 Haiku | 言語 | Anthropic の最も高速で費用対効果の高い次世代モデルである Claude 3.5 Haiku は、スピードと手頃な価格が重視されるユースケースに最適です。 | モデルカード |
Anthropic の Claude 3 Opus | 言語 | 強力な AI モデルで、非常に複雑なタスクでもトップレベルのパフォーマンスを発揮します。自由形式のプロンプトや未知のシナリオを、きわめて流暢に、人間のような理解力でナビゲートできます。 | モデルカード |
Anthropic の Claude 3 Haiku | 言語 | Anthropic で最も高速なビジョンとテキストのモデルです。基本的なクエリにほぼ瞬時に応答し、人間のやり取りに近いシームレスな AI エクスペリエンスを実現します。 | モデルカード |
Anthropic の Claude 3.5 Sonnet | 言語 | Anthropic の Claude 3.5 Sonnet は、Anthropic の幅広い評価において Claude 3 Opus を上回っています。また、そのスピードと料金は Anthropic の中間モデルである Claude 3 Sonnet と同じです。 | モデルカード |
Jamba 1.5 Large(プレビュー) | 言語 | AI21 Labs の Jamba 1.5 Large は、同サイズクラスの他のモデルと比較して、優れた品質のレスポンス、高いスループット、競争力のある価格を実現するように設計されています。 | モデルカード |
Jamba 1.5 Mini(プレビュー) | 言語 | AI21 Labs の Jamba 1.5 Mini は、品質、スループット、低コストのバランスが取れています。 | モデルカード |
Llama 3.2(プレビュー) | 言語、ビジョン | チャートやグラフの分析、画像キャプションなど、画像推論をサポートできる中規模の 90B マルチモーダル モデル。 | モデルカード |
Llama 3.1(プレビュー) | 言語 | 多言語の会話のユースケース用に最適化された多言語 LLM のコレクション。一般的な業界ベンチマークでは、利用可能なオープンソース チャットモデルやクローズド チャットモデルの多くを上回るパフォーマンスを発揮します。 | モデルカード |
Mistral Large(24.11) | 言語 | Mistral Large(24.11)は、推論機能と関数呼び出し機能が強化された Mistral Large(24.07)モデルの次バージョンです。 | モデルカード |
Mistral Large(24.07) | 言語 | Mistral Large(24.07)は、Mistral AI のテキスト生成用フラグシップ モデルです。最上位の推論機能を備え、テキストの理解、変換、コード生成などの複雑な多言語タスクに使用できます。 | モデルカード |
Mistral Nemo | 言語 | Mistral AI の最も費用対効果に優れた独自モデルです。Mistral Nemo の低レイテンシ ワークロードと、分類、カスタマー サポート、テキスト生成など、一括で実行できる基本的なタスクを使用します。 | モデルカード |
Codestral(25.01) | コード | Fill-In-the-Middle やコード補完などのコード生成用に設計された最先端のモデル。 | モデルカード |
Codestral(24.05) | コード | コード生成用に特別に設計され、最適化された生成モデル。Codestral(24.05)を使用して、高度な AI アプリケーションを設計できます。 | モデルカード |