セルフデプロイされた Llama モデル

Llama は、Meta が開発したオープンモデルのコレクションです。このモデルは、Vertex AI でファインチューニングとデプロイを行うことができます。Llama は、事前トレーニング済みで指示用にチューニングされた生成テキストモデルとマルチモーダルモデルを提供します。

Llama 4

Llama 4 ファミリーのモデルは、Mixture-of-Experts（MoE）アーキテクチャを使用したマルチモーダルモデルのコレクションです。MoE アーキテクチャを使用することで、パラメータ数が非常に多いモデルでも、入力ごとにその一部のパラメータだけを活性化させることができ、より効率的な推論が可能になります。また、Llama 4 は早期融合を採用しており、テキスト情報と視覚情報を初期処理段階から統合します。この方法により、Llama 4 モデルはテキストと画像の間の複雑で微妙な関係をより効果的に把握できます。Vertex AI の Model Garden には、Llama 4 Scout と Llama 4 Maverick の 2 つの Llama 4 モデルがあります。

詳細については、Model Garden の Llama 4 モデルカードをご覧ください。または、ブログ投稿 Introducing Llama 4 on Vertex AI をお読みください。

Llama 4 Maverick

Llama 4 Maverick は Llama 4 モデルの中で最大かつ最高性能のモデルで、コーディング、推論、画像ベンチマークにおいて業界トップレベルの性能を備えています。このモデルは総パラメータ数 4,000 億のうち、アクティブになるパラメータは 170 億で、128 のエキスパートを持ちます。高密度レイヤと MoE レイヤを交互に配置しており、各トークンは共有エキスパート 1 つと 128 のルーティングされたエキスパートから 1 つをアクティブにします。このモデルは事前トレーニング済み（PT）モデルとしても指示調整済みモデル（IT）としても利用でき、FP8 に対応しています。また、200 言語で事前トレーニングされ、洗練されたトレーニング後のパイプラインを通じて高品質のチャットインタラクションを実現するように最適化されています。

Llama 4 Maverick はマルチモーダル対応で、コンテキストの長さは 100 万です。高度な画像キャプション生成、分析、正確な画像理解、画像に基づく Q&A、創造的なテキスト生成、汎用 AI アシスタント、最高レベルのインテリジェンスと画像理解を必要とする高度なチャットボットに適しています。

Llama 4 Scout

Llama 4 Scout は同サイズ帯のモデルとして最先端の結果を出しており、1,000 万トークンの長大なコンテキストウィンドウを備えています。これにより、これまでの Llama 世代や他のオープンモデル、商用モデルを複数のベンチマークで上回っています。総パラメータ数 1,090 億のうち 170 億が実際にアクティブで、16 のエキスパートを持ちます。また、事前トレーニング済み（PT）モデルと指示調整済み（IT）モデルの両方が利用可能です。Llama 4 Scout は、長大なコンテキスト内での検索タスクや、大量の情報を推論しながら扱うタスクに向いています。具体的には、複数の大規模なドキュメントの要約、パーソナライズのための広範なユーザーインタラクションログの分析、大規模なコードベース全体をまたいだ推論などに適しています。

Llama 3.3

Llama 3.3 は、テキストのみの 70B 指示用にチューニングされたモデルです。テキストのみのアプリケーションに使用すると、Llama 3.1 70B と Llama 3.2 90B と比較してパフォーマンスが向上します。また、一部のアプリケーションでは、Llama 3.3 70B のパフォーマンスが Llama 3.1 405B に近づきます。

詳細については、Model Garden の Llama 3.3 モデルカードをご覧ください。

Llama 3.2

Llama 3.2 を使用すると、デベロッパーは最新の生成 AI モデルとアプリケーションを構築してデプロイできます。Llama の機能を使用して、画像推論などの新しいイノベーションを促進できます。Llama 3.2 は、オンデバイスアプリケーションでよりアクセスしやすくなるように設計されています。次のリストは、Llama 3.2 の機能をまとめたものです。

小規模なモデルをデバイス上で処理することで、よりプライバシーに配慮したパーソナライズされた AI エクスペリエンスを提供します。
レイテンシを短縮し、パフォーマンスを向上させ、幅広いアプリケーションに適した、より効率的なモデルを提供します。
Llama Stack 上に構築されているため、アプリケーションの構築とデプロイが容易です。Llama Stack は、標準的なツールチェーンコンポーネントとエージェントアプリケーションを構築するための標準化されたインターフェースです。
画像エンコーダ表現を言語モデルに統合する新しいモデルアーキテクチャにより、ビジョンタスクをサポートします。

1B モデルと 3B モデルは、多言語ローカル知識の検索、要約、書き換えなど、デバイス上のユースケースをサポートする軽量のテキストのみのモデルです。

Llama 11B モデルと 90B モデルは、画像推論を備えた小規模および中規模のマルチモーダルモデルです。たとえば、チャートから視覚データを分析したより正確な回答の提供や、画像から詳細を抽出したテキストの説明の生成ができます。

詳細については、Model Garden の Llama 3.2 モデルカードをご覧ください。

考慮事項

11B と 90B を使用する場合、テキストのみのプロンプトを送信する際の制限はありません。ただし、プロンプトに画像を含める場合は、画像をプロンプトの先頭に配置する必要があります。また、画像は 1 つだけ含めることができます。テキストと画像を交互に配置することはできません。

Llama 3.1

多言語大規模言語モデル（LLM）の Llama 3.1 コレクションは、8B、70B、405B のサイズ（テキスト入力 / テキスト出力）の事前トレーニング済みモデルと指示用にチューニングされた生成モデルのコレクションです。Llama 3.1 の指示用にチューニングされたテキストのみのモデル（8B、70B、405B）は、多言語の会話のユースケース用に最適化されています。一般的な業界ベンチマークでは、利用可能なオープンソースチャットモデルやクローズドチャットモデルの多くを上回るパフォーマンスを発揮します。

詳細については、Model Garden の Llama 3.1 モデルカードをご覧ください。

Llama 3

Llama 3 の指示用にチューニングされたモデルは、会話のユースケース用に最適化された LLM のコレクションです。Llama 3 モデルは、一般的な業界ベンチマークで、利用可能なオープンソースチャットモデルの多くよりも優れたパフォーマンスを発揮しています。

詳細については、Model Garden の Llama 3 モデルカードをご覧ください。

Llama 2

Llama 2 LLM は、事前トレーニング済みかつファインチューニング済みの生成テキストモデルのコレクションで、7B～70B のパラメータを使用します。

詳細については、Model Garden の Llama 2 モデルカードをご覧ください。

Code Llama

Meta の Code Llama モデルは、コードの合成、理解、命令を目的として設計されています。

詳細については、Model Garden の Code Llama モデルカードをご覧ください。

Llama Guard 3

Llama Guard 3 は Llama Guard 2 の機能に基づいて構築されており、名誉毀損、選挙、コードインタープリタの不正使用の 3 つの新しいカテゴリが追加されています。また、このモデルは多言語対応で、Llama 3 以降の指示モデルと一致するプロンプト形式を備えています。

詳細については、Model Garden の Llama Guard モデルカードをご覧ください。

リソース

Model Garden の詳細については、Model Garden で AI モデルを確認するをご覧ください。