このページは Cloud Translation API によって翻訳されました。

Llama 予測をリクエストする

curl コマンドを使用すると、次のモデル名を使用して Vertex AI エンドポイントにリクエストを送信できます。

Llama 4 Maverick 17B-128E の場合は llama-4-maverick-17b-128e-instruct-maas を使用します。
Llama 4 Scout 17B-16E の場合は llama-4-scout-17b-16e-instruct-maas を使用します。
Llama 3.3 70B の場合は llama-3.3-70b-instruct-maas を使用します。
Llama 3.2 90B の場合は llama-3.2-90b-vision-instruct-maas を使用します。
Llama 3.1 405B の場合は llama-3.1-405b-instruct-maas を使用します。
Llama 3.1 70B の場合は llama-3.1-70b-instruct-maas を使用します。
Llama 3.1 8B の場合は llama-3.1-8b-instruct-maas を使用します。

Llama モデルにストリーミング呼び出しと非ストリーミング呼び出しを行う方法については、オープンモデルの MaaS API を呼び出すをご覧ください。

始める前に

Vertex AI で Llama モデルを使用するには、次の操作を行う必要があります。Vertex AI を使用するには、Vertex AI API（aiplatform.googleapis.com）を有効にする必要があります。既存のプロジェクトで Vertex AI API が有効になっている場合は、新しいプロジェクトを作成する代わりに、そのプロジェクトを使用できます。

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Roles required to select or create a project

Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

Go to project selector

Verify that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Roles required to enable APIs

To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

Enable the API

次のいずれかの Model Garden モデルカードに移動し、[有効にする] をクリックします。

Llama モデルにストリーミング呼び出しを行う

次のサンプルでは、Llama モデルに対してストリーミング呼び出しを行います。

REST

環境をセットアップしたら、REST を使用してテキストプロンプトをテストできます。次のサンプルは、パブリッシャーモデルのエンドポイントにリクエストを送信します。

リクエストのデータを使用する前に、次のように置き換えます。

LOCATION: Llama モデルをサポートするリージョン。
MODEL: 使用するモデル名。
ROLE: メッセージに関連付けられたロール。user または assistant を指定できます。最初のメッセージでは、user ロールを使用する必要があります。Claude モデルは user と assistant のターンを交互に操作します。最後のメッセージが assistant ロールを使用する場合、そのメッセージのコンテンツの直後にレスポンスコンテンツが続きます。これを使用して、モデルのレスポンスの一部を制限できます。
CONTENT: user または assistant のメッセージの内容（テキストなど）。
MAX_OUTPUT_TOKENS: レスポンスで生成できるトークンの最大数。1 トークンは約 4 文字です。100 トークンは約 60～80 語に相当します。
レスポンスを短くしたい場合は小さい値を、長くしたい場合は大きい値を指定します。
STREAM: レスポンスがストリーミングされるかどうかを指定するブール値。レスポンスのストリーミングを行うことで、エンドユーザーが認識するレイテンシを短縮できます。レスポンスをストリーミングする場合は true、すべてのレスポンスを一度に戻すには false に設定します。
ENABLE_LLAMA_GUARD: 入力と出力で Llama Guard を有効にするかどうかを指定するブール値。デフォルトでは、Llama Guard が有効になり、安全でないことが判断されたレスポンスにフラグが付けられます。

HTTP メソッドと URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

リクエストの本文（JSON）:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": true,
  "extra_body": {
    "google": {
      "model_safety_settings": {
        "enabled": ENABLE_LLAMA_GUARD,
        "llama_guard_settings": {}
      }
    }
  }
}

リクエストを送信するには、次のいずれかのオプションを選択します。

curl

注: 次のコマンドは、gcloud init または gcloud auth login を実行して、ユーザーアカウントで gcloud CLI にログインしているか、Cloud Shell を使用して自動的に gcloud CLI にログインしていることを前提としています。gcloud auth list を実行すると、現在アクティブなアカウントを確認できます。

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

注: 次のコマンドは、gcloud init または gcloud auth login を実行して、ご自分のユーザーアカウントで gcloud CLI にログインしていることを前提としています。gcloud auth list を実行すると、現在アクティブなアカウントを確認できます。

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

次のような JSON レスポンスが返されます。

レスポンス

data: {
  "choices": [
    {
      "delta": {
        "content": "CONTENT",
        "role": "assistant",
        "refusal: "REFUSAL_REASON" #If using Llama Guard and response was flagged by Llama Guard
      },
      "index": 0
    }
  ],
  "model": "meta/MODEL_NAME",
  "object": "chat.completion.chunk"
}

data: {
  "choices": [
    {
      "delta": {
        "content": "CONTENT",
        "role": "assistant"
      },
      "finish_reason": "stop",
      "index": 0
    }
  ],
  "model": "meta/MODEL_NAME",
  "object": "chat.completion.chunk",
  "usage": {
    "completion_tokens": 131,
    "prompt_tokens": 14,
    "total_tokens": 145
  }
}

Llama モデルに単一呼び出しを行う

次のサンプルでは、Llama モデルに対して単一呼び出しを行います。

REST

リクエストのデータを使用する前に、次のように置き換えます。

LOCATION: Llama モデルをサポートするリージョン。
MODEL: 使用するモデル名。
ROLE: メッセージに関連付けられたロール。user または assistant を指定できます。最初のメッセージでは、user ロールを使用する必要があります。Claude モデルは user と assistant のターンを交互に操作します。最後のメッセージが assistant ロールを使用する場合、そのメッセージのコンテンツの直後にレスポンスコンテンツが続きます。これを使用して、モデルのレスポンスの一部を制限できます。
CONTENT: user または assistant のメッセージの内容（テキストなど）。
MAX_OUTPUT_TOKENS: レスポンスで生成できるトークンの最大数。1 トークンは約 4 文字です。100 トークンは約 60～80 語に相当します。
レスポンスを短くしたい場合は小さい値を、長くしたい場合は大きい値を指定します。
STREAM: レスポンスがストリーミングされるかどうかを指定するブール値。レスポンスのストリーミングを行うことで、エンドユーザーが認識するレイテンシを短縮できます。レスポンスをストリーミングする場合は true、すべてのレスポンスを一度に戻すには false に設定します。
ENABLE_LLAMA_GUARD: 入力と出力で Llama Guard を有効にするかどうかを指定するブール値。デフォルトでは、Llama Guard が有効になり、安全でないことが判断されたレスポンスにフラグが付けられます。

HTTP メソッドと URL:

POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

リクエストの本文（JSON）:

{
  "model": "meta/MODEL",
  "messages": [
    {
      "role": "ROLE",
      "content": "CONTENT"
    }
  ],
  "max_tokens": MAX_OUTPUT_TOKENS,
  "stream": false,
  "extra_body": {
    "google": {
      "model_safety_settings": {
        "enabled": ENABLE_LLAMA_GUARD,
        "llama_guard_settings": {}
      }
    }
  }
}

リクエストを送信するには、次のいずれかのオプションを選択します。

curl

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

PowerShell

リクエスト本文を request.json という名前のファイルに保存して、次のコマンドを実行します。

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

次のような JSON レスポンスが返されます。

回答

{
  "choices": [
    {
      "finish_reason": "stop",
      "index": 0,
      "message": {
        "content": "CONTENT",
        "role": "assistant",
        "refusal: "REFUSAL_REASON" #If using Llama Guard and response was flagged by Llama Guard
      }
    }
  ],
  "model": "meta/llama3-405b-instruct-maas",
  "object": "chat.completion",
  "usage": {
    "completion_tokens": 367,
    "prompt_tokens": 14,
    "total_tokens": 381
  }
}

フラグの付いた回答

デフォルトでは、Llama 3.3 モデルと Llama 3.1 モデルで行うすべての予測で Llama Guard 3 8B が有効になります。デフォルトでは、Llama 3.2 モデルで行うすべての予測で Llama Guard 3 11B ビジョンが有効になります。Llama Guard は、入力と出力をチェックすることでレスポンスを保護します。Llama Guard が安全でないと判断した場合は、レスポンスにフラグが付けられます。

Llama Guard を無効にするには、モデルの安全性設定を変更します。詳細については、ストリーミングまたは単項の例の model_safety_settings フィールドをご覧ください。

Vertex AI Studio を使用する

Llama モデルの場合、 Google Cloud コンソールで Vertex AI Studio を使用して、生成 AI モデルのプロトタイプを迅速に作成してテストできます。たとえば、Vertex AI Studio を使用して、Llama モデルのレスポンスを、Google の Gemini など、サポートされている他のモデルと比較できます。

詳細については、クイックスタート: Vertex AI Studio を使用して Gemini にテキストプロンプトを送信するをご覧ください。

Llama モデルで利用可能なリージョンと割り当て

Llama モデルの場合、モデルが使用可能なリージョンごとに割り当てが適用されます。割り当ては、1 分あたりのクエリ数（QPM）で指定されます。

モデル	リージョン	割り当て	コンテキストの長さ
Llama 4 Maverick 17B-128E
Llama 4 Maverick 17B-128E	`us-east5`		524,288
Llama 4 Scout 17B-16E
Llama 4 Scout 17B-16E	`us-east5`		1,310,720
Llama 3.3 70B
Llama 3.3 70B	`us-central1`	QPM: 100	128,000
Llama 3.2 90B
Llama 3.2 90B	`us-central1`	QPM: 30	128,000
Llama 3.1 405B
Llama 3.1 405B	`us-central1`	QPM: 60	128,000
Llama 3.1 70B
Llama 3.1 70B	`us-central1`	QPM: 60	128,000
Llama 3.1 8B
Llama 3.1 8B	`us-central1`	QPM: 60	128,000

Vertex AI の生成 AI の割り当てを引き上げる場合は、 Google Cloud コンソールで割り当ての引き上げをリクエストできます。割り当ての詳細については、Cloud Quotas の概要をご覧ください。