AI21 Labs 模型

Vertex AI 上的 AI21 Labs 模型以 API 形式提供全托管式无服务器模型。如需使用 Vertex AI 上的 AI21 Labs 模型，请直接向 Vertex AI API 端点发送请求。由于 AI21 Labs 模型使用托管式 API，因此无需预配或管理基础设施。

您可以流式传输回答，以降低最终用户对延迟时间的感知度。流式回答使用服务器发送的事件 (SSE) 来逐步流式传输回答。

您需要按实际用量为 AI21 Labs 模型付费（随用随付）。如需了解随用随付价格，请参阅 Vertex AI 价格页面上的 AI21 Labs 模型价格。

可用的 AI21 Labs 模型

AI21 Labs 提供了以下模型，可在 Vertex AI 中使用。如需访问 AI21 Labs 模型，请前往其 Model Garden 模型卡片。

Jamba 1.5 Mini

AI21 Labs 的 Jamba 1.5 Mini 是一种基于混合架构构建的小型基础模型，它利用 Mamba 架构和 Transformer 架构，以具有竞争力的价格实现卓越的质量。

借助 SSM-Transformer 混合架构和 256,000 个上下文窗口，Jamba 1.5 Mini 可高效解决各种文本生成和文本理解企业应用场景。

Jamba 1.5 Mini 非常适合其任务的数据量繁重且需要模型能够注入大量信息以生成准确、详尽回答的企业工作流，例如总结冗长文档或通过丰富的组织知识库回答问题。Jamba 1.5 Mini 在质量、吞吐量和低成本方面取得了良好的平衡。

前往 Jamba 1.5 Mini 模型卡片

Jamba 1.5 Large

AI21 Labs 的 Jamba 1.5 Large 是一种基于混合架构构建的基础模型，该架构利用 Mamba 架构和 Transformer 架构，以具有竞争力的价格实现卓越的质量。

借助 SSM-Transformer 混合架构和 256,000 个上下文窗口，Jamba 1.5 Large 可高效解决各种文本生成和文本理解企业应用场景。Jamba 1.5 Large 有 940 亿个有效参数和 3,980 亿个总参数，可确保回答高度准确。

Jamba 1.5 Large 非常适合其任务的数据量繁重且需要模型能够注入大量信息以生成准确、详尽回答的企业工作流，例如总结冗长文档或通过丰富的组织知识库回答问题。Jamba 1.5 Large 旨在提供优质的回答、高吞吐量，并且价格与同类别的其他模型相比具有竞争力。

前往 Jamba 1.5 Large 模型卡片

使用 AI21 Labs 模型

发送使用 AI21 Labs 模型的请求时，请使用以下模型名称：

对于 Jamba 1.5 Mini，请使用 jamba-1.5-mini@001。
对于 Jamba 1.5 Large，请使用 jamba-1.5-large@001。

由于模型版本之间可能存在差异，我们建议您使用的模型版本包含以 @ 符号开头的后缀。如果未指定模型版本，则始终使用最新版本。当模型版本更改时，这可能会无意中影响您的工作流。

准备工作

如需将 AI21 Labs 模型与 Vertex AI 搭配使用，您必须执行以下步骤。必须启用 Vertex AI API (aiplatform.googleapis.com) 才能使用 Vertex AI。如果您已有启用了 Vertex AI API 的项目，则可以使用该项目，而无需创建新项目。

确保您拥有启用和使用合作伙伴模型所需的权限。如需了解详情，请参阅授予所需权限。

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

转到以下 Model Garden 模型卡片之一，然后点击启用：
- 前往 Jamba 1.5 Large 模型卡片
- 前往 Jamba 1.5 Mini 模型卡片

对 AI21 Labs 模型进行流式调用

以下示例会对 AI21 Labs 模型进行流式调用。

REST

设置您的环境后，您可以使用 REST 测试文本提示。以下示例会向发布方模型端点发送请求。

在使用任何请求数据之前，请先进行以下替换：

LOCATION：支持 AI21 Labs 模型的区域。
MODEL：您要使用的模型名称。在请求正文中，不包括 @ 模型版本号。
ROLE：与消息关联的角色。您可以指定 user 或 assistant。第一条消息必须使用 user 角色。模型使用交替的 user 和 assistant 回合运行。如果最终消息使用 assistant 角色，则回答内容会立即从该消息中的内容继续。您可以使用它来限制模型的部分回答。
STREAM：一个布尔值，用于指定是否流式传输回答。流式传输您的回答，以降低对最终使用延迟的感知度。设置为 true 可流式传输回答，设置为 false 可一次性返回所有回答。
CONTENT：user 或 assistant 消息的内容（如文本）。
MAX_OUTPUT_TOKENS：响应中可生成的词元数量上限。一个词元约为　3.5 个字符。100 个词元对应大约 60-80 个单词。
指定较低的值可获得较短的回答，指定较高的值可获得可能较长的回答。

HTTP 方法和网址：

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict

请求 JSON 正文：

{
  "model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

如需发送请求，请选择以下方式之一：

curlPowerShell

注意：以下命令假定您已使用您的用户账号通过运行 gcloud init 或 gcloud auth login 登录 gcloud CLI，或者使用了 Cloud Shell，这会使您自动登录 gcloud CLI。您可以运行 gcloud auth list 来检查当前活跃的账号。

将请求正文保存在名为 request.json 的文件中，然后执行以下命令：

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict"

注意：以下命令假定您已使用您的用户账号通过运行 gcloud init 或 gcloud auth login 登录 gcloud CLI。您可以运行 gcloud auth list 来检查当前活跃的账号。

将请求正文保存在名为 request.json 的文件中，然后执行以下命令：

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict" | Select-Object -Expand Content

您应该收到类似以下内容的 JSON 响应。

响应

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}
...

对 AI21 Labs 模型进行非流式调用

以下示例会对 AI21 Labs 模型进行非流式调用。

REST

设置您的环境后，您可以使用 REST 测试文本提示。以下示例会向发布方模型端点发送请求。

在使用任何请求数据之前，请先进行以下替换：

LOCATION：支持 AI21 Labs 模型的区域。
MODEL：您要使用的模型名称。在请求正文中，不包括 @ 模型版本号。
ROLE：与消息关联的角色。您可以指定 user 或 assistant。第一条消息必须使用 user 角色。模型使用交替的 user 和 assistant 回合运行。如果最终消息使用 assistant 角色，则回答内容会立即从该消息中的内容继续。您可以使用它来限制模型的部分回答。
STREAM：一个布尔值，用于指定是否流式传输回答。流式传输您的回答，以降低对最终使用延迟的感知度。设置为 true 可流式传输回答，设置为 false 可一次性返回所有回答。
CONTENT：user 或 assistant 消息的内容（如文本）。
MAX_OUTPUT_TOKENS：响应中可生成的词元数量上限。一个词元约为　3.5 个字符。100 个词元对应大约 60-80 个单词。
指定较低的值可获得较短的回答，指定较高的值可获得可能较长的回答。

HTTP 方法和网址：

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

请求 JSON 正文：

{
  "model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

如需发送请求，请选择以下方式之一：

curlPowerShell

将请求正文保存在名为 request.json 的文件中，然后执行以下命令：

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

注意：以下命令假定您已使用您的用户账号通过运行 gcloud init 或 gcloud auth login 登录 gcloud CLI。您可以运行 gcloud auth list 来检查当前活跃的账号。

将请求正文保存在名为 request.json 的文件中，然后执行以下命令：

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

您应该收到类似以下内容的 JSON 响应。

响应

{
    "id": "e71d13ffb77344a08e34e0a22ea84458",
    "object": "chat.completion",
    "created": 1720806624,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "OUTPUT",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 17,
        "total_tokens": 295,
        "completion_tokens": 278
    }
}

AI21 Labs 模型区域可用性和配额

对于 AI21 Labs 模型，提供该模型的每个区域都有相应的配额。配额在每分钟查询次数 (QPM) 和每分钟词元数 (TPM) 中指定。TPM 包括输入和输出词元。

下表列出了每个 AI21 Labs 模型支持的区域、默认配额和上下文长度上限：

Jamba 1.5 Mini

区域	配额系统	支持的上下文长度
`us-central1`	50 QPM、60,000 TPM	256,000 个词元
`europe-west4`	50 QPM、60,000 TPM	256,000 个词元

Jamba 1.5 Large

区域	配额系统	支持的上下文长度
`us-central1`	20 QPM、20,000 TPM	256,000 个词元
`europe-west4`	20 QPM、20,000 TPM	256,000 个词元

若要增加 Vertex AI 上的生成式 AI 的任何配额，您可以使用 Google Cloud 控制台申请增加配额。如需详细了解配额，请参阅使用配额。