Esta página foi traduzida pela API Cloud Translation.

Modelos AI21 Labs

Os modelos AI21 Labs na Vertex AI oferecem modelos totalmente gerenciados e sem servidor como APIs. Para usar um modelo AI21 Labs na Vertex AI, envie uma solicitação diretamente para o endpoint da API Vertex AI. Como os modelos da AI21 Labs usam uma API gerenciada, não é necessário provisionar nem gerenciar a infraestrutura.

É possível transmitir as respostas para reduzir a percepção de latência do usuário final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.

Você paga pelos modelos AI21 Labs conforme os usa (pagamento por utilização). Para pagamento por utilização, consulte os preços do modelo AI21 Labs na página de preços da Vertex AI.

Modelos disponíveis da AI21 Labs

Os modelos a seguir estão disponíveis na AI21 Labs para uso na Vertex AI. Para acessar um modelo AI21 Labs, acesse esse card de modelo do Model Garden.

Jamba 1.5 Mini

O Jamba 1.5 Mini da AI21 Labs é um modelo de fundação pequeno criado a partir de uma arquitetura híbrida que aproveita a arquitetura Mamba e a arquitetura Transformer para alcançar a melhor qualidade a um preço competitivo.

Com a arquitetura híbrida do SSM-Transformer e uma janela de contexto de 256.000, o Jamba 1.5 Mini resolve com eficiência uma variedade de casos de uso de geração de texto e casos de uso empresariais de compreensão de texto.

O Jamba 1.5 Mini é ideal para fluxos de trabalho corporativos com tarefas que têm muitos dados e exigem um modelo que possa ingerir uma grande quantidade de informações para produzir uma resposta precisa e completa, como resumir documentos longos ou permitir a resposta a perguntas em uma extensa base de conhecimento organizacional. O Jamba 1.5 Mini tem equilíbrio entre qualidade, capacidade de processamento e custo.

Acesse o card de modelo do Jamba 1.5 Mini

Jamba 1.5 Large

O Jamba 1.5 Large da AI21 Labs é um modelo de fundação criado a partir de uma arquitetura híbrida que usa a arquitetura Mamba e Transformer para alcançar qualidade líder a um preço competitivo.

Com a arquitetura híbrida do SSM-Transformer e uma janela de contexto de 256.000, o Jamba 1.5 Large resolve com eficiência uma variedade de casos de uso de geração de texto e casos de uso empresariais de compreensão de texto. O Jamba 1.5 Large tem 94 B parâmetros ativos e um total de 398 B de parâmetros resultam em alta precisão de resposta.

O Jamba 1.5 Large é ideal para fluxos de trabalho corporativos com tarefas que têm muitos dados e exigem um modelo que possa ingerir uma grande quantidade de informações para produzir uma resposta precisa e completa, como resumir documentos longos ou permitir a resposta a perguntas em uma extensa base de conhecimento organizacional. O Jamba 1.5 Large foi projetado para respostas de qualidade superior, capacidade de processamento e preços competitivos com outros modelos da mesma classe de tamanho.

Acesse o card de modelo do Jamba 1.5 Large

Usar modelos AI21 Labs

Ao enviar solicitações para usar os modelos AI21 Labs, use os nomes de modelo a seguir:

Para o Jamba 1.5 Mini, use jamba-1.5-mini@001.
Para Jamba 1.5 Large, use jamba-1.5-large@001.

Recomendamos usar as versões de modelo que incluem um sufixo que começa com o símbolo @ devido às possíveis diferenças entre de versões de modelo. Se você não especificar uma versão do modelo, a versão mais recente será sempre usado, o que pode afetar inadvertidamente seus fluxos de trabalho quando uma versão do modelo mudanças.

Antes de começar

Para usar os modelos AI21 Labs com a Vertex AI, siga as etapas abaixo. A API Vertex AI (aiplatform.googleapis.com) precisa estar ativada para usar a Vertex AI. Se você já tiver um projeto existente com a API do Vertex AI ativada, poderá usar esse projeto em vez de criar um novo.

Verifique se você tem as permissões necessárias para ativar e usar de modelos de machine learning. Para mais informações, consulte Conceder as permissões necessárias.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

Acesse um dos seguintes cards de modelo do Model Garden e clique em enable:
- Acesse o card de modelo do Jamba 1.5 Large
- Acesse o card de modelo do Jamba 1.5 Mini

Fazer uma chamada de streaming para um modelo da AI21 Labs

O exemplo a seguir faz uma chamada de streaming para um modelo AI21 Labs.

REST

Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

LOCATION: uma região compatível com modelos AI21 Labs.
MODEL: o nome do modelo que você quer usar. No corpo da solicitação, exclua o número da versão do modelo @.
ROLE: o papel associado a uma mensagem. É possível especificar user ou assistant. A primeira mensagem precisa usar o papel user. Os modelos funcionam com voltas alternadas de user e assistant. Se a mensagem final usar o papel assistant, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo.
STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como true para transmitir a resposta e false para retornar a resposta de uma só vez.
CONTENT: o conteúdo, como texto, da mensagem user ou assistant.
MAX_OUTPUT_TOKENS: número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.
Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict

Corpo JSON da solicitação:

{
  "model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Para enviar a solicitação, escolha uma destas opções:

curl

Observação: o comando a seguir pressupõe que você fez login na CLI gcloud com sua conta de usuário executando gcloud init ou gcloud auth login, ou usando o Cloud Shell, que faz login automaticamente na CLI gcloud. . É possível verificar a conta ativa atual executando gcloud auth list.

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict"

PowerShell

Observação: o comando a seguir pressupõe que você fez login na CLI gcloud com sua conta de usuário executando gcloud init ou gcloud auth login . É possível verificar a conta ativa atual executando gcloud auth list.

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Você receberá uma resposta JSON semelhante a seguinte.

Resposta

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}
...

Fazer uma chamada sem streaming para um modelo AI21 Labs

O exemplo a seguir faz uma chamada sem streaming para um modelo AI21 Labs.

REST

Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.

Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:

LOCATION: uma região compatível com modelos AI21 Labs.
MODEL: o nome do modelo que você quer usar. No corpo da solicitação, exclua o número da versão do modelo @.
ROLE: o papel associado a uma mensagem. É possível especificar user ou assistant. A primeira mensagem precisa usar o papel user. Os modelos funcionam com voltas alternadas de user e assistant. Se a mensagem final usar o papel assistant, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo.
STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como true para transmitir a resposta e false para retornar a resposta de uma só vez.
CONTENT: o conteúdo, como texto, da mensagem user ou assistant.
MAX_OUTPUT_TOKENS: número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.
Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.

Método HTTP e URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

Corpo JSON da solicitação:

{
  "model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Para enviar a solicitação, escolha uma destas opções:

curl

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Salve o corpo da solicitação em um arquivo com o nome request.json e execute o comando a seguir:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Você receberá uma resposta JSON semelhante a seguinte.

Resposta

{
    "id": "e71d13ffb77344a08e34e0a22ea84458",
    "object": "chat.completion",
    "created": 1720806624,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "OUTPUT",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 17,
        "total_tokens": 295,
        "completion_tokens": 278
    }
}

Disponibilidade e cotas da região do modelo AI21 Labs

Para modelos AI21 Labs, uma cota se aplica a cada região em que o modelo está disponível. A cota é especificada em consultas por minuto (QPM) e tokens por minuto (TPM). O TPM inclui tokens de entrada e saída.

As regiões compatíveis, as cotas padrão e o tamanho máximo do contexto para cada modelo AI21 Labs estão listados nas tabelas a seguir:

Jamba 1.5 Mini

Região	Sistema de cotas	Tamanho de contexto compatível
`us-central1`	50 QPM, 60.000 TPM	256.000 tokens
`europe-west4`	50 QPM, 60.000 TPM	256.000 tokens

Jamba 1.5 Large

Região	Sistema de cotas	Tamanho de contexto compatível
`us-central1`	20 QPM, 20.000 TPM	256.000 tokens
`europe-west4`	20 QPM, 20.000 TPM	256.000 tokens

Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console do Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte Trabalhar com cotas.