Os modelos AI21 Labs na Vertex AI oferecem modelos totalmente gerenciados e sem servidor como APIs. Para usar um modelo AI21 Labs na Vertex AI, envie uma solicitação diretamente para o endpoint da API Vertex AI. Como os modelos da AI21 Labs usam uma API gerenciada, não é necessário provisionar nem gerenciar a infraestrutura.
É possível transmitir as respostas para reduzir a percepção de latência do usuário final. Uma resposta transmitida usa eventos enviados pelo servidor (SSE) para transmitir a resposta de forma incremental.
Você paga pelos modelos AI21 Labs conforme os usa (pagamento por utilização). Para pagamento por utilização, consulte os preços do modelo AI21 Labs na página de preços da Vertex AI.
Modelos disponíveis da AI21 Labs
Os modelos a seguir estão disponíveis na AI21 Labs para uso na Vertex AI. Para acessar um modelo AI21 Labs, acesse esse card de modelo do Model Garden.
Jamba 1.5 Mini
O Jamba 1.5 Mini da AI21 Labs é um modelo de fundação pequeno criado a partir de uma arquitetura híbrida que aproveita a arquitetura Mamba e a arquitetura Transformer para alcançar a melhor qualidade a um preço competitivo.
Com a arquitetura híbrida do SSM-Transformer e uma janela de contexto de 256.000, o Jamba 1.5 Mini resolve com eficiência uma variedade de casos de uso de geração de texto e casos de uso empresariais de compreensão de texto.
O Jamba 1.5 Mini é ideal para fluxos de trabalho corporativos com tarefas que têm muitos dados e exigem um modelo que possa ingerir uma grande quantidade de informações para produzir uma resposta precisa e completa, como resumir documentos longos ou permitir a resposta a perguntas em uma extensa base de conhecimento organizacional. O Jamba 1.5 Mini tem equilíbrio entre qualidade, capacidade de processamento e custo.
Acesse o card de modelo do Jamba 1.5 MiniJamba 1.5 Large
O Jamba 1.5 Large da AI21 Labs é um modelo de fundação criado a partir de uma arquitetura híbrida que usa a arquitetura Mamba e Transformer para alcançar qualidade líder a um preço competitivo.
Com a arquitetura híbrida do SSM-Transformer e uma janela de contexto de 256.000, o Jamba 1.5 Large resolve com eficiência uma variedade de casos de uso de geração de texto e casos de uso empresariais de compreensão de texto. O Jamba 1.5 Large tem 94 B parâmetros ativos e um total de 398 B de parâmetros resultam em alta precisão de resposta.
O Jamba 1.5 Large é ideal para fluxos de trabalho corporativos com tarefas que têm muitos dados e exigem um modelo que possa ingerir uma grande quantidade de informações para produzir uma resposta precisa e completa, como resumir documentos longos ou permitir a resposta a perguntas em uma extensa base de conhecimento organizacional. O Jamba 1.5 Large foi projetado para respostas de qualidade superior, capacidade de processamento e preços competitivos com outros modelos da mesma classe de tamanho.
Acesse o card de modelo do Jamba 1.5 LargeUsar modelos AI21 Labs
Ao enviar solicitações para usar os modelos AI21 Labs, use os nomes de modelo a seguir:
- Para o Jamba 1.5 Mini, use
jamba-1.5-mini@001
. - Para Jamba 1.5 Large, use
jamba-1.5-large@001
.
Recomendamos usar as versões de modelo que incluem um sufixo que
começa com o símbolo @
devido às possíveis diferenças entre
de versões de modelo. Se você não especificar uma versão do modelo, a versão mais recente será
sempre usado, o que pode afetar inadvertidamente seus fluxos de trabalho quando uma versão do modelo
mudanças.
Antes de começar
Para usar os modelos AI21 Labs com a Vertex AI, siga as
etapas abaixo. A API Vertex AI (aiplatform.googleapis.com
) precisa
estar ativada para usar a Vertex AI. Se você já tiver um projeto existente com
a API do Vertex AI ativada, poderá usar esse projeto em vez de
criar um novo.
Verifique se você tem as permissões necessárias para ativar e usar de modelos de machine learning. Para mais informações, consulte Conceder as permissões necessárias.
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Vertex AI API.
- Acesse um dos seguintes cards de modelo do Model Garden e clique em enable:
Fazer uma chamada de streaming para um modelo da AI21 Labs
O exemplo a seguir faz uma chamada de streaming para um modelo AI21 Labs.
REST
Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
- LOCATION: uma região compatível com modelos AI21 Labs.
- MODEL: o nome do modelo que você quer usar. No
corpo da solicitação, exclua o número da versão do modelo
@
. - ROLE: o papel associado a uma mensagem. É possível especificar
user
ouassistant
. A primeira mensagem precisa usar o papeluser
. Os modelos funcionam com voltas alternadas deuser
eassistant
. Se a mensagem final usar o papelassistant
, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo. - STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como
true
para transmitir a resposta efalse
para retornar a resposta de uma só vez. - CONTENT: o conteúdo, como texto, da mensagem
user
ouassistant
. - MAX_OUTPUT_TOKENS:
número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.
Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict
Corpo JSON da solicitação:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": true }
Para enviar a solicitação, escolha uma destas opções:
curl
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict"
PowerShell
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict" | Select-Object -Expand Content
Você receberá uma resposta JSON semelhante a seguinte.
Fazer uma chamada sem streaming para um modelo AI21 Labs
O exemplo a seguir faz uma chamada sem streaming para um modelo AI21 Labs.
REST
Depois de configurou seu ambiente use REST para testar uma solicitação de texto. O exemplo a seguir envia uma solicitação ao publisher endpoint do modelo.
Antes de usar os dados da solicitação abaixo, faça as substituições a seguir:
- LOCATION: uma região compatível com modelos AI21 Labs.
- MODEL: o nome do modelo que você quer usar. No
corpo da solicitação, exclua o número da versão do modelo
@
. - ROLE: o papel associado a uma mensagem. É possível especificar
user
ouassistant
. A primeira mensagem precisa usar o papeluser
. Os modelos funcionam com voltas alternadas deuser
eassistant
. Se a mensagem final usar o papelassistant
, o conteúdo da resposta continuará imediatamente a partir do conteúdo dessa mensagem. É possível usar isso para restringir parte da resposta do modelo. - STREAM: um booleano que especifica se a resposta será transmitida ou não. Transmita sua resposta para reduzir a percepção de latência do uso final. Defina como
true
para transmitir a resposta efalse
para retornar a resposta de uma só vez. - CONTENT: o conteúdo, como texto, da mensagem
user
ouassistant
. - MAX_OUTPUT_TOKENS:
número máximo de tokens que podem ser gerados na resposta. Um token tem aproximadamente 3,5 caracteres. 100 tokens correspondem a cerca de 60 a 80 palavras.
Especifique um valor mais baixo para respostas mais curtas e um valor mais alto para respostas potencialmente mais longas.
Método HTTP e URL:
POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict
Corpo JSON da solicitação:
{ "model": MODEL, "messages": [ { "role": "ROLE", "content": "CONTENT" }], "max_tokens": MAX_TOKENS, "stream": false }
Para enviar a solicitação, escolha uma destas opções:
curl
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
curl -X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json; charset=utf-8" \
-d @request.json \
"https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"
PowerShell
Salve o corpo da solicitação em um arquivo com o nome request.json
e execute o comando a seguir:
$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }
Invoke-WebRequest `
-Method POST `
-Headers $headers `
-ContentType: "application/json; charset=utf-8" `
-InFile request.json `
-Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content
Você receberá uma resposta JSON semelhante a seguinte.
Disponibilidade e cotas da região do modelo AI21 Labs
Para modelos AI21 Labs, uma cota se aplica a cada região em que o modelo está disponível. A cota é especificada em consultas por minuto (QPM) e tokens por minuto (TPM). O TPM inclui tokens de entrada e saída.
As regiões compatíveis, as cotas padrão e o tamanho máximo do contexto para cada modelo AI21 Labs estão listados nas tabelas a seguir:
Jamba 1.5 Mini
Região | Sistema de cotas | Tamanho de contexto compatível |
---|---|---|
us-central1 |
50 QPM, 60.000 TPM | 256.000 tokens |
europe-west4 |
50 QPM, 60.000 TPM | 256.000 tokens |
Jamba 1.5 Large
Região | Sistema de cotas | Tamanho de contexto compatível |
---|---|---|
us-central1 |
20 QPM, 20.000 TPM | 256.000 tokens |
Para aumentar alguma das suas cotas de IA generativa na Vertex AI, use o console do Google Cloud para solicitar um aumento de cota. Para saber mais sobre cotas, consulte Trabalhar com cotas.