Se usó la API de Cloud Translation para traducir esta página.

Modelos de AI21 Labs

Los modelos de AI21 Labs en Vertex AI ofrecen modelos completamente administrados y sin servidores como APIs. Para usar un modelo de AI21 Labs en Vertex AI, envía una solicitud directamente al extremo de API de Vertex AI. Debido a que los modelos de AI21 Labs usan una API administrada, no es necesario aprovisionar ni administrar la infraestructura.

Puedes transmitir tus respuestas para reducir la percepción de latencia del usuario final. Una respuesta transmitida usa eventos enviados por el servidor (SSE) para transmitir la respuesta de forma incremental.

Pagas por los modelos de AI21 Labs a medida que los usas (pago por uso). Para conocer los precios del pago por uso, consulta los precios de los modelos de AI21 Labs en la página de precios de Vertex AI.

Modelos de AI21 Labs disponibles

Los siguientes modelos están disponibles de AI21 Labs para usarlos en Vertex AI. Para acceder a un modelo de AI21 Labs, ve a su tarjeta de modelo de Model Garden.

Jamba 1.5 Mini

Jamba 1.5 Mini de AI21 Labs es un modelo de base pequeño creado a partir de una arquitectura híbrida que aprovecha la arquitectura de Mamba y la arquitectura de Transformer para lograr una calidad líder a un precio competitivo.

Con la arquitectura híbrida de SSM-Transformer y una ventana de contexto de 256,000, Jamba 1.5 Mini resuelve de manera eficiente una variedad de casos de uso empresariales de generación de texto y comprensión de texto.

Jamba 1.5 Mini es ideal para flujos de trabajo empresariales con tareas con muchos datos y que requieren un modelo que pueda transferir una gran cantidad de información para producir una respuesta precisa y completa, como resumir documentos largos o lo que permite la búsqueda de respuestas en una amplia base de conocimiento organizacional. Jamba 1.5 Mini tiene un equilibrio entre calidad, rendimiento y bajo costo.

Ir a la tarjeta del modelo de Jamba 1.5 Mini

Jamba 1.5 Large

Jamba 1.5 Large de AI21 Labs es un modelo de base creado a partir de una arquitectura híbrida que aprovecha la arquitectura de Mamba y la arquitectura de Transformer para lograr una calidad líder a un precio competitivo.

Con la arquitectura híbrida de SSM-Transformer y una ventana de contexto de 256,000, Jamba 1.5 Large resuelve de manera eficiente una variedad de casos de uso empresariales de generación y comprensión de texto. Jamba 1.5 Large tiene 94,000 millones de parámetros activos y 398,000 millones de parámetros totales que generan una alta exactitud en las respuestas.

Jamba 1.5 Large es ideal para flujos de trabajo empresariales con tareas que tienen muchos datos y requieren un modelo que pueda transferir una gran cantidad de información para producir una respuesta precisa y completa, como resumir documentos largos o lo que permite la búsqueda de respuestas en una amplia base de conocimiento organizacional. Jamba 1.5 Large está diseñado para ofrecer respuestas de alta calidad, un alto rendimiento y precios competitivos en comparación con otros modelos de su clase de tamaño.

Ir a la tarjeta de modelo de Jamba 1.5 Large

Usa modelos de AI21 Labs

Cuando envíes solicitudes para usar los modelos de AI21 Labs, usa los siguientes nombres de modelos:

Para Jamba 1.5 Mini, usa jamba-1.5-mini@001.
Para Jamba 1.5 Large, usa jamba-1.5-large@001.

Te recomendamos que uses las versiones del modelo que incluyen un sufijo que comienza con un símbolo @ debido a las posibles diferencias entre las versiones del modelo. Si no especificas una versión del modelo, siempre se usa la versión más reciente, lo que puede afectar de forma inadvertida tus flujos de trabajo cuando cambia una versión del modelo.

Antes de comenzar

Para usar los modelos de AI21 Labs con Vertex AI, debes realizar los siguientes pasos. La API de Vertex AI (aiplatform.googleapis.com) debe estar habilitada para usar Vertex AI. Si ya tienes un proyecto existente con la API de Vertex AI habilitada, puedes usar ese proyecto en lugar de crear uno nuevo.

Asegúrate de tener los permisos necesarios para habilitar y usar modelos de socios. Para obtener más información, consulta Otorga los permisos necesarios.

Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

Go to project selector

Make sure that billing is enabled for your Google Cloud project.

Enable the Vertex AI API.

Enable the API

Ve a una de las siguientes tarjetas de modelo de Model Garden y, luego, haz clic en habilitar:
- Ir a la tarjeta de modelo de Jamba 1.5 Large
- Ir a la tarjeta del modelo de Jamba 1.5 Mini

Realiza una llamada de transmisión a un modelo de AI21 Labs

En el siguiente ejemplo, se realiza una llamada de transmisión a un modelo de AI21 Labs.

REST

Después de configurar tu entorno, puedes usar REST para probar una instrucción de texto. En el siguiente ejemplo, se envía una solicitud al extremo del modelo de publicador.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

LOCATION: Es una región que admite modelos de AI21 Labs.
MODEL: El nombre del modelo que deseas usar. En el cuerpo de la solicitud, excluye el número de versión del modelo @.
ROLE: El rol asociado a un mensaje. Puedes especificar un user o un assistant. El primer mensaje debe usar el rol user. Los modelos operan con turnos alternativos de user y assistant. Si el mensaje final usa el rol assistant, el contenido de la respuesta continúa inmediatamente desde el contenido de ese mensaje. Puedes usar esto para restringir parte de la respuesta del modelo.
STREAM: Un valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del uso final. Configúralo como true para transmitir la respuesta y false para mostrar la respuesta de una sola vez.
CONTENT: el contenido, como texto, del mensaje user o assistant.
MAX_OUTPUT_TOKENS: Cantidad máxima de tokens que se pueden generar en la respuesta. Un token tiene aproximadamente 3.5 caracteres. 100 tokens corresponden a casi 60 u 80 palabras.
Especifica un valor más bajo para las respuestas más cortas y un valor más alto para las respuestas potencialmente más largas.

Método HTTP y URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict

Cuerpo JSON de la solicitud:

{
  "model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": true
}

Para enviar tu solicitud, elige una de estas opciones:

curl

Nota: Con el siguiente comando, se supone que accediste a la CLI de gcloud con tu cuenta de usuario a través de la ejecución de gcloud init o gcloud auth login, o a través del uso de Cloud Shell, que accede de forma automática a la CLI de gcloud. Para comprobar la cuenta activa actual, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict"

PowerShell

Nota: En el siguiente comando, se supone que accediste a la CLI de gcloud con tu cuenta de usuario a través de la ejecución de gcloud init o gcloud auth login . Para comprobar la cuenta activa actual, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/ai21/models/MODEL:streamRawPredict" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

Respuesta

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}

data: {
    "id": "0e9c8e69e5924f729b39bc60bac9e0be",
    "object": "chat.completion.chunk",
    "created": 1720807292,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "delta": {
              "content": "OUTPUT"
            },
            "finish_reason": null,
            "logprobs": null
        }
    ]
}
...

Realiza una llamada sin transmisión a un modelo de AI21 Labs

En el siguiente ejemplo, se realiza una llamada no continua a un modelo de AI21 Labs.

REST

Después de configurar tu entorno, puedes usar REST para probar una instrucción de texto. En el siguiente ejemplo, se envía una solicitud al extremo del modelo de publicador.

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

LOCATION: Es una región que admite modelos de AI21 Labs.
MODEL: El nombre del modelo que deseas usar. En el cuerpo de la solicitud, excluye el número de versión del modelo @.
ROLE: El rol asociado a un mensaje. Puedes especificar un user o un assistant. El primer mensaje debe usar el rol user. Los modelos operan con turnos alternativos de user y assistant. Si el mensaje final usa el rol assistant, el contenido de la respuesta continúa inmediatamente desde el contenido de ese mensaje. Puedes usar esto para restringir parte de la respuesta del modelo.
STREAM: Un valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del uso final. Configúralo como true para transmitir la respuesta y false para mostrar la respuesta de una sola vez.
CONTENT: el contenido, como texto, del mensaje user o assistant.
MAX_OUTPUT_TOKENS: Cantidad máxima de tokens que se pueden generar en la respuesta. Un token tiene aproximadamente 3.5 caracteres. 100 tokens corresponden a casi 60 u 80 palabras.
Especifica un valor más bajo para las respuestas más cortas y un valor más alto para las respuestas potencialmente más largas.

Método HTTP y URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict

Cuerpo JSON de la solicitud:

{
  "model": MODEL,
  "messages": [
   {
    "role": "ROLE",
    "content": "CONTENT"
   }],
  "max_tokens": MAX_TOKENS,
  "stream": false
}

Para enviar tu solicitud, elige una de estas opciones:

curl

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict"

PowerShell

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/publishers/mistralai/models/MODEL:rawPredict" | Select-Object -Expand Content

Deberías recibir una respuesta JSON similar a la que se muestra a continuación:

Respuesta

{
    "id": "e71d13ffb77344a08e34e0a22ea84458",
    "object": "chat.completion",
    "created": 1720806624,
    "model": "MODEL",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "OUTPUT",
                "tool_calls": null
            },
            "finish_reason": "stop",
            "logprobs": null
        }
    ],
    "usage": {
        "prompt_tokens": 17,
        "total_tokens": 295,
        "completion_tokens": 278
    }
}

Disponibilidad y cuotas de la región del modelo de AI21 Labs

En el caso de los modelos de AI21 Labs, se aplica una cuota para cada región en la que el modelo esté disponible. La cuota se especifica en consultas por minuto (QPM) y tokens por minuto (TPM). TPM incluye tokens de entrada y salida.

En las siguientes tablas, se indican las regiones compatibles, las cuotas predeterminadas y la longitud máxima de contexto para cada modelo de AI21 Labs:

Jamba 1.5 Mini

Región	Sistema de cuotas	Longitud del contexto compatible
`us-central1`	50 QPM, 60,000 TPM	256,000 tokens
`europe-west4`	50 QPM, 60,000 TPM	256,000 tokens

Jamba 1.5 Large

Región	Sistema de cuotas	Longitud del contexto compatible
`us-central1`	20 QPM, 20,000 TPM	256,000 tokens
`europe-west4`	20 QPM, 20,000 TPM	256,000 tokens

Si quieres aumentar tus cuotas para IA generativa en Vertex AI, puedes usar la consola de Google Cloud para solicitar un aumento de la cuota. Para obtener más información sobre las cuotas, consulta Trabaja con cuotas.