Modelos Llama

Puedes usar comandos curl para enviar solicitudes al endpoint de Vertex AI con los siguientes nombres de modelo:

  • En el caso de Llama 4 Maverick 17B-128E, usa llama-4-maverick-17b-128e-instruct-maas
  • En el caso de Llama 4 Scout 17B-16E, usa llama-4-scout-17b-16e-instruct-maas.
  • En el caso de Llama 3.3 70B, usa llama-3.3-70b-instruct-maas
  • En el caso de Llama 3.2 90B, usa llama-3.2-90b-vision-instruct-maas
  • En el caso de Llama 3.1 405B, usa llama-3.1-405b-instruct-maas
  • En el caso de Llama 3.1 70B, usa llama-3.1-70b-instruct-maas
  • En el caso de Llama 3.1 8B, usa llama-3.1-8b-instruct-maas

Antes de empezar

Para usar los modelos Llama con Vertex AI, debes seguir estos pasos. La API de Vertex AI (aiplatform.googleapis.com) debe estar habilitada para usar Vertex AI. Si ya tienes un proyecto con la API Vertex AI habilitada, puedes usarlo en lugar de crear uno nuevo.

  1. Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  3. Verify that billing is enabled for your Google Cloud project.

  4. Enable the Vertex AI API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Roles required to select or create a project

    • Select a project: Selecting a project doesn't require a specific IAM role—you can select any project that you've been granted a role on.
    • Create a project: To create a project, you need the Project Creator (roles/resourcemanager.projectCreator), which contains the resourcemanager.projects.create permission. Learn how to grant roles.

    Go to project selector

  6. Verify that billing is enabled for your Google Cloud project.

  7. Enable the Vertex AI API.

    Roles required to enable APIs

    To enable APIs, you need the Service Usage Admin IAM role (roles/serviceusage.serviceUsageAdmin), which contains the serviceusage.services.enable permission. Learn how to grant roles.

    Enable the API

  8. Ve a una de las siguientes tarjetas de modelo de Model Garden y haz clic en Habilitar:
  9. Hacer una llamada de streaming a un modelo Llama

    En el siguiente ejemplo se hace una llamada de streaming a un modelo Llama.

    REST

    Después de configurar tu entorno, puedes usar REST para probar una petición de texto. En el siguiente ejemplo se envía una solicitud al endpoint del modelo del editor.

    Antes de usar los datos de la solicitud, haz las siguientes sustituciones:

    • LOCATION: una región que admita modelos Llama.
    • MODEL: el nombre del modelo que quieras usar.
    • ROLE: el rol asociado a un mensaje. Puedes especificar un user o un assistant. El primer mensaje debe usar el rol user. Los modelos funcionan con turnos alternos de user y assistant. Si el mensaje final usa el rol assistant, el contenido de la respuesta continúa inmediatamente a partir del contenido de ese mensaje. Puedes usarlo para restringir parte de la respuesta del modelo.
    • CONTENT: el contenido, como el texto, del mensaje user o assistant.
    • MAX_OUTPUT_TOKENS: Número máximo de tokens que se pueden generar en la respuesta. Un token tiene aproximadamente cuatro caracteres. 100 tokens corresponden aproximadamente a entre 60 y 80 palabras.

      Especifica un valor inferior para las respuestas más cortas y un valor superior para las respuestas que puedan ser más largas.

    • STREAM: valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del usuario final. Defínelo como true para transmitir la respuesta y false para devolver la respuesta de una vez.
    • ENABLE_LLAMA_GUARD: Valor booleano que especifica si se debe habilitar Llama Guard en las entradas y salidas. De forma predeterminada, Llama Guard está habilitado y marca las respuestas si determina que no son seguras.

    Método HTTP y URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

    Cuerpo JSON de la solicitud:

    {
      "model": "meta/MODEL",
      "messages": [
        {
          "role": "ROLE",
          "content": "CONTENT"
        }
      ],
      "max_tokens": MAX_OUTPUT_TOKENS,
      "stream": true,
      "extra_body": {
        "google": {
          "model_safety_settings": {
            "enabled": ENABLE_LLAMA_GUARD,
            "llama_guard_settings": {}
          }
        }
      }
    }
    

    Para enviar tu solicitud, elige una de estas opciones:

    curl

    Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

    PowerShell

    Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

    Deberías recibir una respuesta JSON similar a la siguiente.

    Hacer una llamada unaria a un modelo Llama

    En el siguiente ejemplo se hace una llamada unaria a un modelo de Llama.

    REST

    Después de configurar tu entorno, puedes usar REST para probar una petición de texto. En el siguiente ejemplo se envía una solicitud al endpoint del modelo del editor.

    Antes de usar los datos de la solicitud, haz las siguientes sustituciones:

    • LOCATION: una región que admita modelos Llama.
    • MODEL: el nombre del modelo que quieras usar.
    • ROLE: el rol asociado a un mensaje. Puedes especificar un user o un assistant. El primer mensaje debe usar el rol user. Los modelos funcionan con turnos alternos de user y assistant. Si el mensaje final usa el rol assistant, el contenido de la respuesta continúa inmediatamente a partir del contenido de ese mensaje. Puedes usarlo para restringir parte de la respuesta del modelo.
    • CONTENT: el contenido, como el texto, del mensaje user o assistant.
    • MAX_OUTPUT_TOKENS: Número máximo de tokens que se pueden generar en la respuesta. Un token tiene aproximadamente cuatro caracteres. 100 tokens corresponden aproximadamente a entre 60 y 80 palabras.

      Especifica un valor inferior para las respuestas más cortas y un valor superior para las respuestas que puedan ser más largas.

    • STREAM: valor booleano que especifica si la respuesta se transmite o no. Transmite tu respuesta para reducir la percepción de latencia del usuario final. Defínelo como true para transmitir la respuesta y false para devolver la respuesta de una vez.
    • ENABLE_LLAMA_GUARD: Valor booleano que especifica si se debe habilitar Llama Guard en las entradas y salidas. De forma predeterminada, Llama Guard está habilitado y marca las respuestas si determina que no son seguras.

    Método HTTP y URL:

    POST https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions

    Cuerpo JSON de la solicitud:

    {
      "model": "meta/MODEL",
      "messages": [
        {
          "role": "ROLE",
          "content": "CONTENT"
        }
      ],
      "max_tokens": MAX_OUTPUT_TOKENS,
      "stream": false,
      "extra_body": {
        "google": {
          "model_safety_settings": {
            "enabled": ENABLE_LLAMA_GUARD,
            "llama_guard_settings": {}
          }
        }
      }
    }
    

    Para enviar tu solicitud, elige una de estas opciones:

    curl

    Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

    curl -X POST \
    -H "Authorization: Bearer $(gcloud auth print-access-token)" \
    -H "Content-Type: application/json; charset=utf-8" \
    -d @request.json \
    "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions"

    PowerShell

    Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

    $cred = gcloud auth print-access-token
    $headers = @{ "Authorization" = "Bearer $cred" }

    Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1beta1/projects/PROJECT_ID/locations/LOCATION/endpoints/openapi/chat/completions" | Select-Object -Expand Content

    Deberías recibir una respuesta JSON similar a la siguiente.

    Respuestas denunciadas

    De forma predeterminada, Llama Guard 3 8B está habilitado en todas las predicciones que hagas con los modelos Llama 3.3 y Llama 3.1. De forma predeterminada, la función de visión de Llama Guard 3 11B está habilitada en todas las predicciones que hagas con los modelos de Llama 3.2. Llama Guard ayuda a proteger las respuestas comprobando las entradas y las salidas. Si Llama Guard determina que no son seguras, las marca.

    Si quieres inhabilitar Llama Guard, modifica el ajuste de seguridad del modelo. Para obtener más información, consulta el campo model_safety_settings en el ejemplo de streaming o unario.

    Usar Vertex AI Studio

    En el caso de los modelos Llama, puedes usar Vertex AI Studio para crear prototipos y probar modelos de IA generativa rápidamente en la Google Cloud consola. Por ejemplo, puedes usar Vertex AI Studio para comparar las respuestas del modelo Llama con otros modelos compatibles, como Gemini de Google.

    Para obtener más información, consulta la guía de inicio rápido para enviar peticiones de texto a Gemini mediante Vertex AI Studio.

    Disponibilidad y cuotas de los modelos Llama por región

    En el caso de los modelos Llama, se aplica una cuota a cada región en la que esté disponible el modelo. La cuota se especifica en consultas por minuto (CPM).

    Modelo Región Cuotas Longitud del contexto
    Llama 4 Maverick 17B-128E
    us-east5
    • QPM: 120
    524.288
    Llama 4 Scout 17B-16E
    us-east5
    • QPM: 120
    1.310.720
    Llama 3.3 70B
    us-central1
    • QPM: 100
    128.000
    Llama 3.2 90B
    us-central1
    • QPM: 30
    128.000
    Llama 3.1 405B
    us-central1
    • QPM: 60
    128.000
    Llama 3.1 70B
    us-central1
    • QPM: 60
    128.000
    Llama 3.1 8B
    us-central1
    • QPM: 60
    128.000

    Si quieres aumentar alguna de tus cuotas de IA generativa en Vertex AI, puedes solicitarlo a través de la Google Cloud consola. Para obtener más información sobre las cuotas, consulta el artículo Trabajar con cuotas.