Capacidad de procesamiento aprovisionada de compra

En esta página, se proporcionan detalles que debes tener en cuenta antes de suscribirte a la capacidad de procesamiento aprovisionada, los permisos que debes tener para realizar o ver un pedido de capacidad de procesamiento aprovisionada, y las instrucciones para realizar y ver tus pedidos.

Qué debes tener en cuenta antes de suscribirte

Para ayudarte a decidir si deseas suscribirte a la capacidad de procesamiento aprovisionada, revisa esta lista de detalles sobre la suscripción:

  • No puedes cancelar tu pedido.

    Tu compra de rendimiento aprovisionado es un compromiso, lo que significa que no puedes cancelar el pedido. Sin embargo, puedes aumentar la cantidad de GSUs que compraste. Si compras un compromiso por accidente o hay un problema con tu configuración, comunícate con tu Google Cloud representante de la cuenta para obtener ayuda.

  • Puedes renovar automáticamente la suscripción.

    Cuando envíes tu pedido, podrás elegir renovar automáticamente la suscripción al final de su período de vigencia o dejar que la suscripción venza. Puedes cancelar el proceso de renovación automática. Para cancelar tu suscripción antes de que se renueve automáticamente, cancela la renovación automática 30 días antes del inicio del siguiente período de vigencia.

    Puedes configurar las suscripciones mensuales para que se renueven automáticamente todos los meses. Las condiciones semanales no admiten la renovación automática.

    Si necesitas ayuda con este proceso, comunícate con tu Google Cloud representante de cuenta.

  • Puedes cambiar la versión o región del modelo con previo aviso.

    Después de que elijas tu proyecto, región, modelo y versión, la capacidad de procesamiento aprovisionada se habilita después de que se apruebe tu pedido. Dentro de los 10 días hábiles posteriores a la aprobación de tu pedido, puedes cambiar la versión de tu modelo dentro del publicador o la región del modelo con la consola de Google Cloud para los modelos de Google. Para obtener más información, consulta Cómo cambiar el orden de la capacidad de procesamiento aprovisionada. También puedes comunicarte con tu Google Cloud representante de cuenta para obtener asistencia.

    Solo puedes cambiar entre modelos del mismo proveedor. Por ejemplo, puedes cambiar entre los modelos de Google o entre los modelos del socio A. Sin embargo, no puedes cambiar entre los modelos de Google y los del socio A.

  • No hay tiempo de inactividad cuando cambias de la modalidad de pago por uso a la capacidad de procesamiento aprovisionada.

    No hay tiempo de inactividad cuando cambias de modelo para un pedido de capacidad de procesamiento aprovisionada. Sin embargo, se requiere el tiempo de preparación para adquirir la productividad.

  • De forma predeterminada, el excedente se factura como pago por uso.

    Si tu capacidad de procesamiento supera el importe de tu pedido de capacidad de procesamiento aprovisionada, los excedentes se procesan y facturan como pago por uso. Puedes controlar los excedentes por solicitud. Para obtener más información, consulta Cómo usar la API de REST.

  • Las solicitudes se priorizan.

    Las solicitudes de los clientes de la capacidad de procesamiento aprovisionada se priorizan y se atienden primero antes que las solicitudes on demand.

  • Debes comprometerte con un pago y un uso mínimo.

    El uso mínimo depende del modelo de IA generativa que selecciones. Cualquier uso que no sea la tasa de capacidad de procesamiento adquirida no está garantizado y se entrega según un esfuerzo razonable.

  • La capacidad de procesamiento no se acumula.

    La capacidad de procesamiento sin usar no se acumula ni se transfiere al mes siguiente.

  • La capacidad de procesamiento aprovisionada se mide en caracteres o tokens por segundo.

    El rendimiento aprovisionado se mide en caracteres o tokens por segundo, no en consultas por minuto (QPM). Como resultado, la medición de la capacidad de procesamiento aprovisionada depende del tamaño de la consulta y del QPM de tu caso de uso.

  • La capacidad de procesamiento aprovisionada verifica tu cuota.

    Tu cuota de rendimiento aprovisionado se verifica cada vez que realizas una solicitud dentro de tu ventana de cuota. Para los modelos gemini-1.5-flash-002 y gemini-1.5-pro-002, la ventana de cuota es de 30 segundos. Esto significa que, en algunos casos, es posible que experimentes temporalmente un tráfico prioritario que supere el importe de tu cuota por segundo, pero no deberías exceder tu cuota por 30 segundos. El período de cuota para otros modelos es de un minuto.

  • Los extremos de modelos ajustados supervisados y su modelo base correspondiente se consideran para la misma cuota de rendimiento aprovisionado. Esta es una función de versión preliminar. Completa y envía el formulario de control de acceso de rendimiento aprovisionado.

    Por ejemplo, la capacidad de procesamiento aprovisionada que se compra para gemini-1.5-pro-002 en un proyecto específico prioriza las solicitudes realizadas desde versiones supervisadas y optimizadas de gemini-1.5-pro-002 creadas en ese proyecto. Usa el encabezado apropiado para controlar el comportamiento del tráfico.

Permisos

Para suscribirte a la capacidad de procesamiento aprovisionada, debes tener uno de los siguientes permisos asignados a tu proyecto, lo que te permite crear una lista de pedidos nuevos y realizarlos.

  • aiplatform.googleapis.com/provisionedThroughputAdmin: Es específico de la capacidad de procesamiento aprovisionada.
  • aiplatform.googleapis.com/admin: Otorga derechos administrativos a todos los recursos de Vertex AI.

Este rol te permite solo mostrar tus pedidos:

  • aiplatform.googleapis.com/viewer

Cómo realizar un pedido de capacidad de procesamiento aprovisionada

Antes de realizar el pedido para usar los modelos de Imagen, envía el formulario de solicitud para otorgar permisos para obtenerlos.

Antes de realizar un pedido para usar MedLM-large-1.5, comunícate con tu Google Cloud representante de cuenta para solicitar acceso. Si esperas que tu QPM supere los 30,000, para maximizar tu pedido de rendimiento reservado, solicita un aumento de la cuota predeterminada del sistema de Vertex AI con la siguiente información:

  • Servicio: La API de Vertex AI.
  • Nombre: Online prediction requests per minute per region
  • Tipo de servicio: Es una cuota.
  • Dimensiones: La región en la que solicitaste la capacidad de procesamiento aprovisionada
  • Valor: Es el límite de tráfico de predicción en línea que elegiste.

Sigue estos pasos para comprar la capacidad de procesamiento aprovisionada:

Console

  1. En la consola de Google Cloud, ve a la página Capacidad de procesamiento aprovisionada.

    Ir a Capacidad de procesamiento aprovisionada

  2. Para comenzar un pedido nuevo, haz clic en Crear.
  3. Ingresa un Nombre de pedido.
  4. Selecciona el Modelo.
  5. Selecciona la Región.
  6. Ingresa la cantidad de unidades de escalamiento de IA generativa (GSU) que debes comprar. Si debes estimar la cantidad de GSU, haz clic en la herramienta de estimación.
    1. Selecciona tu Modelo.
    2. Ingresa la cantidad de consultas por segundo.
    3. Ingresa la cantidad de caracteres de entrada por consulta.
    4. Ingresa la cantidad de imágenes de entrada por consulta.
    5. Ingresa la cantidad de segundos de video por consulta.
    6. Ingresa la cantidad de segundos de audio por consulta.
    7. Ingresa la cantidad de caracteres de salida por consulta.
    8. Si deseas usar los valores que ingresaste en la herramienta de estimación, haz clic en Usar calculado.
  7. Selecciona el Plazo.

    Si eliges una semana, tienes la opción de proporcionar una fecha y una hora de inicio dentro de las dos semanas posteriores a la realización de un pedido. Si no proporcionas una fecha y hora de inicio, procesaremos el pedido en cuanto podamos asegurarnos de que haya capacidad disponible. Las fechas y horas de inicio solicitadas se procesan en la medida de lo posible, y no se garantiza que los pedidos se completen en esas fechas hasta que se apruebe el estado del pedido.

    Si la fecha de inicio solicitada es muy cercana a la fecha actual, es posible que tu pedido se apruebe y active después de esa fecha, lo que significa que la fecha de finalización seguirá siendo siete días después de la fecha de activación.

  8. Selecciona la opción Renovación.
  9. Haga clic en Continuar.
  10. En la sección Resumen, revisa las estimaciones de precio y capacidad de procesamiento de tu pedido. Lee los términos que se indican y vinculan en el formulario.
  11. Para finalizar el pedido, haz clic en Confirmar.

Cómo cambiar el pedido de capacidad de procesamiento aprovisionada

En esta tabla, se describe cómo puedes modificar tus pedidos de rendimiento reservado a través de la consola de Google Cloud según el estado de tu pedido y las condiciones existentes. Para solicitar acceso a estas funciones de versión preliminar, completa y envía el formulario de control de acceso de rendimiento aprovisionado.

Estado del pedido Acción Nota Pasos en la consola de Google Cloud
Pendiente de revisión Puedes cancelar tu pedido.

Si tienes más cambios en tu pedido, cancela el pedido pendiente y realiza uno nuevo.

Si tienes varios modelos, cada uno puede tener solo una revisión de pedido pendiente o un pedido pendiente a la vez.

Para cancelar tu pedido pendiente en la consola de Google Cloud, haz lo siguiente:
  1. Ve a la página Capacidad de procesamiento aprovisionada.
  2. Selecciona la Región en la que se encuentra tu pedido pendiente.
  3. Para ir a la página Detalles del pedido, haz clic en el ID del pedido del pedido que quieres cancelar.
  4. Haz clic en Cancelar.
  5. En el diálogo ¿Confirmas que quieres cancelar el pedido?, haz clic en Cancelar pedido.
Activo

Puedes aumentar las GSU en los pedidos existentes.

Puedes habilitar o inhabilitar las renovaciones automáticas.

Puedes cambiar la versión del modelo.

Si se cumplen ambas condiciones, no podrás cambiar tu pedido:
  • Faltan menos de 5 días para que venza el pedido.
  • El pedido no está configurado para renovarse automáticamente.
Para cambiar tu pedido activo en la consola de Google Cloud, usa uno de los siguientes métodos:
  • En la página Caudal aprovisionado, haz clic en el símbolo de la columna Acciones y, luego, en Editar.
  • En la página Detalles del pedido, haz clic en el botón Editar.

Comprobar estado del pedido

Después de enviar tu pedido de capacidad de procesamiento aprovisionada, el estado del pedido podría ser uno de los siguientes:

  • Pendiente de revisión: Realizaste tu pedido. Como la aprobación depende de la capacidad disponible para aprovisionar tu pedido, este se encuentra en espera de revisión y aprobación. Para obtener más información sobre el estado de tu pedido pendiente, comunícate con tu Google Cloud representante de cuenta.
  • Aprobado: Google aprobó tu pedido.
  • Activo: Google activó tu pedido y, luego, comienza la facturación.
  • Vencido: Tu pedido venció.

Cómo ver los pedidos de capacidad de procesamiento aprovisionada

Sigue estos pasos para ver tus pedidos de capacidad de procesamiento aprovisionada:

Console

  1. En la consola de Google Cloud, ve a la página Capacidad de procesamiento aprovisionada.

    Ir a Capacidad de procesamiento aprovisionada

  2. Selecciona la Región. Aparecerá tu lista de pedidos.

¿Qué sigue?