Se usó la API de Cloud Translation para traducir esta página.

Usa reservas con el entrenamiento

En este documento, se explica cómo usar las reservas de Compute Engine para garantizar que tus trabajos de entrenamiento personalizados tengan los recursos de máquina virtual (VM) necesarios para ejecutarse.

Las reservas son una función de Compute Engine. Ayudan a garantizar que tengas los recursos disponibles para crear VMs con el mismo hardware (memoria y CPU virtuales) y recursos opcionales (CPUs, GPUs, TPUs y discos SSD locales) cuando los necesites.

Cuando creas una reserva, Compute Engine verifica que la capacidad solicitada esté disponible en la zona especificada. Si es así, Compute Engine reserva los recursos, crea la reserva y sucede lo siguiente:

Puedes consumir los recursos reservados de inmediato, y permanecerán disponibles hasta que borres la reserva.
Se te cobrará por los recursos reservados con la misma tarifa según demanda que las VMs en ejecución, incluidos los descuentos aplicables, hasta que se borre la reserva. Una VM que consume una reserva no genera cargos independientes. Solo se te cobra por los recursos que no están incluidos en la reserva, como los discos o las direcciones IP. Para obtener más información, consulta los precios de las reservas.

Limitaciones y requisitos

Cuando uses reservas de Compute Engine con Vertex AI, ten en cuenta las siguientes limitaciones y requisitos:

Vertex AI solo puede usar reservas para CPU, VMs con GPU o TPUs (vista previa).
Vertex AI no puede consumir reservas de VMs que tienen discos SSD locales conectados de forma manual.
El uso de reservas de Compute Engine con Vertex AI solo se admite para el entrenamiento y la inferencia personalizados, y para Vertex AI Workbench (vista previa).
Para consumir la reserva, las propiedades de la VM de la reserva deben coincidir exactamente con tu carga de trabajo de Vertex AI. Por ejemplo, si una reserva especifica un tipo de máquina a2-ultragpu-8g, la carga de trabajo de Vertex AI solo puede consumir la reserva si también usa un tipo de máquina a2-ultragpu-8g. Consulta los Requisitos.
Para consumir una reserva compartida de VMs con GPU o TPU, debes consumirla con su proyecto propietario o un proyecto de consumidor con el que se comparte la reserva. Consulta Cómo funcionan las reservas compartidas.
Para admitir actualizaciones periódicas de tus implementaciones de Vertex AI, te recomendamos que aumentes el recuento de VMs en al menos 1 VM adicional para cada implementación simultánea.
Se admiten tanto el inicio flexible para el programador dinámico de cargas de trabajo como los trabajos de entrenamiento en ejecución en un recurso persistente, excepto cuando se usan reservas de Compute Engine con el entrenamiento de Vertex AI.

Facturación

Cuando usas las reservas de Compute Engine, se te factura lo siguiente:

Precios de Compute Engine para los recursos de Compute Engine, incluidos los descuentos por uso comprometido (CUD) aplicables. Consulta los precios de Compute Engine.
Tarifas de administración del entrenamiento personalizado de Vertex AI, además del uso de tu infraestructura. Consulta Precios de los modelos entrenados de forma personalizada.

Antes de comenzar

Revisa los requisitos y las y las restricciones para las reservas.
Revisa los requisitos de cuota y las restricciones para las reservas.

Permite que se consuma una reserva

Antes de consumir una reserva de CPUs, VMs con GPU o TPU, debes configurar su política de uso compartido para permitir que Vertex AI consuma la reserva. Para ello, usa uno de los siguientes métodos:

Permite el consumo mientras se crea una reserva
Permite el consumo en una reserva existente

Cómo permitir el consumo mientras se crea una reserva

Cuando creas una reserva de un solo proyecto o compartida de VMs con GPU, puedes permitir que Vertex AI consuma la reserva de la siguiente manera:

Si usas la consola de Google Cloud , en la sección Servicios de Google Cloud, selecciona Compartir reserva.
Si usas Google Cloud CLI, incluye la marca --reservation-sharing-policy establecida en ALLOW_ALL.
Si usas la API de REST, incluye en el cuerpo de la solicitud el campo serviceShareType establecido en ALLOW_ALL.

Cómo permitir el consumo en una reserva existente

Solo puedes modificar una reserva creada de forma automática de VMs con GPU o TPU para una reserva futura después de la hora de inicio de la reserva.

Para permitir que Vertex AI consuma una reserva existente, usa uno de los siguientes métodos:

Verifica que se haya consumido una reserva

Para verificar que se esté consumiendo la reserva, consulta Verifica el consumo de las reservas en la documentación de Compute Engine.

Crea un trabajo de entrenamiento personalizado con una reserva

Usa la API de REST para crear un trabajo de entrenamiento personalizado que consuma una reserva de Compute Engine de VMs con GPU.

REST

Antes de usar cualquiera de los datos de solicitud a continuación, realiza los siguientes reemplazos:

LOCATION: es la región en la que se ejecutará el contenedor o el paquete de Python.
PROJECT_ID: Es el proyecto en el que se creó la reserva. Para consumir una reserva compartida de otro proyecto, debes compartir la reserva con ese proyecto. Para obtener más información, consulta Modifica los proyectos de consumidor en una reserva compartida.
JOB_NAME: Obligatorio. Es un nombre visible para CustomJob.
MACHINE_TYPE: Es el tipo de máquina que se usará para el trabajo. Su configuración predeterminada es n1-standard-2. Para obtener más información sobre los tipos de máquinas compatibles, consulta Configura recursos de procesamiento para el entrenamiento personalizado.
ACCELERATOR_TYPE: Es el tipo de acelerador que se adjuntará a la máquina. Para obtener más información sobre el tipo de GPU que admite cada tipo de máquina, consulta GPU para cargas de trabajo de procesamiento.
ACCELERATOR_COUNT: Es la cantidad de aceleradores que se deben conectar a la máquina.
Define el trabajo de entrenamiento personalizado:
- RESERVATION_AFFINITY_TYPE: debe ser ANY, SPECIFIC_RESERVATION o NONE.
  - ANY significa que las VMs de tu customJob pueden consumir automáticamente cualquier reserva con propiedades coincidentes.
  - SPECIFIC_RESERVATION significa que las VMs de tu customJob solo pueden consumir una reserva a la que las VMs se orienten de forma específica por nombre.
  - NONE significa que las VMs de customJob no pueden consumir ninguna reserva. Especificar NONE tiene el mismo efecto que omitir una especificación de afinidad de reserva.
- ZONE: Es la zona en la que se creó la reserva.
- RESERVATION_NAME: El nombre de tu reserva.
- DISK_TYPE: Opcional es el tipo de disco de arranque que se usará para el trabajo, ya sea pd-standard (predeterminado) o pd-ssd. Obtén más información sobre los tipos de discos.
- DISK_SIZE: Opcional es el tamaño en GB del disco de arranque que se usará para el trabajo. El valor predeterminado es 100.
- REPLICA_COUNT: Es la cantidad de réplicas de trabajadores que se deben usar. En la mayoría de los casos, debes configurar esta opción como 1 para el primer grupo de trabajadores.
- Si tu aplicación de entrenamiento se ejecuta en un contenedor personalizado, especifica lo siguiente:
  - CUSTOM_CONTAINER_IMAGE_URI: es el URI de una imagen de contenedor en Artifact Registry o Docker Hub que se ejecuta en cada réplica de trabajador.
  - CUSTOM_CONTAINER_COMMAND: Opcional El comando que se invocará cuando se inicie el contenedor. Este comando anula el punto de entrada predeterminado del contenedor.
  - CUSTOM_CONTAINER_ARGS: Opcional son los argumentos que se transmitirán cuando se inicia el contenedor (opcional).
- Si tu aplicación de entrenamiento es un paquete de Python que se ejecuta en un contenedor compilado previamente, especifica lo siguiente:
  - EXECUTOR_IMAGE_URI: Es el URI de la imagen de contenedor que ejecuta el código proporcionado. Consulta los contenedores compilados previamente disponibles para el entrenamiento.
  - PYTHON_PACKAGE_URIS: es una lista separada por comas de URI de Cloud Storage que especifican los archivos de paquete de Python que son el programa de entrenamiento y sus paquetes dependientes. La cantidad máxima de URI de paquete es 100.
  - PYTHON_MODULE: es el nombre del módulo de Python que se ejecutará después de instalar los paquetes.
  - PYTHON_PACKAGE_ARGS: Opcional Son los argumentos de la línea de comandos que se pasarán al módulo de Python.
- TIMEOUT: Opcional es el tiempo máximo de ejecución para el trabajo.
Especifica LABEL_NAME y LABEL_VALUE para las etiquetas que desees aplicar a este trabajo personalizado.

Método HTTP y URL:

POST https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/customJobs

Cuerpo JSON de la solicitud:

{
  "displayName": "JOB_NAME",
  "jobSpec": {
    "workerPoolSpecs": [
      {
        "machineSpec": {
          "machineType": "MACHINE_TYPE",
          "acceleratorType": "ACCELERATOR_TYPE",
          "acceleratorCount": ACCELERATOR_COUNT,
          "reservationAffinity": {
            "reservationAffinityType": "RESERVATION_AFFINITY_TYPE",
            "key": "compute.googleapis.com/reservation-name",
            "values": [
              "projects/PROJECT_ID/zones/ZONE/reservations/RESERVATION_NAME"
            ]
          },
        },
        "replicaCount": REPLICA_COUNT,
        "diskSpec": {
          "bootDiskType": DISK_TYPE,
          "bootDiskSizeGb": DISK_SIZE
        },

        // Union field task can be only one of the following:
        "containerSpec": {
          "imageUri": CUSTOM_CONTAINER_IMAGE_URI,
          "command": [
            CUSTOM_CONTAINER_COMMAND
          ],
          "args": [
            CUSTOM_CONTAINER_ARGS
          ]
        },
        "pythonPackageSpec": {
          "executorImageUri": EXECUTOR_IMAGE_URI,
          "packageUris": [
            PYTHON_PACKAGE_URIS
          ],
          "pythonModule": PYTHON_MODULE,
          "args": [
            PYTHON_PACKAGE_ARGS
          ]
        }
        // End of list of possible types for union field task.
      }
      // Specify one workerPoolSpec for single replica training, or multiple workerPoolSpecs
      // for distributed training.
    ],
    "scheduling": {
      "timeout": TIMEOUT
    }
  },
  "labels": {
    LABEL_NAME_1": LABEL_VALUE_1,
    LABEL_NAME_2": LABEL_VALUE_2
  }
}

Para enviar tu solicitud, elige una de estas opciones:

curl

Nota: Con el siguiente comando, se supone que accediste a la CLI de gcloud con tu cuenta de usuario a través de la ejecución de gcloud init o gcloud auth login, o a través del uso de Cloud Shell, que accede de forma automática a la CLI de gcloud. Para comprobar la cuenta activa actual, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

curl -X POST \
     -H "Authorization: Bearer $(gcloud auth print-access-token)" \
     -H "Content-Type: application/json; charset=utf-8" \
     -d @request.json \
     "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/customJobs"

PowerShell

Nota: En el siguiente comando, se supone que accediste a la CLI de gcloud con tu cuenta de usuario a través de la ejecución de gcloud init o gcloud auth login . Para comprobar la cuenta activa actual, ejecuta gcloud auth list.

Guarda el cuerpo de la solicitud en un archivo llamado request.json y ejecuta el siguiente comando:

$cred = gcloud auth print-access-token
$headers = @{ "Authorization" = "Bearer $cred" }

Invoke-WebRequest `
    -Method POST `
    -Headers $headers `
    -ContentType: "application/json; charset=utf-8" `
    -InFile request.json `
    -Uri "https://LOCATION-aiplatform.googleapis.com/v1/projects/PROJECT_ID/locations/LOCATION/customJobs" | Select-Object -Expand Content

La respuesta contiene información sobre las especificaciones y los TRAININGPIPELINE_ID.

Respuesta

{
  "name": "projects/PROJECT_ID/locations/LOCATION/customJobs/JOB_ID",
  "displayName": "JOB_NAME",
  "trainingTaskInputs": {
    "workerPoolSpecs": [
      {
        "machineSpec": {
          "machineType": "MACHINE_TYPE",
          "acceleratorType": "ACCELERATOR_TYPE",
          "acceleratorCount": ACCELERATOR_COUNT
        },
        "replicaCount": "1",
        "pythonPackageSpec": {
          "executorImageUri": "us-docker.pkg.dev/vertex-ai/training/training-tf-cpu.2-1:latest",
          "packageUris": [
            "gs://BUCKET_NAME/training/hello-custom-training-1.0.tar.gz"
          ],
          "pythonModule": "trainer.task",
          "args": [
            "--model-dir=gs://BUCKET_NAME/output/"
          ]
        }
      }
    ]
  },
  "state": "JOB_STATE_PENDING",
  "createTime": "2020-09-15T19:09:54.342080Z",
  "startTime": "2020-09-15T19:13:42.991045Z",
}

¿Qué sigue?

Obtén información sobre las reservas de los recursos zonales de Compute Engine.
Obtén información para usar reservas con la inferencia en línea de Vertex AI.
Obtén información para usar reservas con la inferencia por lotes de Vertex AI.
Obtén más información para ver las reservas.
Obtén más información para supervisar el consumo de reservas.