Administra modelos y trabajos

Durante el proceso de capacitación, implementación de modelos y obtención de predicciones, debes administrar los recursos en Google Cloud Platform. En esta página, se describe cómo trabajar con modelos, versiones y trabajos.

Asigna nombres a los recursos de AI Platform Training

Debes especificar un nombre para cada trabajo que crees. Las reglas para asignar nombres son coherentes en los tres tipos de recursos. Cada nombre cumple con las siguientes especificaciones:

  • Solo puede contener letras, números y guiones bajos.
  • Distingue mayúsculas de minúsculas.
  • Debe comenzar con una letra.
  • No debe tener más de 128 caracteres.
  • Debe ser único dentro de tu espacio de nombres (tu proyecto de modelos y trabajos, el modelo primario para versiones).

Debes crear nombres que sean fáciles de distinguir en listas de recursos, como los registros de trabajos. A continuación, se muestran algunas sugerencias:

  • Nombra todos los trabajos para el mismo modelo, usa el nombre del modelo y un índice de trabajo (la marca de tiempo cuando se crea el trabajo funciona bien).
  • Asigna un nombre a los modelos para que se identifiquen con facilidad por el conjunto de datos que usan (census_wide_deep suele ser mejor que my_new_model, por ejemplo).
  • Las versiones son mejores si son fáciles de leer. En lugar de usar una marca de tiempo o un valor único similar, recomendamos usar designadores de versiones simples, como v1.

Administra trabajos

AI Platform Training admite dos tipos de trabajos: entrenamiento y predicción por lotes. Los detalles para cada uno son diferentes, pero la operación básica es la misma.

La siguiente tabla resume las operaciones del trabajo y enumera las interfaces que puede usar para realizarlas:

Operación Interfaces Notas
crea projects.jobs.create

La creación de un trabajo se describe en detalle en las guías de entrenamiento y predicción por lotes.

gcloud ai-platform jobs submit training

gcloud ai-platform jobs submit prediction

No hay implementación de consola.
cancela projects.jobs.cancel

Cancela un trabajo en ejecución.

gcloud ai-platform jobs cancel

Cancelar en la página Detalles del trabajo.
get projects.jobs.get La información que obtienes se describe en la referencia del recurso Jobs.

gcloud ai-platform jobs describe

Página Detalles del trabajo (ingresa con un vínculo de la lista Trabajos).
list projects.jobs.list Solo se mostrarán los trabajos creados en los últimos 90 días.

gcloud ai-platform jobs list

Lista Trabajos.

Maneja operaciones asíncronas

La mayoría de las operaciones de administración de recursos de AI Platform Training se muestran lo más rápido posible y proporcionan una respuesta completa. Sin embargo, hay dos tipos de operaciones asíncronas que debes comprender: trabajos y operaciones de larga ejecución.

Cuando inicias una operación asíncrona, normalmente deseas saber cuándo se complete. El proceso para obtener el estado es diferente al de los trabajos y las operaciones de larga ejecución:

Obtén el estado de un trabajo

Puedes usar projects.jobs.get para obtener el estado de un trabajo. Este método también se proporciona como gcloud ai-platform jobs describe y en la página Trabajos en la consola de Google Cloud. Sin importar cómo obtengas el estado, la información se basa en los miembros del recurso de trabajo. Sabrás que el trabajo se completó cuando el Job.state en la respuesta sea igual a uno de estos valores:

  • SUCCEEDED
  • FAILED
  • CANCELLED

Obtén el estado de una operación de larga duración

AI Platform Training tiene tres operaciones de larga duración:

  • Crea una versión
  • Borra un modelo
  • Borra una versión

De las operaciones de larga ejecución, solo la creación de una versión puede tardar mucho tiempo en completarse. Borrar modelos y versiones se logra normalmente casi en tiempo real.

Si creas una versión con Google Cloud CLI o la consola de Google Cloud, la interfaz te informa automáticamente cuando se completa la operación. Si creas una versión con la API, puedes hacer un seguimiento del estado de la operación por ti mismo:

  1. Obtén el nombre de la operación que asignó el servicio del objeto Operación en la respuesta de la llamada a projects.models.versions.create. La clave para el valor del nombre es "name".

  2. Usa projects.operations.get para sondear periódicamente el estado de la operación.

    1. Usa el nombre de la operación del primer paso para formar una string de nombre del formulario:

      'projects/my_project/operations/operation_name'
      

      El mensaje de respuesta contiene un objeto de Operación.

    2. Obtén el valor de la clave "done". Este es un indicador booleano de finalización de la operación. Es verdadero si la operación está completa.

  3. El objeto de operación incluirá una de las dos claves cuando finalice:

    • La clave "response" está presente si la operación se realizó de modo correcto. Su valor debe ser google.protobuf.Empty, ya que ninguna de las operaciones de larga duración de AI Platform Training tiene objetos de respuesta.

    • La clave "error" está presente si hubo un error. Su valor es un objeto de Estado.

¿Qué sigue?