Durante el proceso de capacitación, implementación de modelos y obtención de predicciones, debes administrar los recursos en Google Cloud Platform. En esta página, se describe cómo trabajar con modelos, versiones y trabajos.
Asigna nombres a los recursos de AI Platform Training
Debes especificar un nombre para cada trabajo que crees. Las reglas para asignar nombres son coherentes en los tres tipos de recursos. Cada nombre cumple con las siguientes especificaciones:
- Solo puede contener letras, números y guiones bajos.
- Distingue mayúsculas de minúsculas.
- Debe comenzar con una letra.
- No debe tener más de 128 caracteres.
- Debe ser único dentro de tu espacio de nombres (tu proyecto de modelos y trabajos, el modelo primario para versiones).
Debes crear nombres que sean fáciles de distinguir en listas de recursos, como los registros de trabajos. A continuación, se muestran algunas sugerencias:
- Nombra todos los trabajos para el mismo modelo, usa el nombre del modelo y un índice de trabajo (la marca de tiempo cuando se crea el trabajo funciona bien).
- Asigna un nombre a los modelos para que se identifiquen con facilidad por el conjunto de datos que usan (
census_wide_deep
suele ser mejor quemy_new_model
, por ejemplo). - Las versiones son mejores si son fáciles de leer. En lugar de usar una marca de tiempo o un valor único similar, recomendamos usar designadores de versiones simples, como
v1
.
Administra trabajos
AI Platform Training admite dos tipos de trabajos: entrenamiento y predicción por lotes. Los detalles para cada uno son diferentes, pero la operación básica es la misma.
La siguiente tabla resume las operaciones del trabajo y enumera las interfaces que puede usar para realizarlas:
Operación | Interfaces | Notas |
---|---|---|
crea |
projects.jobs.create
|
La creación de un trabajo se describe en detalle en las guías de entrenamiento y predicción por lotes. |
No hay implementación de consola. | ||
cancela |
projects.jobs.cancel
|
Cancela un trabajo en ejecución. |
Cancelar en la página Detalles del trabajo. | ||
get |
projects.jobs.get
|
La información que obtienes se describe en la referencia del recurso Jobs . |
Página Detalles del trabajo (ingresa con un vínculo de la lista Trabajos). | ||
list |
projects.jobs.list
|
Solo se mostrarán los trabajos creados en los últimos 90 días. |
Lista Trabajos. |
Maneja operaciones asíncronas
La mayoría de las operaciones de administración de recursos de AI Platform Training se muestran lo más rápido posible y proporcionan una respuesta completa. Sin embargo, hay dos tipos de operaciones asíncronas que debes comprender: trabajos y operaciones de larga ejecución.
Cuando inicias una operación asíncrona, normalmente deseas saber cuándo se complete. El proceso para obtener el estado es diferente al de los trabajos y las operaciones de larga ejecución:
Obtén el estado de un trabajo
Puedes usar projects.jobs.get para obtener el estado de un trabajo. Este método también se proporciona como gcloud ai-platform jobs describe
y en la página Trabajos en la consola deGoogle Cloud . Sin importar cómo obtengas el estado, la información se basa en los miembros del recurso de trabajo. Sabrás que el trabajo está completo cuando Job.state
en la respuesta sea igual a uno de estos valores:
SUCCEEDED
FAILED
CANCELLED
Obtén el estado de una operación de larga duración
AI Platform Training tiene tres operaciones de larga duración:
- Crea una versión
- Borra un modelo
- Borra una versión
De las operaciones de larga ejecución, solo la creación de una versión puede tardar mucho tiempo en completarse. Borrar modelos y versiones se logra normalmente casi en tiempo real.
Si creas una versión con Google Cloud CLI o la consola deGoogle Cloud , la interfaz te informa automáticamente cuando se completa la operación. Si creas una versión con la API, puedes hacer un seguimiento del estado de la operación por ti mismo:
Obtén el nombre de la operación que asignó el servicio del objeto Operación en la respuesta de la llamada a projects.models.versions.create. La clave para el valor del nombre es
"name"
.Usa projects.operations.get para sondear periódicamente el estado de la operación.
Usa el nombre de la operación del primer paso para formar una string de nombre del formulario:
'projects/my_project/operations/operation_name'
El mensaje de respuesta contiene un objeto de Operación.
Obtén el valor de la clave
"done"
. Este es un indicador booleano de finalización de la operación. Es verdadero si la operación está completa.
El objeto de operación incluirá una de las dos claves cuando finalice:
La clave
"response"
está presente si la operación se realizó de modo correcto. Su valor debe ser google.protobuf.Empty, ya que ninguna de las operaciones de larga duración de AI Platform Training tiene objetos de respuesta.La clave
"error"
está presente si hubo un error. Su valor es un objeto de Estado.
¿Qué sigue?
- Entrena un modelo.
- Obtén más información sobre el uso de etiquetas para organizar tus recursos.