Gestione di modelli e job

Durante il processo di addestramento e deployment dei modelli e per ottenere previsioni, e gestire le risorse su Google Cloud Platform. Questa pagina descrive come lavorare con modelli, versioni e job.

Denominare le risorse di AI Platform Training

Devi specificare un nome per ogni job creato. Le regole per la denominazione sono coerenti in tutti e tre i tipi di risorse. Ogni nome:

  • Può contenere solo lettere, numeri e trattini bassi.
  • Fa distinzione tra maiuscole e minuscole.
  • Deve iniziare con una lettera.
  • Non deve contenere più di 128 caratteri.
  • Deve essere univoco all'interno del suo spazio dei nomi (il progetto per i modelli e i job, modello principale per le versioni).

Dovresti creare nomi facili da distinguere negli elenchi di risorse, come come log dei job. Ecco alcuni suggerimenti:

  • Assegna un nome a tutti i job per lo stesso modello utilizzando il nome del modello e un indice di job (il timestamp della creazione del job è adatto).
  • Assegna un nome ai modelli in modo che siano facilmente identificabili tramite il set di dati (census_wide_deep di solito è migliore di my_new_model, per esempio).
  • Le versioni sono migliori se sono facilmente leggibili. Invece di utilizzare un timestamp o un valore univoco simile, consigliamo di usare semplici indicatori di versione come v1.

Gestione dei job

AI Platform Training supporta due tipi di job: addestramento e batch la previsione. I dettagli sono diversi, ma l'operazione di base è in modo analogo.

La tabella seguente riassume le operazioni del job ed elenca le interfacce che che puoi utilizzare per eseguirle:

Operazione Interfacce Note
create projects.jobs.create

La creazione di un job viene descritta in dettaglio nella addestramento e previsione batch guide.

gcloud ai-platform jobs submit training

gcloud ai-platform jobs submit prediction

Nessuna implementazione della console.
annulla projects.jobs.cancel

Annullamento di un job in esecuzione.

gcloud ai-platform jobs cancel

Annulla nella pagina Dettagli job.
get projects.jobs.get Le informazioni che ricevi vengono descritte nella sezione Riferimento risorsa Jobs.

gcloud ai-platform jobs describe

Pagina Dettagli job (da inserire con un link dall'elenco di job).
list projects.jobs.list Verranno visualizzati solo i job creati negli ultimi 90 giorni.

gcloud ai-platform jobs list

Job dall'elenco di lettura.

Gestione delle operazioni asincrone

La maggior parte delle operazioni di gestione delle risorse di AI Platform Training restituisce il più rapidamente possibile e fornire una risposta completa. Tuttavia, ci sono due di operazioni asincrone che dovresti conoscere: job e per le operazioni a lunga esecuzione.

Quando avvii un'operazione asincrona, di solito vuoi sapere quando vengono completate. Il processo per ottenere lo stato è diverso per i job e per i job a lunga esecuzione operazioni:

Visualizzazione dello stato di un job

Puoi utilizzare projects.jobs.get per ottenere lo stato di un job. Questo metodo è fornito anche come gcloud ai-platform jobs describe e nella pagina Job della console Google Cloud. Indipendentemente da come viene visualizzato lo stato, le informazioni sono basate su membri del Risorsa job. Scoprirai Il job è completato quando Job.state nella risposta corrisponde a uno di questi valori:

  • SUCCEEDED
  • FAILED
  • CANCELLED

Recuperare lo stato di un'operazione a lunga esecuzione

AI Platform Training prevede tre operazioni a lunga esecuzione:

  • Creazione di una versione
  • Eliminazione di un modello
  • Eliminazione di una versione

Tra le operazioni che richiedono molto tempo, solo la creazione di una versione potrebbe richiedere molto tempo. L'eliminazione di modelli e versioni avviene in genere quasi in tempo reale.

Se crei una versione utilizzando Google Cloud CLI o nella console Google Cloud, l'interfaccia ti informa automaticamente quando l'operazione sia completata. Se crei una versione con l'API, puoi monitorare autonomamente lo stato dell'operazione:

  1. Recupera il nome dell'operazione assegnato dal servizio dall'oggetto Operation nella risposta alla chiamata a projects.models.versions.create. La chiave per il valore del nome è "name".

  2. Utilizza le funzionalità di projects.operations.get per verificare periodicamente lo stato dell'operazione.

    1. Utilizza il nome dell'operazione del primo passaggio per creare una stringa di nomi del modulo:

      'projects/my_project/operations/operation_name'
      

      Il messaggio di risposta contiene Operazione .

    2. Ottieni il valore della chiave "done". Si tratta di un indicatore booleano del completamento dell'operazione. È vero se l'operazione è completata.

  3. Al completamento, l'oggetto Operazione includerà una delle due chiavi:

    • Se l'operazione è riuscita, è presente la chiave "response". È dovrebbe essere google.protobuf.Empty, dato che nessuno dei Le operazioni a lunga esecuzione di AI Platform Training hanno oggetti di risposta.

    • La chiave "error" è presente in caso di errore. Il suo valore è un Stato .

Passaggi successivi