Comprendere il rendimento del modello è un aspetto importante della gestione degli modelli di machine learning. Puoi monitorare i pattern di traffico, i tassi di errore, la latenza e l'utilizzo delle risorse del tuo modello per rilevare i problemi e trovare il tipo di macchina giusto per ottimizzare la latenza e i costi.
Puoi anche utilizzare Cloud Monitoring per configurare gli avvisi in base alle metriche. Ad esempio, puoi ricevere avvisi se la latenza della previsione del modello diventa troppo elevata. AI Platform Prediction esporta
metriche in Cloud Monitoring.
Ogni tipo di metrica di AI Platform Prediction include "previsione" nel nome, ad esempio ml.googleapis.com/prediction/online/replicas
o
ml.googleapis.com/prediction/online/accelerator/duty_cycle
.
Monitoraggio delle metriche sul rendimento
Puoi trovare informazioni sui pattern di traffico, sugli errori e sulla latenza del tuo modello nella console Google Cloud. Nella pagina Dettagli versione, nella scheda Rendimento, sono disponibili i seguenti grafici:
- Previsioni: il numero di previsioni al secondo per le previsioni online e batch. Se hai più di un'istanza per richiesta, ogni istanza viene conteggiata in questo grafico.
- Errori: il tasso di errori generati dal modello. Un tasso elevato di errori è in genere un segno che qualcosa non va nel modello o nelle richieste al modello. I codici di risposta possono essere utilizzati per determinare quali errori si verificano.
- Latenza del modello e Latenza totale: la latenza del modello. La latenza complessiva è il tempo totale che la richiesta trascorre nel servizio. La latenza del modello è il tempo impiegato per eseguire il calcolo.
Per visualizzare i grafici sul rendimento:
Vai alla pagina Modelli di AI Platform Prediction nella console Google Cloud.
Fai clic sul nome del modello nell'elenco per accedere alla pagina Dettagli modello.
Fai clic sul nome della versione nell'elenco per accedere alla pagina Dettagli della versione.
Se non è ancora selezionata, fai clic sulla scheda Rendimento.
Scorri per visualizzare ciascun grafico.
Monitoraggio del consumo di risorse
I grafici di utilizzo delle risorse per le versioni del modello che utilizzano tipi di macchine di Compute Engine (N1) sono disponibili nella console Google Cloud. Nella pagina Dettagli della versione, nella scheda Utilizzo delle risorse, sono disponibili i seguenti grafici:
- Replica: il numero di repliche per la versione. Se utilizzi la scalabilità manuale, questo grafico mostra il numero di nodi che hai scelto durante il deployment o l'ultimo aggiornamento della versione. Se hai attivato la scalabilità automatica, il grafico mostra come il numero di repliche del modello cambia nel tempo in risposta alle variazioni del traffico.
- Utilizzo CPU, Utilizzo memoria, Ciclo di lavoro medio dell'acceleratore e Utilizzo memoria dell'acceleratore: l'utilizzo della CPU, della GPU e della memoria della versione per replica.
Byte di rete inviati e Byte di rete ricevuti: l'utilizzo della rete del job, misurato in byte al secondo.
Per visualizzare i grafici di utilizzo delle risorse:
Vai alla pagina Modelli di AI Platform Prediction nella console Google Cloud.
Fai clic sul nome del modello nell'elenco per accedere alla pagina Dettagli modello.
Fai clic sul nome della versione nell'elenco per accedere alla pagina Dettagli della versione.
Fai clic sulla scheda Utilizzo delle risorse.
Scorri per visualizzare ciascun grafico.
Passaggi successivi
- Risolvi i problemi relativi alla versione del modello.
- Seleziona un tipo di macchina per diminuire la latenza o i costi.