Vertex AI esporta le metriche in Cloud Monitoring. Vertex AI mostra anche alcune di queste metriche nella console Google Cloud Vertex AI. Puoi utilizzare Cloud Monitoring per creare dashboard o configurare avvisi basati sulle metriche. Ad esempio, puoi ricevere avvisi se la latenza di previsione di un modello in Vertex AI diventa troppo elevata.
Le sezioni seguenti descrivono le metriche fornite nella console Vertex AI Google Cloud , che potrebbero essere metriche dirette o calcolate che Vertex AI invia a Cloud Monitoring.
Per visualizzare un elenco della maggior parte delle metriche che Vertex AI esporta in
Cloud Monitoring, consulta
aiplatform
. Per le metriche
di addestramento
personalizzato, consulta i tipi di metriche che iniziano con training
nella sezione
ml
.
Metriche di monitoraggio dell'addestramento personalizzato
Quando esegui l'addestramento personalizzato, puoi monitorare i seguenti tipi di utilizzo delle risorse per ogni nodo di addestramento:
- Utilizzo di CPU o GPU di ciascun nodo di addestramento
- Utilizzo di memoria di ogni nodo di addestramento
- Utilizzo della rete (byte inviati al secondo e byte ricevuti al secondo)
Se utilizzi l'ottimizzazione degli iperparametri, puoi visualizzare le metriche per ogni prova.
Per visualizzare queste metriche dopo aver avviato l'addestramento personalizzato:
Nella console Google Cloud , vai a una delle seguenti pagine, a seconda che tu stia utilizzando l'ottimizzazione degli iperparametri:
Se non utilizzi l'ottimizzazione degli iperparametri, vai alla pagina Job personalizzati.
Se utilizzi l'ottimizzazione degli iperparametri, vai alla pagina Job di ottimizzazione iperparametri.
Fai clic sul nome della risorsa di addestramento personalizzata.
Se hai creato una risorsa
TrainingPipeline
personalizzata, fai clic sul nome del job creato daTrainingPipeline
, ad esempioTRAINING_PIPELINE_NAME-custom-job
oTRAINING_PIPELINE_NAME-hyperparameter-tuning-job
.Fai clic sulla scheda CPU, GPU o Rete per visualizzare i grafici di utilizzo della metrica che ti interessa.
Se utilizzi l'ottimizzazione degli iperparametri, puoi fare clic su una riga nella tabella Prove di ottimizzazione degli iperparametri per visualizzare le metriche per una prova specifica.
Per visualizzare metriche meno recenti o personalizzare la visualizzazione delle metriche, utilizza
Monitoring. Vertex AI esporta le metriche di addestramento personalizzato in Monitoring come
tipi di metrica con il prefisso ml.googleapis.com/training
. Il tipo di risorsa
monitorata è cloudml_job
.
Tieni presente che AI Platform Training esporta le metriche in Monitoring con gli stessi tipi di metriche e lo stesso tipo di risorsa.
Metriche di monitoraggio degli endpoint
Dopo aver eseguito il deployment di un modello su un endpoint, puoi monitorare l'endpoint per comprendere le prestazioni e l'utilizzo delle risorse del modello. Puoi monitorare metriche come i pattern di traffico, i tassi di errore, la latenza e l'utilizzo delle risorse per assicurarti che il tuo modello risponda alle richieste in modo coerente e prevedibile. Ad esempio, potresti eseguire di nuovo il deployment del modello con un tipo di macchina diverso per ottimizzare i costi. Dopo aver apportato la modifica, puoi monitorare il modello per verificare se le modifiche hanno influito negativamente sul suo rendimento.
In Cloud Monitoring, il tipo di risorsa monitorata per i modelli di cui è stato eseguito il deployment è
aiplatform.googleapis.com/Endpoint
.
Metriche delle prestazioni
Le metriche delle prestazioni possono aiutarti a trovare informazioni sui pattern di traffico, sugli errori e sulla latenza del modello. Puoi visualizzare le seguenti metriche del rendimento nella console Google Cloud .
- Previsioni al secondo: il numero di previsioni al secondo per le previsioni online e batch. Se hai più di un'istanza per richiesta, ogni istanza viene conteggiata in questo grafico.
- Percentuale di errori di previsione: il tasso di errori prodotti dal modello. Un tasso di errore elevato potrebbe indicare un problema con il modello o con le richieste al modello. Visualizza il grafico dei codici di risposta per determinare quali errori si verificano.
- Latenza del modello (solo per modelli tabulari e personalizzati): il tempo trascorso per eseguire il calcolo.
- Latenza di overhead (solo per modelli tabulari e personalizzati): il tempo totale trascorso a elaborare una richiesta, al di fuori del calcolo.
- Durata latenza totale: il tempo totale che una richiesta trascorre nel servizio, ovvero la latenza del modello più la latenza di overhead.
Utilizzo delle risorse
Le metriche di utilizzo delle risorse possono aiutarti a monitorare l'utilizzo della CPU, della memoria e della rete del modello. Puoi visualizzare le seguenti metriche di utilizzo nella console Google Cloud .
- Conteggio repliche: il numero di repliche attive utilizzate dal modello di cui è stato eseguito il deployment.
- Target di repliche: il numero di repliche attive richieste per il modello di cui è stato eseguito il deployment.
- Utilizzo CPU: tasso di utilizzo attuale dei core della CPU della replica del modello di cui è stato eseguito il deployment. Il 100% rappresenta un core della CPU completamente utilizzato, quindi una replica può raggiungere un utilizzo superiore al 100% se il tipo di macchina ha più core.
- Utilizzo della memoria: la quantità di memoria allocata dalla replica del modello di cui è stato eseguito il deployment e attualmente in uso.
- Byte di rete inviati: il numero di byte inviati tramite la rete dalla replica del modello di cui è stato eseguito il deployment.
- Byte di rete ricevuti: il numero di byte ricevuti tramite la rete dalla replica del modello di cui è stato eseguito il deployment.
- Ciclo di servizio medio dell'acceleratore: la frazione media di tempo nell'ultimo periodo di campionamento durante il quale uno o più acceleratori hanno eseguito attivamente l'elaborazione.
- Utilizzo della memoria dell'acceleratore: la quantità di memoria allocata dalla replica del modello di cui è stato eseguito il deployment.
Visualizza i grafici delle metriche di monitoraggio degli endpoint
Vai alla pagina Endpoint di Vertex AI nella consoleGoogle Cloud .
Fai clic sul nome di un endpoint per visualizzarne le metriche.
Sotto gli intervalli del grafico, fai clic su Rendimento o Utilizzo delle risorse per visualizzare le metriche relative al rendimento o all'utilizzo delle risorse.
Puoi selezionare intervalli diversi per il grafico per visualizzare i valori delle metriche in un periodo di tempo specifico, ad esempio 1 ora, 12 ore o 14 giorni.
Se hai eseguito il deployment di più modelli nell'endpoint, puoi selezionare o deselezionare i modelli per visualizzare o nascondere le metriche per modelli specifici. Se selezioni più modelli, la console raggruppa alcune metriche dei modelli in un unico grafico. Ad esempio, se una metrica fornisce un solo valore per modello, la console raggruppa le metriche del modello in un unico grafico, ad esempio l'utilizzo della CPU. Per le metriche che possono avere più valori per modello, la console fornisce un grafico per ogni modello. Ad esempio, la console fornisce un grafico dei codici di risposta per ogni modello.
Metriche di monitoraggio di Vertex AI Feature Store (legacy)
Dopo aver creato un feature store utilizzando Vertex AI Feature Store (legacy), puoi monitorare le sue prestazioni e l'utilizzo delle risorse, ad esempio le latenze di pubblicazione dello spazio di archiviazione online o il numero di nodi di spazio di archiviazione online. Ad esempio, potresti voler monitorare le modifiche alle metriche di pubblicazione dell'archivio online dopo aver aggiornato il numero di nodi dell'archivio online di un featurestore.
In Cloud Monitoring, il tipo di risorsa monitorata per un feature store è
aiplatform.googleapis.com/Featurestore
.
Metriche
- Dimensioni richiesta: le dimensioni della richiesta per tipo di entità nell'archivio di caratteristiche.
- Scrittura di archiviazione offline per la scrittura di streaming: il numero di richieste di scrittura di streaming elaborate per l'archiviazione offline.
- Tempo di ritardo della scrittura in streaming nell'archivio offline: il tempo trascorso (in secondi) tra la chiamata all'API di scrittura e la scrittura nell'archivio offline.
- Conteggio nodi: il numero di nodi di pubblicazione online per il tuo archivio di caratteristiche.
- Latenza: il tempo totale che una richiesta di pubblicazione o importazione di flussi di dati online trascorre nel servizio.
- Query al secondo: il numero di query di pubblicazione o importazione di flussi di dati online gestite dal feature store.
- Percentuale di errori: la percentuale di errori prodotti da Feature Store durante la gestione delle richieste di pubblicazione online oimportazione di flussi di datig.
- Utilizzo della CPU: la frazione di CPU allocata dallo store delle funzionalità utilizzata dallo spazio di archiviazione online. Questo numero può superare il 100% se lo spazio di archiviazione per la pubblicazione online è sovraccarico. Valuta la possibilità di aumentare il numero di nodi di servizio online di Feature Store per ridurre l'utilizzo della CPU.
- Utilizzo CPU - nodo più attivo: il carico della CPU per il nodo più attivo nello spazio di archiviazione online del feature store.
- Archiviazione offline totale: quantità di dati archiviati nell'archiviazione offline di Feature Store.
- Spazio di archiviazione online totale: la quantità di dati archiviati nello spazio di archiviazione online del feature store.
- Velocità effettiva di pubblicazione online: in MBps, la velocità effettiva per le richieste di pubblicazione online.
Visualizza i grafici delle metriche di monitoraggio di Feature Store
Vai alla pagina Funzionalità di Vertex AI nella consoleGoogle Cloud .
Nella colonna Feature Store, fai clic sul nome di un feature store per visualizzarne le metriche.
Puoi selezionare intervalli diversi per il grafico per visualizzare i valori delle metriche in un periodo di tempo specifico, ad esempio 1 ora, 1 giorno o 1 settimana.
Per alcune metriche di pubblicazione online, puoi scegliere di visualizzare le metriche per un metodo specifico, che suddivide ulteriormente le metriche per tipo di entità. Ad esempio, puoi visualizzare la latenza per il metodo
ReadFeatureValues
o il metodoStreamingReadFeatureValues
.
Metriche di monitoraggio di Vertex AI Feature Store
Dopo aver configurato l'erogazione online utilizzando Vertex AI Feature Store, puoi monitorarne le prestazioni e l'utilizzo delle risorse. Ad esempio, puoi monitorare i carichi della CPU, il numero di nodi per la pubblicazione online ottimizzata e il numero di richieste di pubblicazione.
In Cloud Monitoring, il tipo di risorsa monitorata per un'istanza del negozio online
è aiplatform.googleapis.com/FeatureOnlineStore
.
Metriche
Byte archiviati: la quantità di dati in byte nell'istanza dell'online store.
Carico CPU: il carico medio della CPU dei nodi nell'istanza dell'online store.
Carico CPU (nodo più attivo): il carico della CPU del nodo più attivo nell'istanza dell'online store.
Conteggio nodi: il numero di nodi di pubblicazione online per un'istanza di negozio online configurata per la pubblicazione online tramite Bigtable.
Numero di nodi ottimizzati: il numero di nodi di pubblicazione online per un'istanza di negozio online configurata per la pubblicazione online ottimizzata.
Conteggio richieste: il numero di richieste ricevute dall'istanza del negozio online.
Latenza di richiesta: la latenza di richiesta lato server dell'istanza del negozio online.
Conteggio byte risposta: la quantità di dati in byte inviati nelle risposte di pubblicazione online.
Età dei dati in uso: l'età dei dati in uso in secondi, misurata come la differenza tra l'ora corrente e l'ora dell'ultima sincronizzazione.
Sincronizzazioni in corso: il numero di sincronizzazioni in corso in un determinato momento.
Dati in uso per ora di sincronizzazione: suddivisione dei dati nell'istanza dell'online store in base al timestamp della sincronizzazione.