Vertex AI esporta le metriche in Cloud Monitoring. Vertex AI mostra anche alcune di queste metriche nella console Google Cloud di Vertex AI. Puoi utilizzare Cloud Monitoring per creare dashboard o configurare avvisi basati sulle metriche. Ad esempio, puoi ricevere avvisi se la latenza di previsione di un modello in Vertex AI diventa troppo elevata.
Le sezioni seguenti descrivono le metriche fornite nella console Google Cloud di Vertex AI, che possono essere metriche dirette o calcolate inviate da Vertex AI a Cloud Monitoring.
Per visualizzare un elenco della maggior parte delle metriche esportate da Vertex AI in Cloud Monitoring, consulta la sezione"aiplatform" della pagina Metriche di monitoraggio di Google Cloud. Per le metriche di addestramento personalizzate, consulta i tipi di metriche che iniziano con training
nella sezione"ml" di questa pagina.
Metriche di monitoraggio dell'addestramento personalizzato
Quando esegui l'addestramento personalizzato, puoi monitorare i seguenti tipi di utilizzo delle risorse per ogni nodo di addestramento:
- Utilizzo della CPU o della GPU di ogni nodo di addestramento
- Utilizzo della memoria di ogni nodo di addestramento
- Utilizzo della rete (byte inviati al secondo e byte ricevuti al secondo)
Se utilizzi l'ottimizzazione degli iperparametri, puoi visualizzare le metriche per ogni prova.
Per visualizzare queste metriche dopo aver avviato l'addestramento personalizzato, segui questi passaggi:
Nella console Google Cloud, vai a una delle seguenti pagine, a seconda che tu stia utilizzando l'ottimizzazione degli iperparametri:
Se non utilizzi l'ottimizzazione degli iperparametri, vai alla pagina Job personalizzati.
Se utilizzi l'ottimizzazione degli iperparametri, vai alla pagina Job di ottimizzazione degli iperparametri.
Fai clic sul nome della risorsa di addestramento personalizzata.
Se hai creato una risorsa
TrainingPipeline
personalizzata, fai clic sul nome del job creato dalTrainingPipeline
, ad esempioTRAINING_PIPELINE_NAME-custom-job
oTRAINING_PIPELINE_NAME-hyperparameter-tuning-job
.Fai clic sulla scheda CPU, GPU o Rete per visualizzare i grafici di utilizzo per la metrica che ti interessa.
Se utilizzi l'ottimizzazione degli iperparametri, puoi fare clic su una riga nella tabella Prove di ottimizzazione degli iperparametri per visualizzare le metriche di una prova specifica.
Per visualizzare le metriche precedenti o personalizzare la visualizzazione delle metriche, utilizza monitoraggio. Vertex AI esporta le metriche di addestramento personalizzato in Monitoraggio come tipi di metriche con il prefisso ml.googleapis.com/training
. Il tipo di risorsa monitorata è cloudml_job
.
Tieni presente che AI Platform Training esporta le metriche in monitoraggio con gli stessi tipi di metriche e di risorse.
Metriche di monitoraggio degli endpoint
Dopo aver eseguito il deployment di un modello in un endpoint, puoi monitorare l'endpoint per comprendere le prestazioni e l'utilizzo delle risorse del modello. Puoi monitorare metriche come modelli di traffico, tassi di errore, latenza e utilizzo delle risorse per assicurarti che il tuo modello risponda alle richieste in modo coerente e prevedibile. Ad esempio, puoi eseguire il redeployment del modello con un tipo di macchina diverso per ottimizzare in base al costo. Dopo aver apportato la modifica, puoi monitorare il modello per verificare se le modifiche hanno influito negativamente sul suo rendimento.
In Cloud Monitoring, il tipo di risorsa monitorata per i modelli di cui è stato eseguito il deployment è
aiplatform.googleapis.com/Endpoint
.
Metriche delle prestazioni
Le metriche sul rendimento possono aiutarti a trovare informazioni su pattern di traffico, errori e latenza del tuo modello. Puoi visualizzare le seguenti metriche sul rendimento nella console Google Cloud.
- Previsioni al secondo: il numero di previsioni al secondo sia per le previsioni online che per quelle batch. Se hai più di un'istanza per richiesta, ogni istanza viene conteggiata in questo grafico.
- Percentuale di errori di previsione: il tasso di errori prodotto dal modello. Un tasso di errore elevato potrebbe indicare un problema con il modello o con le richieste al modello. Visualizza il grafico dei codici di risposta per determinare quali errori si verificano.
- Latenza del modello (solo per i modelli tabulari e personalizzati): il tempo impiegato per eseguire il calcolo.
- Latenza di overhead (solo per i modelli tabulari e personalizzati): il tempo totale impiegato per elaborare una richiesta, al di fuori del calcolo.
- Durata latenza totale: il tempo totale che una richiesta trascorre nel servizio, ovvero la latenza del modello più la latenza di overhead.
Utilizzo delle risorse
Le metriche sull'utilizzo delle risorse possono aiutarti a monitorare l'utilizzo della CPU, della memoria e della rete del modello. Puoi visualizzare le seguenti metriche sull'utilizzo nella console Google Cloud.
- Numero di repliche: il numero di repliche attive utilizzate dal modello di cui è stato eseguito il deployment.
- Target di replica: il numero di repliche attive richieste per il modello di cui è stato eseguito il deployment.
- Utilizzo della CPU: tasso di utilizzo corrente dei core della CPU della replica del modello di cui è stato eseguito il deployment. Il 100% rappresenta un core della CPU completamente utilizzato, pertanto una replica può raggiungere un utilizzo superiore al 100% se il tipo di macchina ha più core.
- Utilizzo della memoria: la quantità di memoria allocata dalla replica del modello di cui è stato eseguito il deployment e attualmente in uso.
- Byte di rete inviati: il numero di byte inviati tramite la rete dalla replica del modello di cui è stato eseguito il deployment.
- Byte di rete ricevuti: il numero di byte ricevuti tramite la rete dalla replica del modello di cui è stato eseguito il deployment.
- Ciclo di servizio medio dell'acceleratore: la frazione di tempo media nell'ultimo periodo di campionamento durante il quale uno o più acceleratori erano in elaborazione attiva.
- Utilizzo della memoria dell'acceleratore: la quantità di memoria allocata dalla replica del modello di cui è stato eseguito il deployment.
Visualizzare i grafici delle metriche di monitoraggio degli endpoint
Vai alla pagina Endpoint di Vertex AI nella console Google Cloud.
Fai clic sul nome di un endpoint per visualizzarne le metriche.
Sotto gli intervalli del grafico, fai clic su Rendimento o Utilizzo delle risorse per visualizzare le metriche sul rendimento o sull'utilizzo delle risorse.
Puoi selezionare intervalli di grafici diversi per visualizzare i valori delle metriche in un determinato periodo di tempo, ad esempio 1 ora, 12 ore o 14 giorni.
Se hai più modelli di cui è stato eseguito il deployment nell'endpoint, puoi selezionarli o deselezionarli per visualizzare o nascondere le metriche relative a modelli specifici. Se selezioni più modelli, la console raggruppa alcune metriche dei modelli in un unico grafico. Ad esempio, se una metrica fornisce un solo valore per modello, la console raggruppa le metriche del modello in un unico grafico, ad esempio l'utilizzo della CPU. Per le metriche che possono avere più valori per modello, la console fornisce un grafico per ciascun modello. Ad esempio, la console fornisce un grafico dei codici di risposta per ogni modello.
Metriche di monitoraggio di Vertex AI Feature Store
Dopo aver creato un featurestore, puoi monitorarne il rendimento e l'utilizzo delle risorse, ad esempio le latenze di pubblicazione dello spazio di archiviazione online o il numero di nodi di archiviazione online. Ad esempio, potresti aggiornare il numero di nodi di archiviazione online di un feature store e poi monitorare le modifiche alle metriche di pubblicazione dello spazio di archiviazione online.
In Cloud Monitoring, il tipo di risorsa monitorata per un feature store è
aiplatform.googleapis.com/Featurestore
.
Metriche
- Dimensioni richiesta: le dimensioni della richiesta per tipo di entità nell'archivio di caratteristiche.
- Scrittura in archiviazione offline per scrittura in streaming: il numero di richieste di scrittura in streaming elaborate per l'archiviazione offline.
- Tempo di ritardo della scrittura in streaming nell'archiviazione offline: il tempo trascorso (in secondi) tra la chiamata all'API di scrittura e la scrittura nell'archiviazione offline.
- Numero di nodi: il numero di nodi di pubblicazione online per l'archivio di caratteristiche.
- Latenza: il tempo totale che una richiesta di importazione di flussi di dati o pubblicazione online trascorre nel servizio.
- Query al secondo: il numero di query di importazione di flussi di dati o pubblicazione online gestite dal tuo feature store.
- Percentuale di errori: la percentuale di errori generati dal tuo feature store quando gestisce le richieste di importazione di flussi di dati o di pubblicazione online.
- Utilizzo della CPU: la frazione di CPU allocata dal feature store e attualmente in uso dallo spazio di archiviazione online. Questo numero può superare il 100% se lo spazio di archiviazione per il servizio online è sovraccaricato. Valuta la possibilità di aumentare il numero di nodi di pubblicazione online del tuo feature store per ridurre l'utilizzo della CPU.
- Utilizzo della CPU: nodo più attivo: il carico della CPU per il nodo più attivo nello spazio di archiviazione online del Featurstore.
- Spazio di archiviazione offline totale: la quantità di dati archiviati nello spazio di archiviazione offline del feature store.
- Spazio di archiviazione online totale: quantità di dati archiviati nello spazio di archiviazione online del feature store.
- Velocità effettiva di pubblicazione online: in MB/s, la velocità effettiva per le richieste di pubblicazione online.
Visualizzare i grafici delle metriche di monitoraggio del Feature Store
Vai alla pagina Funzionalità di Vertex AI nella console Google Cloud.
Nella colonna Featurestore, fai clic sul nome di un feature store per visualizzarne le metriche.
Puoi selezionare intervalli di grafico diversi per visualizzare i valori delle metriche in un determinato periodo di tempo, ad esempio 1 ora, 1 giorno o 1 settimana.
Per alcune metriche di pubblicazione online, puoi scegliere di visualizzare le metriche per un metodo specifico, che suddivide ulteriormente le metriche in base al tipo di entità. Ad esempio, puoi visualizzare la latenza per il metodo
ReadFeatureValues
o per il metodoStreamingReadFeatureValues
.