La valutazione dei modelli fornita da Vertex AI può adattarsi al tipico flusso di lavoro di machine learning in diversi modi:
Dopo aver addestrato il modello, rivedi le metriche di valutazione del modello prima di eseguirne il deployment. Puoi confrontare le metriche di valutazione di più modelli per decidere di quale modello eseguire il deployment.
Dopo aver eseguito il deployment del modello in produzione, valutalo periodicamente con i nuovi dati in entrata. Se le metriche di valutazione mostrano che le prestazioni del modello sono in calo, valuta la possibilità di riaddestrare il modello. Questo processo è chiamato valutazione continua.
Il modo in cui interpreti e utilizzi queste metriche dipende dalle tue esigenze aziendali e dal problema che il tuo modello è addestrato a risolvere. Ad esempio, potresti avere una tolleranza inferiore per i falsi positivi rispetto ai falsi negativi o viceversa. Questi tipi di domande influiscono sulle metriche su cui ti concentrerai durante l'iterazione del modello.
Funzionalità
Per valutare un modello con Vertex AI, dovresti avere un modello addestrato, un output di previsione batch e un set di dati basato su dati empirici reali. Di seguito è riportato un tipico flusso di lavoro di valutazione dei modelli che utilizza Vertex AI:
Addestra un modello. Puoi farlo in Vertex AI utilizzando AutoML o l'addestramento personalizzato.
Esegui un job di previsione batch sul modello per generare risultati della previsione.
Preparare i dati di dati empirici reali, ovvero i dati "correttamente etichettati" come determinati da esseri umani. I dati empirici reali sono solitamente sotto forma di set di dati di test utilizzato durante il processo di addestramento del modello.
Eseguire un job di valutazione sul modello per valutare l'accuratezza dei risultati della previsione batch rispetto ai dati basati su dati empirici reali.
Analizza le metriche risultanti dal job di valutazione.
Ripeti il processo per vedere se puoi migliorarne l'accuratezza. Puoi eseguire più job di valutazione e confrontare i risultati di più job tra modelli o versioni di modelli.
Puoi eseguire la valutazione dei modelli in Vertex AI in diversi modi:
Creare valutazioni tramite Vertex AI Model Registry nella console Google Cloud.
Utilizza le valutazioni dei modelli di Vertex AI come componente della pipeline con Vertex AI Pipelines. Puoi creare esecuzioni e modelli di pipeline che includono valutazioni dei modelli come parte del tuo flusso di lavoro MLOps automatizzato.
Puoi eseguire il componente di valutazione del modello da solo o con altri componenti della pipeline, come il componente per la previsione batch.
Vertex AI supporta la valutazione dei seguenti tipi di modelli:
Immagine
Classificazione
Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC: l'area sotto la curva di precisione-richiamo (PR), detta anche precisione media. Questo valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
- Perdita di log: entropia incrociata tra le previsioni del modello e i valori target. L'intervallo va da zero a infinito, dove un valore inferiore indica un modello di qualità migliore.
- Soglia di affidabilità: un punteggio di affidabilità che determina quali previsioni restituire. Un modello restituisce previsioni pari o superiori a questo valore. Una soglia di affidabilità più alta aumenta la precisione, ma riduce l'identificazione. Vertex AI restituisce metriche di affidabilità a valori di soglia diversi per mostrare in che modo la soglia influisce su precisione e richiamo.
- Richiama: la frazione di previsioni con questa classe che il modello ha previsto in modo corretto. Chiamato anche tasso reale positivo.
- Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono risultate corrette.
- Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per risultati previsti in modo errato, la matrice mostra invece ciò che il modello ha previsto. La matrice di confusione aiuta a capire dove il modello "confonde" due risultati.
Tabulari
Classificazione
Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC: l'area sotto la curva di precisione-richiamo (PR), detta anche precisione media. Questo valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
- AuROC: l'area sotto la curva della caratteristica operativa del ricevitore. L'intervallo va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
- Perdita di log: entropia incrociata tra le previsioni del modello e i valori target. L'intervallo va da zero a infinito, dove un valore inferiore indica un modello di qualità migliore.
- Soglia di affidabilità: un punteggio di affidabilità che determina quali previsioni restituire. Un modello restituisce previsioni pari o superiori a questo valore. Una soglia di affidabilità più alta aumenta la precisione, ma riduce l'identificazione. Vertex AI restituisce metriche di affidabilità a valori di soglia diversi per mostrare in che modo la soglia influisce su precisione e richiamo.
- Richiama: la frazione di previsioni con questa classe che il modello ha previsto in modo corretto. Chiamato anche tasso reale positivo.
- identificazione a 1: il richiamo (tasso di veri positivi) quando si considera solo l'etichetta con il punteggio di previsione più alto e non inferiore alla soglia di affidabilità per ogni esempio.
- Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono risultate corrette.
- Precisione a 1: la precisione quando si considera solo l'etichetta con il punteggio di previsione più alto e non inferiore alla soglia di affidabilità per ogni esempio.
- Punteggio F1: la media armonica di precisione e richiamo. F1 è una metrica utile per trovare un equilibrio tra precisione e richiamo qualora esista una distribuzione non uniforme delle classi.
- Punteggio F1 a 1: la media armonica di richiamo a 1 e la precisione a 1.
- Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per risultati previsti in modo errato, la matrice mostra invece ciò che il modello ha previsto. La matrice di confusione aiuta a capire dove il modello "confonde" due risultati.
- Conteggio negativo effettivo: il numero di volte in cui un modello ha previsto correttamente una classe negativa.
- Conteggio positivo effettivo: il numero di volte in cui un modello ha previsto correttamente una classe positiva.
- Conteggio falsi negativi: il numero di volte in cui un modello ha previsto erroneamente una classe negativa.
- Conteggio falsi positivi: il numero di volte in cui un modello ha previsto erroneamente una classe positiva.
- Percentuale di falsi positivi: la frazione di risultati previsti in modo errato rispetto a tutti i risultati previsti.
- Tasso di falsi positivi a 1: la percentuale di falsi positivi quando si considera solo l'etichetta con il punteggio di previsione più alto e non inferiore alla soglia di affidabilità per ogni esempio.
- Attribuzioni delle caratteristiche del modello: Vertex AI mostra l'impatto di ogni caratteristica su un modello. I valori vengono forniti come percentuale per ogni caratteristica: più alta è la percentuale, maggiore è l'impatto che la caratteristica ha avuto sull'addestramento del modello. Esamina queste informazioni per assicurarti che tutte le funzionalità più importanti siano adatte ai tuoi dati e al tuo problema aziendale.
Regressione
Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/
- MAE: l'errore medio assoluto (MAE) è la differenza media assoluta tra i valori target e i valori previsti. Questa metrica va da zero a infinito; un valore inferiore indica un modello di qualità migliore.
- RMSE: l'errore quadratico medio è la radice quadrata della differenza media al quadrato tra i valori target e quelli previsti. L'RMSE è più sensibile alle anomalie rispetto al MAE. Pertanto,se ti preoccupano gli errori di grandi dimensioni, l'RMSE può essere una metrica più utile da valutare. Analogamente al MAE, un valore inferiore indica un modello di qualità superiore (0 rappresenta un predittore perfetto).
- RMSLE: la metrica dell'errore logaritmico quadratico medio è simile all'RMSE, tranne per il fatto che utilizza il logaritmo naturale dei valori previsti ed effettivi più 1. L'RMSLE penalizza maggiormente la sotto-previsione rispetto alla sovra-previsione. Può essere una buona metrica anche quando non vuoi penalizzare più pesantemente le differenze per valori di previsione elevati rispetto a quelli per valori di previsione piccoli. Questa metrica va da zero a infinito; un valore inferiore indica un modello di qualità migliore. La metrica di valutazione RMSLE viene restituita solo se tutte le etichette e i valori previsti non sono negativi.
- r^2: r al quadrato (r^2) è il quadrato del coefficiente di correlazione Pearson tra le etichette e i valori previsti. Questa metrica varia da zero a uno. Un valore più alto indica un adattamento più prossimo alla retta di regressione.
-
MAPE: l'errore percentuale assoluto medio (MAPE) è la differenza percentuale media assoluta tra le etichette e i valori previsti. Questa metrica va da zero a infinito; un valore più basso indica un modello di qualità migliore.
Il file MAPE non viene visualizzato se la colonna di destinazione contiene valori pari a 0. In questo caso, il MAPE non è definito. - Attribuzioni delle caratteristiche del modello: Vertex AI mostra l'impatto di ogni caratteristica su un modello. I valori vengono forniti come percentuale per ogni caratteristica: più alta è la percentuale, maggiore è l'impatto che la caratteristica ha avuto sull'addestramento del modello. Esamina queste informazioni per assicurarti che tutte le funzionalità più importanti siano adatte ai tuoi dati e al tuo problema aziendale.
Previsione
Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/
- MAE: l'errore medio assoluto (MAE) è la differenza media assoluta tra i valori target e i valori previsti. Questa metrica va da zero a infinito; un valore inferiore indica un modello di qualità migliore.
- RMSE: l'errore quadratico medio è la radice quadrata della differenza media al quadrato tra i valori target e quelli previsti. L'RMSE è più sensibile alle anomalie rispetto al MAE. Pertanto,se ti preoccupano gli errori di grandi dimensioni, l'RMSE può essere una metrica più utile da valutare. Analogamente al MAE, un valore inferiore indica un modello di qualità superiore (0 rappresenta un predittore perfetto).
- RMSLE: la metrica dell'errore logaritmico quadratico medio è simile all'RMSE, tranne per il fatto che utilizza il logaritmo naturale dei valori previsti ed effettivi più 1. L'RMSLE penalizza maggiormente la sotto-previsione rispetto alla sovra-previsione. Può essere una buona metrica anche quando non vuoi penalizzare più pesantemente le differenze per valori di previsione elevati rispetto a quelli per valori di previsione piccoli. Questa metrica va da zero a infinito; un valore inferiore indica un modello di qualità migliore. La metrica di valutazione RMSLE viene restituita solo se tutte le etichette e i valori previsti non sono negativi.
- r^2: r al quadrato (r^2) è il quadrato del coefficiente di correlazione Pearson tra le etichette e i valori previsti. Questa metrica varia da zero a uno. Un valore più alto indica un adattamento più prossimo alla retta di regressione.
-
MAPE: l'errore percentuale assoluto medio (MAPE) è la differenza percentuale media assoluta tra le etichette e i valori previsti. Questa metrica va da zero a infinito; un valore più basso indica un modello di qualità migliore.
Il file MAPE non viene visualizzato se la colonna di destinazione contiene valori pari a 0. In questo caso, il MAPE non è definito. - WAPE: l'errore percentuale assoluto ponderato (WAPE) è la differenza complessiva tra il valore previsto da un modello e i valori osservati sopra i valori osservati. Rispetto a RMSE, WAPE viene ponderato in base alle differenze complessive piuttosto che alle differenze individuali, che possono essere fortemente influenzate da valori bassi o intermittenti. Un valore inferiore indica un modello di qualità migliore.
- RMSPE: l'errore percentuale quadratico medio (RMPSE) mostra l'errore quadratico medio (RMSE) come percentuale dei valori effettivi anziché numero assoluto. Un valore inferiore indica un modello di qualità migliore.
- Quantile: il quantile percentuale, che indica la probabilità che un valore osservato sia inferiore al valore previsto. Ad esempio, con valori quantili pari a 0,5, i valori osservati dovrebbero essere inferiori ai valori previsti il 50% delle volte.
- Quantile osservato: mostra la percentuale di valori reali inferiori al valore previsto per un determinato quantile.
- Perdita del flipper in scala: la perdita del flipper scalata a un determinato quantile. Un valore inferiore indica un modello di qualità superiore per il quantile specificato.
Testo
Classificazione
Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC: l'area sotto la curva di precisione-richiamo (PR), detta anche precisione media. Questo valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
- Perdita di log: entropia incrociata tra le previsioni del modello e i valori target. L'intervallo va da zero a infinito, dove un valore inferiore indica un modello di qualità migliore.
- Soglia di affidabilità: un punteggio di affidabilità che determina quali previsioni restituire. Un modello restituisce previsioni pari o superiori a questo valore. Una soglia di affidabilità più alta aumenta la precisione, ma riduce l'identificazione. Vertex AI restituisce metriche di affidabilità a valori di soglia diversi per mostrare in che modo la soglia influisce su precisione e richiamo.
- Richiama: la frazione di previsioni con questa classe che il modello ha previsto in modo corretto. Chiamato anche tasso reale positivo.
- identificazione a 1: il richiamo (tasso di veri positivi) quando si considera solo l'etichetta con il punteggio di previsione più alto e non inferiore alla soglia di affidabilità per ogni esempio.
- Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono risultate corrette.
- Precisione a 1: la precisione quando si considera solo l'etichetta con il punteggio di previsione più alto e non inferiore alla soglia di affidabilità per ogni esempio.
- Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per risultati previsti in modo errato, la matrice mostra invece ciò che il modello ha previsto. La matrice di confusione aiuta a capire dove il modello "confonde" due risultati.
- Punteggio F1: la media armonica di precisione e richiamo. F1 è una metrica utile per trovare un equilibrio tra precisione e richiamo qualora esista una distribuzione non uniforme delle classi.
- Punteggio F1 a 1: la media armonica di richiamo a 1 e la precisione a 1.
Video
Classificazione
Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC: l'area sotto la curva di precisione-richiamo (PR), detta anche precisione media. Questo valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
- Soglia di affidabilità: un punteggio di affidabilità che determina quali previsioni restituire. Un modello restituisce previsioni pari o superiori a questo valore. Una soglia di affidabilità più alta aumenta la precisione, ma riduce l'identificazione. Vertex AI restituisce metriche di affidabilità a valori di soglia diversi per mostrare in che modo la soglia influisce su precisione e richiamo.
- Richiama: la frazione di previsioni con questa classe che il modello ha previsto in modo corretto. Chiamato anche tasso reale positivo.
- Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono risultate corrette.
- Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per risultati previsti in modo errato, la matrice mostra invece ciò che il modello ha previsto. La matrice di confusione aiuta a capire dove il modello "confonde" due risultati.
- Punteggio F1: la media armonica di precisione e richiamo. F1 è una metrica utile per trovare un equilibrio tra precisione e richiamo qualora esista una distribuzione non uniforme delle classi.