Valutazione dei modelli in Vertex AI

Vertex AI fornisce metriche di valutazione dei modelli sia per l'IA predittiva che per i modelli di IA generativa. Questa pagina fornisce una panoramica del servizio di valutazione per i modelli di AI predittivi. Per valutare un modello di AI generativa, consulta Panoramica del servizio di valutazione dell'IA generativa.

Il servizio di valutazione dell'AI predittiva consente di valutare le prestazioni del modello in casi d'uso specifici. La valutazione è anche l'osservabilità delle prestazioni di un modello. La valutazione del modello fornita da Vertex AI può adattarsi al flusso di lavoro di machine learning tipico in diversi modi:

  • Dopo aver addestrato il modello, esamina le metriche di valutazione del modello prima di eseguirne il deployment. Puoi confrontare le metriche di valutazione di più modelli per decidere quale modello implementare.

  • Dopo il deployment del modello in produzione, valuta periodicamente il modello con nuovi dati in entrata. Se le metriche di valutazione mostrano un peggioramento delle prestazioni del modello, valuta la possibilità di riaddestrare il modello. Questo processo è chiamato valutazione continua.

Il modo in cui interpreti e utilizzi queste metriche dipende dalle esigenze aziendali e dal problema che il modello è addestrato a risolvere. Ad esempio, potresti avere una tolleranza più bassa per i falsi positivi rispetto ai falsi negativi o viceversa. Questo tipo di domande influisce sulle metriche su cui ti concentreresti durante l'iterazione del modello.

Alcune metriche chiave fornite dal servizio di valutazione di modelli di AI predittiva includono:

Funzionalità

Per valutare un modello con Vertex AI, dovresti avere un modello addestrato, un output di previsione batch e un set di dati basato su dati empirici reali. Di seguito è riportato un tipico flusso di lavoro di valutazione dei modelli utilizzando Vertex AI:

  1. Addestra un modello. Puoi farlo in Vertex AI usando AutoML o l'addestramento personalizzato.

  2. Esegui un job di previsione batch sul modello per generare i risultati della previsione.

  3. Prepara i dati di dati empirici reali, ovvero i dati "etichettati correttamente" in base a quanto stabilito dagli esseri umani. I dati di fatto si trovano in genere nel set di dati di test utilizzato durante l'addestramento del modello.

  4. Esegui un job di valutazione sul modello, per valutare l'accuratezza dei risultati delle previsioni batch rispetto ai dati empirici reali.

  5. Analizzare le metriche risultanti dal job di valutazione.

  6. Ripeti il processo sul tuo modello per capire se è possibile migliorarne la precisione. Puoi eseguire più job di valutazione e confrontare i risultati di più job tra modelli o versioni dei modelli.

Puoi eseguire la valutazione del modello in Vertex AI in diversi modi:

Vertex AI supporta la valutazione dei seguenti tipi di modelli:

Immagine

Classificazione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: l'area sotto la curva di precisione-richiamo (PR), nota anche come precisione media. Il valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • Perdita logaritmica: entropia incrociata tra le previsioni del modello e i valori target. L'intervallo va da zero a infinito, dove un valore inferiore indica un modello di qualità migliore.
  • Soglia di confidenza: un punteggio di confidenza che determina quali previsioni restituire. Un modello restituisce previsioni che raggiungono questo valore o un valore superiore. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce metriche di confidenza a valori di soglia diversi per mostrare in che modo la soglia influisce sulla precisione e sul richiamo.
  • Richiamo: la frazione delle previsioni con questa classe che il modello ha previsto correttamente. Chiamato anche tasso di veri positivi.
  • Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono risultate corrette.
  • Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra invece ciò che è stato previsto dal modello. La matrice di confusione ti aiuta a capire dove il tuo modello "confonde" due risultati.

Tabulari

Classificazione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: l'area sotto la curva di precisione-richiamo (PR), nota anche come precisione media. Il valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • AuROC: la curva della caratteristica operativa dell'area sotto il ricevitore. L'intervallo varia da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • Perdita logaritmica: entropia incrociata tra le previsioni del modello e i valori target. L'intervallo va da zero a infinito, dove un valore inferiore indica un modello di qualità migliore.
  • Soglia di confidenza: un punteggio di confidenza che determina quali previsioni restituire. Un modello restituisce previsioni che raggiungono questo valore o un valore superiore. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce metriche di confidenza a valori di soglia diversi per mostrare in che modo la soglia influisce sulla precisione e sul richiamo.
  • Richiamo: la frazione delle previsioni con questa classe che il modello ha previsto correttamente. Chiamato anche tasso di veri positivi.
  • Richiamo a 1: il richiamo (tasso di veri positivi) quando viene considerata solo l'etichetta con il punteggio di previsione più alto e non inferiore alla soglia di confidenza per ogni esempio.
  • Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono risultate corrette.
  • Precisione a 1: la precisione quando viene considerata solo l'etichetta con il punteggio di previsione più alto e non inferiore alla soglia di confidenza per ogni esempio.
  • Punteggio F1: la media armonica di precisione e richiamo. F1 è una metrica utile per trovare un equilibrio tra precisione e richiamo qualora esista una distribuzione non uniforme delle classi.
  • Punteggio F1 a 1: la media armonica del richiamo a 1 e la precisione a 1.
  • Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra invece ciò che è stato previsto dal modello. La matrice di confusione ti aiuta a capire dove il tuo modello "confonde" due risultati.
  • Conteggio veri negativi: il numero di volte in cui un modello ha previsto correttamente una classe negativa.
  • Conteggio veri positivi: il numero di volte in cui un modello ha previsto correttamente una classe positiva.
  • Conteggio falsi negativi: il numero di volte in cui un modello ha previsto per errore una classe negativa.
  • Conteggio falsi positivi: il numero di volte in cui un modello ha previsto per errore una classe positiva.
  • Percentuale di falsi positivi: la frazione di risultati previsti in modo errato tra tutti i risultati previsti.
  • Percentuale di falsi positivi a 1: la percentuale di falsi positivi quando si considera solo l'etichetta con il punteggio di previsione più alto e non al di sotto della soglia di confidenza per ogni esempio.
  • Attribuzioni delle caratteristiche del modello: Vertex AI mostra l'impatto di ciascuna caratteristica su un modello. I valori vengono forniti sotto forma percentuale per ogni caratteristica: più alta è la percentuale, maggiore è l'impatto della caratteristica sull'addestramento del modello. Esamina queste informazioni per assicurarti che tutte le funzionalità più importanti abbiano senso per i dati e il problema aziendale.

Regressione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: l'errore assoluto medio (MAE, Mean Absolute Error) è la differenza media assoluta tra i valori target e i valori previsti. Questa metrica va da zero a infinito e un valore più basso indica un modello di qualità migliore.
  • RMSE: l'errore quadratico medio è la radice quadrata della differenza quadrata media tra i valori target e quelli previsti. L'RMSE è più sensibile agli outlier rispetto al MAE. Di conseguenza,se la preoccupazione principale riguarda gli errori di grande entità, l'RMSE può essere una metrica più utile da valutare. In modo simile al MAE, un valore minore indica un modello di qualità superiore (0 rappresenta un predittore perfetto).
  • RMSLE: la metrica dell'errore logaritmico quadratico medio è simile all'RMSE, tranne per il fatto che utilizza il logaritmo naturale dei valori previsti ed effettivi più 1. Penalizza in misura maggiore la sottoprevisione rispetto alla sovraprevisione. Può essere una buona metrica anche nel caso in cui non si voglia penalizzare più pesantemente le differenze per i valori di previsione elevati rispetto a quelli ridotti. Questa metrica va da zero a infinito e un valore più basso indica un modello di qualità migliore. La metrica di valutazione RMSLE viene restituita solo se tutti i valori previsti e tutte le etichette sono non negativi.
  • r^2: r al quadrato (r^2) è il quadrato del coefficiente di correlazione Pearson tra le etichette e i valori previsti. Questa metrica va da zero a uno. Un valore più alto indica un adattamento più vicino alla linea di regressione.
  • MAPE: l'errore percentuale assoluto medio (MAPE, Mean Absolute Percentage Error) è la differenza percentuale media assoluta tra le etichette e i valori previsti. Questa metrica va da zero a infinito e un valore più basso indica un modello di qualità migliore.
    Se la colonna di destinazione non contiene nessun valore, il MAPE non viene mostrato. In questo caso, il MAPE non è definito.
  • Attribuzioni delle caratteristiche del modello: Vertex AI mostra l'impatto di ciascuna caratteristica su un modello. I valori vengono forniti sotto forma percentuale per ogni caratteristica: più alta è la percentuale, maggiore è l'impatto della caratteristica sull'addestramento del modello. Esamina queste informazioni per assicurarti che tutte le funzionalità più importanti abbiano senso per i dati e il problema aziendale.

Previsione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: l'errore assoluto medio (MAE, Mean Absolute Error) è la differenza media assoluta tra i valori target e i valori previsti. Questa metrica va da zero a infinito e un valore più basso indica un modello di qualità migliore.
  • RMSE: l'errore quadratico medio è la radice quadrata della differenza quadrata media tra i valori target e quelli previsti. L'RMSE è più sensibile agli outlier rispetto al MAE. Di conseguenza,se la preoccupazione principale riguarda gli errori di grande entità, l'RMSE può essere una metrica più utile da valutare. In modo simile al MAE, un valore minore indica un modello di qualità superiore (0 rappresenta un predittore perfetto).
  • RMSLE: la metrica dell'errore logaritmico quadratico medio è simile all'RMSE, tranne per il fatto che utilizza il logaritmo naturale dei valori previsti ed effettivi più 1. Penalizza in misura maggiore la sottoprevisione rispetto alla sovraprevisione. Può essere una buona metrica anche nel caso in cui non si voglia penalizzare più pesantemente le differenze per i valori di previsione elevati rispetto a quelli ridotti. Questa metrica va da zero a infinito e un valore più basso indica un modello di qualità migliore. La metrica di valutazione RMSLE viene restituita solo se tutti i valori previsti e tutte le etichette sono non negativi.
  • r^2: r al quadrato (r^2) è il quadrato del coefficiente di correlazione Pearson tra le etichette e i valori previsti. Questa metrica va da zero a uno. Un valore più alto indica un adattamento più vicino alla linea di regressione.
  • MAPE: l'errore percentuale assoluto medio (MAPE, Mean Absolute Percentage Error) è la differenza percentuale media assoluta tra le etichette e i valori previsti. Questa metrica va da zero a infinito e un valore più basso indica un modello di qualità migliore.
    Se la colonna di destinazione non contiene nessun valore, il MAPE non viene mostrato. In questo caso, il MAPE non è definito.
  • WAPE: l'errore percentuale assoluto ponderato (WAPE) è la differenza complessiva tra il valore previsto da un modello e i valori osservati rispetto ai valori osservati. Rispetto all'RMSE, il WAPE viene ponderato in base alle differenze complessive anziché alle differenze individuali, che possono essere fortemente influenzate da valori bassi o intermittenti. Un valore più basso indica un modello di qualità migliore.
  • RMSPE: l'errore percentuale quadratico medio (RMPSE) mostra l'RMSE come percentuale dei valori effettivi anziché come numero assoluto. Un valore più basso indica un modello di qualità migliore.
  • Quantile: il quantile percentuale, che indica la probabilità che un valore osservato sia inferiore al valore previsto. Ad esempio, con il valore quantile di 0,5, si prevede che i valori osservati siano inferiori a quelli previsti per il 50% delle volte.
  • Quantile osservato: mostra la percentuale di valori veri inferiori al valore previsto per un determinato quantile.
  • Perdita del flipper scalata: la perdita scalata del flipper in un determinato quantile. Un valore più basso indica un modello di qualità migliore per il quantile specificato.

Testo

Classificazione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: l'area sotto la curva di precisione-richiamo (PR), nota anche come precisione media. Il valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • Perdita logaritmica: entropia incrociata tra le previsioni del modello e i valori target. L'intervallo va da zero a infinito, dove un valore inferiore indica un modello di qualità migliore.
  • Soglia di confidenza: un punteggio di confidenza che determina quali previsioni restituire. Un modello restituisce previsioni che raggiungono questo valore o un valore superiore. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce metriche di confidenza a valori di soglia diversi per mostrare in che modo la soglia influisce sulla precisione e sul richiamo.
  • Richiamo: la frazione delle previsioni con questa classe che il modello ha previsto correttamente. Chiamato anche tasso di veri positivi.
  • Richiamo a 1: il richiamo (tasso di veri positivi) quando viene considerata solo l'etichetta con il punteggio di previsione più alto e non inferiore alla soglia di confidenza per ogni esempio.
  • Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono risultate corrette.
  • Precisione a 1: la precisione quando viene considerata solo l'etichetta con il punteggio di previsione più alto e non inferiore alla soglia di confidenza per ogni esempio.
  • Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra invece ciò che è stato previsto dal modello. La matrice di confusione ti aiuta a capire dove il tuo modello "confonde" due risultati.
  • Punteggio F1: la media armonica di precisione e richiamo. F1 è una metrica utile per trovare un equilibrio tra precisione e richiamo qualora esista una distribuzione non uniforme delle classi.
  • Punteggio F1 a 1: la media armonica del richiamo a 1 e la precisione a 1.

Video

Classificazione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: l'area sotto la curva di precisione-richiamo (PR), nota anche come precisione media. Il valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • Soglia di confidenza: un punteggio di confidenza che determina quali previsioni restituire. Un modello restituisce previsioni che raggiungono questo valore o un valore superiore. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce metriche di confidenza a valori di soglia diversi per mostrare in che modo la soglia influisce sulla precisione e sul richiamo.
  • Richiamo: la frazione delle previsioni con questa classe che il modello ha previsto correttamente. Chiamato anche tasso di veri positivi.
  • Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono risultate corrette.
  • Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra invece ciò che è stato previsto dal modello. La matrice di confusione ti aiuta a capire dove il tuo modello "confonde" due risultati.
  • Punteggio F1: la media armonica di precisione e richiamo. F1 è una metrica utile per trovare un equilibrio tra precisione e richiamo qualora esista una distribuzione non uniforme delle classi.

Tutorial sul blocco note

AutoML: tabulari

AutoML: testo

AutoML: video

Addestramento personalizzato: tabulare

Vertex AI Model Registry

Passaggi successivi