Valutazione dei modelli in Vertex AI

Vertex AI fornisce metriche di valutazione dei modelli, come precisione e richiamo, per aiutarti a determinare le prestazioni dei tuoi modelli.

La valutazione del modello fornita da Vertex AI può adattarsi al tipico flusso di lavoro di machine learning in diversi modi:

  1. Dopo aver addestrato il modello, rivedi le metriche di valutazione del modello prima di eseguirne il deployment. Confrontando le metriche di valutazione di vari modelli, quindi puoi scegliere il modello di cui eseguire il deployment.

  2. Dopo aver eseguito il deployment del modello in produzione, valutalo periodicamente con nuovi dati in entrata. Se le metriche di valutazione mostrano che le prestazioni del modello sono in calo, prova a riaddestrarlo. Questo processo è chiamato valutazione continua.

Il modo in cui interpret e utilizzi queste metriche dipende dalle esigenze aziendali e dal problema che il modello è addestrato a risolvere. Ad esempio, potresti avere una tolleranza inferiore per i falsi positivi rispetto ai falsi negativi o viceversa. Questo tipo di domande influisce sulle metriche su cui ti concentrerai durante l'iterazione del modello.

Funzionalità

Per valutare un modello con Vertex AI, occorre avere un modello addestrato, un output di previsione batch e un set di dati basato su dati empirici reali. Di seguito è riportato un tipico flusso di lavoro di valutazione dei modelli che utilizza Vertex AI:

  1. Addestra un modello. In Vertex AI puoi farlo con AutoML o l'addestramento personalizzato.

  2. Esegui un job di previsione batch sul modello per generare risultati della previsione.

  3. Preparare i dati di dati empirici reali, ovvero i dati "etichettati correttamente" come determinati da esseri umani. I dati empirici reali sono di solito sotto forma di set di dati di test utilizzato durante il processo di addestramento del modello.

  4. Esegui un job di valutazione sul modello, che valuta l'accuratezza dei risultati della previsione batch rispetto ai dati empirici reali.

  5. Analizzare le metriche risultanti dal job di valutazione.

  6. Esegui un'iterazione sul modello per capire se puoi migliorarne l'accuratezza. Puoi eseguire più job di valutazione e confrontare i risultati di più job tra modelli o versioni del modello.

Puoi eseguire la valutazione dei modelli in Vertex AI in diversi modi:

Vertex AI supporta la valutazione dei seguenti tipi di modelli:

Immagine

Classificazione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: l'area sotto la curva di precisione-richiamo (PR), detta anche precisione media. Questo valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • Perdita di log: entropia incrociata tra le previsioni del modello e i valori target. L'intervallo va da zero a infinito, dove un valore più basso indica un modello di qualità migliore.
  • Soglia di affidabilità: un punteggio di confidenza che determina quali previsioni restituire. Un modello restituisce previsioni con questo valore o con un valore superiore. Una soglia di confidenza più alta aumenta la precisione, ma riduce l'identificazione. Vertex AI restituisce le metriche di affidabilità a valori di soglia diversi per mostrare in che modo la soglia influisce su precisione e richiamo.
  • Richiamo: la frazione di previsioni con questa classe che il modello ha previsto correttamente. Chiamato anche tasso di veri positivi.
  • Precisione: la frazione di previsioni di classificazione prodotte dal modello che sono state corrette.
  • Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra ciò che il modello ha previsto invece. La matrice di confusione ti aiuta a capire dove il tuo modello "confonde" due risultati.

Tabulari

Classificazione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: l'area sotto la curva di precisione-richiamo (PR), detta anche precisione media. Questo valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • AuROC: l'area sotto la curva della caratteristica operativa del ricevitore. L'intervallo varia da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • Perdita di log: entropia incrociata tra le previsioni del modello e i valori target. L'intervallo va da zero a infinito, dove un valore più basso indica un modello di qualità migliore.
  • Soglia di affidabilità: un punteggio di confidenza che determina quali previsioni restituire. Un modello restituisce previsioni con questo valore o con un valore superiore. Una soglia di confidenza più alta aumenta la precisione, ma riduce l'identificazione. Vertex AI restituisce le metriche di affidabilità a valori di soglia diversi per mostrare in che modo la soglia influisce su precisione e richiamo.
  • Richiamo: la frazione di previsioni con questa classe che il modello ha previsto correttamente. Chiamato anche tasso di veri positivi.
  • Richiamo a 1: il richiamo (tasso di veri positivi) quando si considera solo l'etichetta con il punteggio di previsione più alto e non al di sotto della soglia di confidenza per ogni esempio.
  • Precisione: la frazione di previsioni di classificazione prodotte dal modello che sono state corrette.
  • Precisione a 1: la precisione quando si considera solo l'etichetta con il punteggio di previsione più alto e non inferiore alla soglia di affidabilità per ogni esempio.
  • Punteggio F1: la media armonica di precisione e richiamo. F1 è una metrica utile per trovare un equilibrio tra precisione e richiamo qualora esista una distribuzione non uniforme delle classi.
  • Punteggio F1 a 1: la media armonica del richiamo a 1 e la precisione a 1.
  • Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra ciò che il modello ha previsto invece. La matrice di confusione ti aiuta a capire dove il tuo modello "confonde" due risultati.
  • Conteggio effettivo negativo: il numero di volte in cui un modello ha previsto correttamente una classe negativa.
  • Conteggio veri positivi: il numero di volte in cui un modello ha previsto correttamente una classe positiva.
  • Conteggio falsi negativi: il numero di volte in cui un modello ha previsto per errore una classe negativa.
  • Conteggio falsi positivi: il numero di volte in cui un modello ha previsto per errore una classe positiva.
  • Percentuale di falsi positivi: la frazione di risultati previsti in modo errato tra tutti i risultati previsti.
  • Percentuale di falsi positivi a 1: la percentuale di falsi positivi quando si considera solo l'etichetta con il punteggio di previsione più alto e non inferiore alla soglia di confidenza per ogni esempio.
  • Attribuzioni delle funzionalità del modello: Vertex AI mostra l'impatto di ogni caratteristica su un modello. I valori vengono forniti come percentuale per ogni caratteristica: più alta è la percentuale, maggiore è l'impatto della caratteristica sull'addestramento del modello. Esamina queste informazioni per assicurarti che tutte le funzionalità più importanti siano adatte ai tuoi dati e ai tuoi problemi aziendali.

Regressione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: l'errore medio assoluto (MAE) è la differenza media assoluta tra i valori target e i valori previsti. Questa metrica va da zero a infinito; un valore più basso indica un modello di qualità migliore.
  • RMSE: l'errore quadratico medio è la radice quadrata della differenza media quadrata tra il target e i valori previsti. RMSE è più sensibile ai valori anomali rispetto al MAE, quindi, se ti preoccupano gli errori di grandi dimensioni, RMSE può essere una metrica più utile da valutare. Analogamente al MAE, un valore minore indica un modello di qualità superiore (0 rappresenta un predittore perfetto).
  • RMSLE: la metrica dell'errore logaritmico del quadrato medio della radice è simile all'errore logaritmico RMSE, tranne per il fatto che utilizza il logaritmo naturale dei valori previsti ed effettivi più 1. L'errore logaritmico quadratico medio (RMSLE) penalizza molto di più la sottoprevisione rispetto alla sovraprevisione. Può essere una buona metrica anche quando non vuoi penalizzare più pesantemente le differenze per valori di previsione elevati rispetto a valori di previsione ridotti. Questa metrica va da zero a infinito; un valore più basso indica un modello di qualità migliore. La metrica di valutazione RMSLE viene restituita solo se tutte le etichette e i valori previsti non sono negativi.
  • r^2: r al quadrato (r^2) è il quadrato del coefficiente di correlazione Pearson tra le etichette e i valori previsti. Questa metrica va da zero a uno. Un valore più alto indica un adattamento più prossimo alla retta di regressione.
  • MAPE: l'errore percentuale assoluto medio (MAPE) è la differenza percentuale media assoluta tra le etichette e i valori previsti. Questa metrica è compresa tra zero e infinito; un valore più basso indica un modello di qualità migliore.
    Il MAPE non viene visualizzato se la colonna di destinazione contiene valori pari a 0. In questo caso, MAPE non è definito.
  • Attribuzioni delle funzionalità del modello: Vertex AI mostra l'impatto di ogni caratteristica su un modello. I valori vengono forniti come percentuale per ogni caratteristica: più alta è la percentuale, maggiore è l'impatto della caratteristica sull'addestramento del modello. Esamina queste informazioni per assicurarti che tutte le funzionalità più importanti siano adatte ai tuoi dati e ai tuoi problemi aziendali.

Previsione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: l'errore medio assoluto (MAE) è la differenza media assoluta tra i valori target e i valori previsti. Questa metrica va da zero a infinito; un valore più basso indica un modello di qualità migliore.
  • RMSE: l'errore quadratico medio è la radice quadrata della differenza media quadrata tra il target e i valori previsti. RMSE è più sensibile ai valori anomali rispetto al MAE, quindi, se ti preoccupano gli errori di grandi dimensioni, RMSE può essere una metrica più utile da valutare. Analogamente al MAE, un valore minore indica un modello di qualità superiore (0 rappresenta un predittore perfetto).
  • RMSLE: la metrica dell'errore logaritmico del quadrato medio della radice è simile all'errore logaritmico RMSE, tranne per il fatto che utilizza il logaritmo naturale dei valori previsti ed effettivi più 1. L'errore logaritmico quadratico medio (RMSLE) penalizza molto di più la sottoprevisione rispetto alla sovraprevisione. Può essere una buona metrica anche quando non vuoi penalizzare più pesantemente le differenze per valori di previsione elevati rispetto a valori di previsione ridotti. Questa metrica va da zero a infinito; un valore più basso indica un modello di qualità migliore. La metrica di valutazione RMSLE viene restituita solo se tutte le etichette e i valori previsti non sono negativi.
  • r^2: r al quadrato (r^2) è il quadrato del coefficiente di correlazione Pearson tra le etichette e i valori previsti. Questa metrica va da zero a uno. Un valore più alto indica un adattamento più prossimo alla retta di regressione.
  • MAPE: l'errore percentuale assoluto medio (MAPE) è la differenza percentuale media assoluta tra le etichette e i valori previsti. Questa metrica è compresa tra zero e infinito; un valore più basso indica un modello di qualità migliore.
    Il MAPE non viene visualizzato se la colonna di destinazione contiene valori pari a 0. In questo caso, MAPE non è definito.
  • WAPE: l'errore percentuale assoluto ponderato (WAPE) è la differenza complessiva tra il valore previsto da un modello e i valori osservati rispetto ai valori osservati. Rispetto all'RMSE, WAPE viene ponderato in base alle differenze complessive anziché a differenze individuali, che possono essere fortemente influenzate da valori bassi o intermittenti. Un valore più basso indica un modello di qualità migliore.
  • RMSPE: l'errore percentuale quadratico medio (RMPSE) mostra l'errore quadratico medio (RMSE) come percentuale dei valori effettivi anziché come numero assoluto. Un valore più basso indica un modello di qualità superiore.
  • Quantile: il quantile percentuale, che indica la probabilità che un valore osservato sia inferiore al valore previsto. Ad esempio, a valori quantili di 0,5, i valori osservati dovrebbero essere inferiori ai valori previsti il 50% delle volte.
  • Quantile osservato: mostra la percentuale di valori veri inferiori al valore previsto per un determinato quantile.
  • Perdita del flipper scalata: la perdita del flipper scalata per un determinato quantile. Un valore più basso indica un modello di qualità migliore al quantile specificato.

Testo

Classificazione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: l'area sotto la curva di precisione-richiamo (PR), detta anche precisione media. Questo valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • Perdita di log: entropia incrociata tra le previsioni del modello e i valori target. L'intervallo va da zero a infinito, dove un valore più basso indica un modello di qualità migliore.
  • Soglia di affidabilità: un punteggio di confidenza che determina quali previsioni restituire. Un modello restituisce previsioni con questo valore o con un valore superiore. Una soglia di confidenza più alta aumenta la precisione, ma riduce l'identificazione. Vertex AI restituisce le metriche di affidabilità a valori di soglia diversi per mostrare in che modo la soglia influisce su precisione e richiamo.
  • Richiamo: la frazione di previsioni con questa classe che il modello ha previsto correttamente. Chiamato anche tasso di veri positivi.
  • Richiamo a 1: il richiamo (tasso di veri positivi) quando si considera solo l'etichetta con il punteggio di previsione più alto e non al di sotto della soglia di confidenza per ogni esempio.
  • Precisione: la frazione di previsioni di classificazione prodotte dal modello che sono state corrette.
  • Precisione a 1: la precisione quando si considera solo l'etichetta con il punteggio di previsione più alto e non inferiore alla soglia di affidabilità per ogni esempio.
  • Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra ciò che il modello ha previsto invece. La matrice di confusione ti aiuta a capire dove il tuo modello "confonde" due risultati.
  • Punteggio F1: la media armonica di precisione e richiamo. F1 è una metrica utile per trovare un equilibrio tra precisione e richiamo qualora esista una distribuzione non uniforme delle classi.
  • Punteggio F1 a 1: la media armonica del richiamo a 1 e la precisione a 1.

Video

Classificazione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: l'area sotto la curva di precisione-richiamo (PR), detta anche precisione media. Questo valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • Soglia di affidabilità: un punteggio di confidenza che determina quali previsioni restituire. Un modello restituisce previsioni con questo valore o con un valore superiore. Una soglia di confidenza più alta aumenta la precisione, ma riduce l'identificazione. Vertex AI restituisce le metriche di affidabilità a valori di soglia diversi per mostrare in che modo la soglia influisce su precisione e richiamo.
  • Richiamo: la frazione di previsioni con questa classe che il modello ha previsto correttamente. Chiamato anche tasso di veri positivi.
  • Precisione: la frazione di previsioni di classificazione prodotte dal modello che sono state corrette.
  • Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra ciò che il modello ha previsto invece. La matrice di confusione ti aiuta a capire dove il tuo modello "confonde" due risultati.
  • Punteggio F1: la media armonica di precisione e richiamo. F1 è una metrica utile per trovare un equilibrio tra precisione e richiamo qualora esista una distribuzione non uniforme delle classi.

Tutorial sui blocchi note

AutoML: tabulari

AutoML: testo

AutoML: video

Addestramento personalizzato: tabulari

Vertex AI Model Registry

Passaggi successivi