Valutazione dei modelli in Vertex AI

Il servizio di valutazione dell'AI predittiva ti consente di valutare le prestazioni del modello in casi d'uso specifici. La valutazione può essere intesa anche come osservabilità delle prestazioni di un modello. La valutazione del modello fornita da Vertex AI può adattarsi al flusso di lavoro di machine learning in diversi modi:

  • Dopo aver addestrato il modello, esamina le metriche di valutazione del modello prima di eseguirlo. Puoi confrontare le metriche di valutazione di più modelli per aiutarti a decidere quale modello implementare.

  • Dopo aver eseguito il deployment del modello in produzione, valutalo periodicamente con i nuovi dati in entrata. Se le metriche di valutazione mostrano che il rendimento del modello sta peggiorando, valuta la possibilità di addestrare nuovamente il modello. Questa procedura è chiamata valutazione continua.

L'interpretazione e l'utilizzo di queste metriche dipendono dalle esigenze aziendali e dal problema che il modello è addestrato a risolvere. Ad esempio, potresti avere una tolleranza più bassa per i falsi positivi rispetto ai falsi negativi o viceversa. Questi tipi di domande influiscono sulle metriche su cui ti concentrerai durante l'iterazione del modello.

Alcune metriche chiave fornite dal servizio di valutazione del modello di AI predittiva includono:

Funzionalità

Per valutare un modello con Vertex AI, devi disporre di un modello addestrato, di un output di previsione batch e di un set di dati basato su dati empirici reali. Di seguito è riportato un tipico flusso di lavoro di valutazione del modello che utilizza Vertex AI:

  1. Addestra un modello. Puoi farlo in Vertex AI utilizzando AutoML o l'addestramento personalizzato.

  2. Esegui un job di previsione batch sul modello per generare i risultati di previsione.

  3. Prepara i dati empirici, ovvero i dati "etichettati correttamente" come stabiliti da persone fisiche. I dati empirici reali sono in genere sotto forma di set di dati di test utilizzato durante la procedura di addestramento del modello.

  4. Esegui un job di valutazione sul modello, che valuta l'accuratezza dei risultati di previsione batch rispetto ai dati empirici reali.

  5. Analizza le metriche risultanti dal job di valutazione.

  6. Esegui l'iterazione sul modello per verificare se puoi migliorarne l'accuratezza. Puoi eseguire più job di valutazione e confrontare i risultati di più job tra modelli o versioni di modelli.

Puoi eseguire la valutazione del modello in Vertex AI in diversi modi:

Vertex AI supporta la valutazione dei seguenti tipi di modelli:

Immagine

Classificazione

Puoi visualizzare e scaricare i file dello schema dalla seguente posizione Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: l'area sotto la curva di precisione-richiamo (PR), chiamata anche precisione mediana. Il valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • Perdita logaritmica: l'entropia incrociata tra le previsioni del modello e i valori target. L'intervallo varia da zero a infinito, dove un valore più basso indica un modello di qualità superiore.
  • Soglia di confidenza: un punteggio di confidenza che determina quali predizioni restituire. Un modello restituisce previsioni uguali o superiori a questo valore. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce le metriche di affidabilità a diversi valori di soglia per mostrare in che modo la soglia influisce sulla precisione e sul richiamo.
  • Richiamo: la frazione di previsioni con questa classe che sono state previste correttamente dal modello. Chiamato anche tasso di veri positivi.
  • Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono risultate corrette.
  • Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra invece ciò che è stato previsto dal modello. La matrice di confusione ti aiuta a capire dove il tuo modello "confonde" due risultati.

Tabulare

Classificazione

Puoi visualizzare e scaricare i file dello schema dalla seguente posizione Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: l'area sotto la curva di precisione-richiamo (PR), chiamata anche precisione mediana. Il valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • AuROC: l'area sotto la curva della caratteristica operativa del ricevitore. L'intervallo varia da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • Perdita logaritmica: l'entropia incrociata tra le previsioni del modello e i valori target. L'intervallo varia da zero a infinito, dove un valore più basso indica un modello di qualità superiore.
  • Soglia di confidenza: un punteggio di confidenza che determina quali predizioni restituire. Un modello restituisce previsioni uguali o superiori a questo valore. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce le metriche di affidabilità a diversi valori di soglia per mostrare in che modo la soglia influisce sulla precisione e sul richiamo.
  • Richiamo: la frazione di previsioni con questa classe che sono state previste correttamente dal modello. Chiamato anche tasso di veri positivi.
  • Richiamo a 1: il richiamo (tasso di veri positivi) se si considera solo l'etichetta con il punteggio di previsione più alto e non al di sotto della soglia di confidenza per ogni esempio.
  • Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono risultate corrette.
  • Precisione a 1: la precisione quando si considera solo l'etichetta con il punteggio di previsione più alto e non al di sotto della soglia di confidenza per ogni esempio.
  • Punteggio F1: la media armonica di precisione e richiamo. F1 è una metrica utile per trovare un equilibrio tra precisione e richiamo qualora esista una distribuzione non uniforme delle classi.
  • Punteggio F1 pari a 1: la media armonica del richiamo pari a 1 e della precisione pari a 1.
  • Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra invece ciò che è stato previsto dal modello. La matrice di confusione ti aiuta a capire dove il tuo modello "confonde" due risultati.
  • Conteggio veri negativi: il numero di volte in cui un modello ha previsto correttamente una classe negativa.
  • Conteggio dei veri positivi: il numero di volte in cui un modello ha previsto correttamente una classe positiva.
  • Conteggio falsi negativi: il numero di volte in cui un modello ha previsto erroneamente una classe negativa.
  • Conteggio falsi positivi: il numero di volte in cui un modello ha previsto erroneamente una classe positiva.
  • Tasso di falsi positivi: la frazione di risultati previsti in modo errato rispetto a tutti i risultati previsti.
  • Tasso di falsi positivi pari a 1: il tasso di falsi positivi se si considera solo l'etichetta con il punteggio di previsione più alto e non al di sotto della soglia di affidabilità per ogni esempio.
  • Attribuzioni delle funzionalità del modello: Vertex AI mostra l'impatto di ciascuna funzionalità su un modello. I valori sono forniti sotto forma percentuale per ogni caratteristica: più alta è la percentuale, maggiore è l'impatto della caratteristica sull'addestramento del modello. Esamina queste informazioni per assicurarti che tutte le funzionalità più importanti abbiano senso per i dati in uso e per il problema aziendale.

Regressione

Puoi visualizzare e scaricare i file dello schema dalla seguente posizione Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: l'errore medio assoluto (MAE) indica la differenza media assoluta tra i valori target e quelli previsti. Questa metrica va da zero a infinito e un valore inferiore indica un modello di qualità superiore.
  • RMSE: l'errore quadratico medio della radice è la radice quadrata della media dei quadrati delle differenze tra i valori di destinazione e quelli previsti. L'RMSE è più sensibile agli outlier rispetto al MAE. Di conseguenza,se la preoccupazione principale riguarda gli errori di grande entità, l'RMSE può essere una metrica più utile da valutare. Analogamente al MAE, un valore minore indica un modello di qualità migliore (0 rappresenta un predittore perfetto).
  • RMSLE: la metrica dell'errore logaritmico quadratico medio è simile all'RMSE, con la differenza che utilizza il logaritmo naturale dei valori previsti ed effettivi più 1. Penalizza in misura maggiore la sottoprevisione rispetto alla sovraprevisione. Può essere una buona metrica anche nel caso in cui non si voglia penalizzare più pesantemente le differenze per i valori di previsione elevati rispetto a quelli ridotti. Questa metrica va da zero a infinito e un valore inferiore indica un modello di qualità superiore. La metrica di valutazione RMSLE viene restituita solo se tutti i valori previsti e tutte le etichette sono non negativi.
  • r^2: r al quadrato (r^2) è il quadrato del coefficiente di correlazione Pearson tra le etichette e i valori previsti. Questa metrica va da zero a uno. Un valore più alto indica una migliore approssimazione alla retta di regressione.
  • MAPE: l'errore percentuale assoluto medio (MAPE) corrisponde alla differenza percentuale media assoluta tra le etichette e i valori previsti. Questa metrica va da zero a infinito, dove un valore più basso indica un modello di qualità migliore.
    Il MAPE non viene mostrato se la colonna di destinazione contiene valori 0. In questo caso, il MAPE non è definito.
  • Attribuzioni delle funzionalità del modello: Vertex AI mostra l'impatto di ciascuna funzionalità su un modello. I valori sono forniti sotto forma percentuale per ogni caratteristica: più alta è la percentuale, maggiore è l'impatto della caratteristica sull'addestramento del modello. Esamina queste informazioni per assicurarti che tutte le funzionalità più importanti abbiano senso per i dati in uso e per il problema aziendale.

Previsione

Puoi visualizzare e scaricare i file dello schema dalla seguente posizione Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: l'errore medio assoluto (MAE) indica la differenza media assoluta tra i valori target e quelli previsti. Questa metrica va da zero a infinito e un valore inferiore indica un modello di qualità superiore.
  • RMSE: l'errore quadratico medio della radice è la radice quadrata della media dei quadrati delle differenze tra i valori di destinazione e quelli previsti. L'RMSE è più sensibile agli outlier rispetto al MAE. Di conseguenza,se la preoccupazione principale riguarda gli errori di grande entità, l'RMSE può essere una metrica più utile da valutare. Analogamente al MAE, un valore minore indica un modello di qualità migliore (0 rappresenta un predittore perfetto).
  • RMSLE: la metrica dell'errore logaritmico quadratico medio è simile all'RMSE, con la differenza che utilizza il logaritmo naturale dei valori previsti ed effettivi più 1. Penalizza in misura maggiore la sottoprevisione rispetto alla sovraprevisione. Può essere una buona metrica anche nel caso in cui non si voglia penalizzare più pesantemente le differenze per i valori di previsione elevati rispetto a quelli ridotti. Questa metrica va da zero a infinito e un valore inferiore indica un modello di qualità superiore. La metrica di valutazione RMSLE viene restituita solo se tutti i valori previsti e tutte le etichette sono non negativi.
  • r^2: r al quadrato (r^2) è il quadrato del coefficiente di correlazione Pearson tra le etichette e i valori previsti. Questa metrica va da zero a uno. Un valore più alto indica una migliore approssimazione alla retta di regressione.
  • MAPE: l'errore percentuale assoluto medio (MAPE) corrisponde alla differenza percentuale media assoluta tra le etichette e i valori previsti. Questa metrica va da zero a infinito, dove un valore più basso indica un modello di qualità migliore.
    Il MAPE non viene mostrato se la colonna di destinazione contiene valori 0. In questo caso, il MAPE non è definito.
  • WAPE: l'errore percentuale assoluto ponderato (WAPE) è la differenza complessiva tra il valore previsto da un modello e i valori osservati. Rispetto all'RMSE, il WAPE è ponderato in base alle differenze complessive piuttosto che a quelle individuali, che possono essere fortemente influenzate da valori bassi o intermittenti. Un valore più basso indica un modello di qualità migliore.
  • RMSPE: l'errore percentuale quadratico medio (RMSPE) mostra l'RMSE come percentuale dei valori effettivi anziché come numero assoluto. Un valore più basso indica un modello di qualità migliore.
  • Quantile: il percentile, che indica la probabilità che un valore osservato sia inferiore al valore previsto. Ad esempio, al quantile 0,5, i valori osservati dovrebbero essere inferiori ai valori previsti nel 50% dei casi.
  • Quantile osservato: mostra la percentuale di valori veri inferiori al valore previsto per un determinato quantile.
  • Perdita di pinball scalata: la perdita di pinball scalata in un determinato quantile. Un valore più basso indica un modello di qualità superiore nel quantile specificato.

Testo

Classificazione

Puoi visualizzare e scaricare i file dello schema dalla seguente posizione Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: l'area sotto la curva di precisione-richiamo (PR), chiamata anche precisione mediana. Il valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • Perdita logaritmica: l'entropia incrociata tra le previsioni del modello e i valori target. L'intervallo varia da zero a infinito, dove un valore più basso indica un modello di qualità superiore.
  • Soglia di confidenza: un punteggio di confidenza che determina quali predizioni restituire. Un modello restituisce previsioni uguali o superiori a questo valore. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce le metriche di affidabilità a diversi valori di soglia per mostrare in che modo la soglia influisce sulla precisione e sul richiamo.
  • Richiamo: la frazione di previsioni con questa classe che sono state previste correttamente dal modello. Chiamato anche tasso di veri positivi.
  • Richiamo a 1: il richiamo (tasso di veri positivi) se si considera solo l'etichetta con il punteggio di previsione più alto e non al di sotto della soglia di confidenza per ogni esempio.
  • Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono risultate corrette.
  • Precisione a 1: la precisione quando si considera solo l'etichetta con il punteggio di previsione più alto e non al di sotto della soglia di confidenza per ogni esempio.
  • Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra invece ciò che è stato previsto dal modello. La matrice di confusione ti aiuta a capire dove il tuo modello "confonde" due risultati.
  • Punteggio F1: la media armonica di precisione e richiamo. F1 è una metrica utile per trovare un equilibrio tra precisione e richiamo qualora esista una distribuzione non uniforme delle classi.
  • Punteggio F1 pari a 1: la media armonica del richiamo pari a 1 e della precisione pari a 1.

Video

Classificazione

Puoi visualizzare e scaricare i file dello schema dalla seguente posizione Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: l'area sotto la curva di precisione-richiamo (PR), chiamata anche precisione mediana. Il valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • Soglia di confidenza: un punteggio di confidenza che determina quali predizioni restituire. Un modello restituisce previsioni uguali o superiori a questo valore. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce le metriche di affidabilità a diversi valori di soglia per mostrare in che modo la soglia influisce sulla precisione e sul richiamo.
  • Richiamo: la frazione di previsioni con questa classe che sono state previste correttamente dal modello. Chiamato anche tasso di veri positivi.
  • Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono risultate corrette.
  • Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra invece ciò che è stato previsto dal modello. La matrice di confusione ti aiuta a capire dove il tuo modello "confonde" due risultati.
  • Punteggio F1: la media armonica di precisione e richiamo. F1 è una metrica utile per trovare un equilibrio tra precisione e richiamo qualora esista una distribuzione non uniforme delle classi.

Tutorial di Notebook

AutoML: dati tabulari

AutoML: testo

AutoML: video

Addestramento personalizzato: dati tabulari

Vertex AI Model Registry

Passaggi successivi