Il servizio di valutazione dell'IA predittiva ti consente di valutare le prestazioni del modello in casi d'uso specifici. La valutazione è anche l'osservabilità delle prestazioni di un modello. La valutazione del modello fornita da Vertex AI può adattarsi al flusso di lavoro di machine learning in diversi modi:
Dopo aver addestrato il modello, esamina le metriche di valutazione del modello prima di eseguirlo. Puoi confrontare le metriche di valutazione di più modelli per aiutarti a decidere quale modello implementare.
Dopo aver eseguito il deployment del modello in produzione, valutalo periodicamente con i nuovi dati in entrata. Se le metriche di valutazione mostrano un peggioramento delle prestazioni del modello, valuta la possibilità di riaddestrare il modello. Questa procedura è chiamata valutazione continua.
L'interpretazione e l'utilizzo di queste metriche dipendono dalle esigenze aziendali e dal problema che il modello è addestrato a risolvere. Ad esempio, potresti avere una tolleranza più bassa per i falsi positivi rispetto ai falsi negativi o viceversa. Questi tipi di domande influiscono sulle metriche su cui ti concentrerai durante l'iterazione del modello.
Alcune metriche chiave fornite dal servizio di valutazione di modelli di AI predittiva includono:
Funzionalità
Per valutare un modello con Vertex AI, devi disporre di un modello addestrato, un output di previsione batch e un set di dati basato su dati empirici reali. La di seguito è riportato un tipico flusso di lavoro di valutazione del modello utilizzando Vertex AI:
Addestra un modello. Puoi farlo in Vertex AI utilizzando AutoML o addestramento personalizzato.
Esegui un job di previsione batch sul modello per generare i risultati di previsione.
Prepara i dati empirici, ovvero i dati "etichettati correttamente" come stabiliti da persone fisiche. I dati empirici reali sono in genere sotto forma di set di dati di test utilizzato durante la procedura di addestramento del modello.
Esegui un job di valutazione sul modello per valutare l'accuratezza del batch i risultati della previsione rispetto ai dati di fatto.
Analizzare le metriche risultanti dal job di valutazione.
Esegui l'iterazione sul modello per verificare se puoi migliorarne l'accuratezza. Puoi eseguire più job di valutazione e confrontare i risultati di più job tra modelli o versioni di modelli.
Puoi eseguire la valutazione del modello in Vertex AI in diversi modi:
Crea valutazioni tramite Vertex AI Model Registry nel nella console Google Cloud.
Utilizza le valutazioni del modello di Vertex AI come componente pipeline con Vertex AI Pipelines. Puoi creare esecuzioni e modelli di pipeline che includono valutazioni del modello come parte del flusso di lavoro MLOps automatizzato.
Puoi eseguire il componente di valutazione del modello da solo o con altri componenti della pipeline, come il componente di previsione batch.
Vertex AI supporta la valutazione dei seguenti tipi di modelli:
Immagine
Classificazione
Puoi visualizzare e scaricare file di schema dal seguente Cloud Storage
località:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC: l'area sotto la curva di precisione-richiamo (PR), chiamata anche precisione mediana. Il valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
- Perdita logaritmica: entropia incrociata tra le previsioni del modello e il target e i relativi valori. L'intervallo va da zero a infinito, dove un valore più basso indica una un modello di qualità superiore.
- Soglia di confidenza: un punteggio di confidenza che determina quali le previsioni da restituire. Un modello restituisce previsioni che raggiungono questo valore in alto. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce metriche di confidenza con valori di soglia diversi per mostrare come la soglia influisce precisione e ricordo.
- Richiamo: la frazione di previsioni con questa classe che sono state previste correttamente dal modello. Chiamato anche tasso di veri positivi.
- Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono risultate corrette.
- Matrice di confusione: A confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra invece ciò che è stato previsto dal modello. La matrice di confusione ti aiuta a capire dove il tuo modello "confonde" due risultati.
Tabulare
Classificazione
Puoi visualizzare e scaricare file di schema dal seguente Cloud Storage
località:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC: area sotto la curva di precisione-richiamo (PR), chiamata anche media la precisione. Il valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
- AuROC: l'area sotto la curva della caratteristica operativa del ricevitore. L'intervallo varia da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
- Perdita logaritmica: l'entropia incrociata tra le previsioni del modello e i valori target. L'intervallo varia da zero a infinito, dove un valore più basso indica un modello di qualità superiore.
- Soglia di confidenza: un punteggio di confidenza che determina quali le previsioni da restituire. Un modello restituisce previsioni uguali o superiori a questo valore. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce le metriche di affidabilità a diversi valori di soglia per mostrare in che modo la soglia influisce sulla precisione e sul richiamo.
- Richiamo: la frazione di previsioni con questa classe che sono state previste correttamente dal modello. Chiamato anche tasso di veri positivi.
- Richiamo a 1: il richiamo (tasso di veri positivi) quando si considera solo l'etichetta con il punteggio di previsione più alto e non inferiore al livello di confidenza per ogni esempio.
- Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono risultate corrette.
- Precisione a 1: la precisione quando viene considerata solo l'etichetta con il punteggio di previsione più alto e non al di sotto della soglia di confidenza esempio.
- Punteggio F1: la media armonica di precisione e richiamo. F1 è un'informazione utile per trovare un equilibrio tra precisione e richiamo una distribuzione non uniforme delle classi.
- Punteggio F1 pari a 1: la media armonica del richiamo pari a 1 e della precisione pari a 1.
- Matrice di confusione: A confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra invece ciò che è stato previsto dal modello. La la matrice di confusione aiuta a capire dove il modello "confonde" due che consentono di analizzare i dati e visualizzare i risultati.
- Conteggio veri negativi: il numero di volte in cui un modello ha previsto correttamente una classe negativa.
- Conteggio veri positivi: il numero di volte in cui un modello ha previsto correttamente un una classe positiva.
- Conteggio falsi negativi: il numero di volte in cui un modello ha previsto erroneamente una classe negativa.
- Conteggio falsi positivi: il numero di volte in cui un modello ha previsto erroneamente una classe positiva.
- Percentuale di falsi positivi: la frazione di risultati previsti in modo errato su tutti i risultati previsti.
- Tasso di falsi positivi a 1: il tasso di falsi positivi quando solo si considerano l'etichetta con il punteggio di previsione più alto e non inferiore al livello di confidenza per ogni esempio.
- Attribuzioni delle funzionalità del modello: Vertex AI mostra l'impatto di ciascuna funzionalità su un modello. I valori sono forniti sotto forma percentuale per ogni caratteristica: più alta è la percentuale, maggiore è l'impatto della caratteristica sull'addestramento del modello. Esamina queste informazioni per assicurarti che tutti i più importanti più pertinenti per i dati e il problema aziendale.
Regressione
Puoi visualizzare e scaricare file di schema dal seguente Cloud Storage
località:
gs://google-cloud-aiplatform/schema/modelevaluation/
- MAE: l'errore medio assoluto (MAE) indica la differenza media assoluta tra i valori target e quelli previsti. Questa metrica va da zero all'infinito; un valore più basso indica un modello di qualità migliore.
- RMSE: l'errore quadratico medio della radice è la radice quadrata della media dei quadrati delle differenze tra i valori di destinazione e quelli previsti. L'RMSE è maggiore sensibile agli outlier rispetto al MAE. Se la preoccupazione principale riguarda gli errori di grande entità, L'RMSE può essere una metrica più utile da valutare. Analogamente al MAE, un valore minore indica un modello di qualità migliore (0 rappresenta un predittore perfetto).
- RMSLE: la metrica dell'errore logaritmico quadratico medio è simile all'RMSE, tranne che utilizza il logaritmo naturale dei valori previsti ed effettivi più 1. Penalizza in misura maggiore la sottoprevisione rispetto alla sovraprevisione. it possono essere una buona metrica anche quando non si vuole penalizzare le differenze per valori di previsione più elevati rispetto a quelli ridotti. Questa metrica va da zero a infinito; un valore più basso indica un modello di qualità migliore. La metrica di valutazione RMSLE viene restituita solo se tutti i valori previsti e tutte le etichette sono non negativi.
- r^2: r al quadrato (r^2) è il quadrato del coefficiente di correlazione Pearson tra le etichette e i valori previsti. Questa metrica va tra zero e uno. Un valore più alto indica una migliore approssimazione alla retta di regressione.
-
MAPE: l'errore percentuale medio assoluto (MAPE, Mean Absolute Percentage Error) è l'errore percentuale medio assoluto.
di differenza percentuale tra le etichette e i valori previsti. Questa metrica
va da zero a infinito, un valore più basso indica una qualità migliore
un modello di machine learning.
Il MAPE non viene mostrato se la colonna di destinazione contiene valori 0. In questo caso, il MAPE non è definito. - Attribuzioni delle funzionalità del modello: Vertex AI mostra l'impatto di ciascuna funzionalità su un modello. I valori vengono forniti come percentuale per ciascuna caratteristica: più alta è la percentuale, maggiore è l'impatto che l'elemento ha avuto durante l'addestramento del modello. Esamina queste informazioni per assicurarti che tutti i più importanti più pertinenti per i dati e il problema aziendale.
Previsione
Puoi visualizzare e scaricare i file dello schema dalla seguente posizione Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/
- MAE: l'errore medio assoluto (MAE) indica la differenza media assoluta tra i valori target e quelli previsti. Questa metrica va da zero all'infinito; un valore più basso indica un modello di qualità migliore.
- RMSE: l'errore quadratico medio della radice è la radice quadrata della media dei quadrati delle differenze tra i valori di destinazione e quelli previsti. L'RMSE è maggiore sensibile agli outlier rispetto al MAE. Se la preoccupazione principale riguarda gli errori di grande entità, L'RMSE può essere una metrica più utile da valutare. Analogamente al MAE, un valore minore indica un modello di qualità migliore (0 rappresenta un predittore perfetto).
- RMSLE: la metrica dell'errore logaritmico quadratico medio è simile all'RMSE, tranne che utilizza il logaritmo naturale dei valori previsti ed effettivi più 1. Penalizza in misura maggiore la sottoprevisione rispetto alla sovraprevisione. it possono essere una buona metrica anche quando non si vuole penalizzare le differenze per valori di previsione più elevati rispetto a quelli ridotti. Questa metrica va da zero a infinito; un valore più basso indica un modello di qualità migliore. La metrica di valutazione RMSLE viene restituita solo se tutti i valori previsti e tutte le etichette sono non negativi.
- r^2: r al quadrato (r^2) è il quadrato del coefficiente di correlazione Pearson tra le etichette e i valori previsti. Questa metrica va tra zero e uno. Un valore più alto indica una migliore approssimazione alla retta di regressione.
-
MAPE: l'errore percentuale medio assoluto (MAPE, Mean Absolute Percentage Error) è l'errore percentuale medio assoluto.
di differenza percentuale tra le etichette e i valori previsti. Questa metrica
va da zero a infinito, un valore più basso indica una qualità migliore
un modello di machine learning.
Se la colonna di destinazione non contiene nessun valore, il MAPE non viene mostrato. In questo caso, Il MAPE non è definito. - WAPE: l'errore percentuale assoluto ponderato (WAPE) è la differenza complessiva tra il valore previsto da un modello e i valori osservati. Rispetto all'RMSE, il WAPE è ponderato in base alle differenze complessive piuttosto che a quelle individuali, che possono essere fortemente influenzate da valori bassi o intermittenti. Un valore più basso indica un modello di qualità migliore.
- RMSPE: l'errore quadratico medio (RMPSE) mostra l'RMSE come un valore percentuale dei valori effettivi, anziché un numero assoluto. Un valore più basso indica un modello di qualità migliore.
- Quantile: il quantile percentuale, che indica la probabilità che un il valore osservato sarà inferiore al valore previsto. Ad esempio, al valore 0,5 quantile, i valori osservati dovrebbero essere inferiori a quelli previsti il 50% delle volte.
- Quantile osservato: mostra la percentuale di valori veri che erano inferiori. rispetto al valore previsto per un determinato quantile.
- Perdita del flipper scalata: la perdita scalata del flipper in un determinato quantile. Un valore più basso indica un modello di qualità superiore nel quantile specificato.
Testo
Classificazione
Puoi visualizzare e scaricare i file dello schema dalla seguente posizione Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC: area sotto la curva di precisione-richiamo (PR), chiamata anche media la precisione. Il valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
- Perdita logaritmica: entropia incrociata tra le previsioni del modello e il target e i relativi valori. L'intervallo va da zero a infinito, dove un valore più basso indica una un modello di qualità superiore.
- Soglia di confidenza: un punteggio di confidenza che determina quali predizioni restituire. Un modello restituisce previsioni che raggiungono questo valore in alto. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce metriche di confidenza con valori di soglia diversi per mostrare come la soglia influisce precisione e ricordo.
- Richiamo: la frazione di previsioni con questa classe che sono state previste correttamente dal modello. Chiamato anche tasso di veri positivi.
- Richiamo a 1: il richiamo (tasso di veri positivi) quando si considera solo l'etichetta con il punteggio di previsione più alto e non inferiore al livello di confidenza per ogni esempio.
- Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono risultate corrette.
- Precisione a 1: la precisione quando si considera solo l'etichetta con il punteggio di previsione più alto e non al di sotto della soglia di confidenza per ogni esempio.
- Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per errata dei risultati previsti, la matrice mostra invece ciò che è stato previsto dal modello. La matrice di confusione ti aiuta a capire dove il tuo modello "confonde" due risultati.
- Punteggio F1: la media armonica di precisione e richiamo. F1 è un'informazione utile per trovare un equilibrio tra precisione e richiamo una distribuzione non uniforme delle classi.
- Punteggio F1 a 1: la media armonica del richiamo a 1 e la precisione a 1.
Video
Classificazione
Puoi visualizzare e scaricare i file dello schema dalla seguente posizione Cloud Storage:
gs://google-cloud-aiplatform/schema/modelevaluation/
- AuPRC: area sotto la curva di precisione-richiamo (PR), chiamata anche media la precisione. Il valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
- Soglia di confidenza: un punteggio di confidenza che determina quali le previsioni da restituire. Un modello restituisce previsioni che raggiungono questo valore in alto. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce metriche di confidenza con valori di soglia diversi per mostrare come la soglia influisce precisione e ricordo.
- Richiamo: la frazione di previsioni con questa classe che sono state previste correttamente dal modello. Chiamato anche tasso di veri positivi.
- Precisione: la frazione delle previsioni di classificazione prodotte dalla corretto.
- Matrice di confusione: una matrice di confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra invece ciò che è stato previsto dal modello. La la matrice di confusione aiuta a capire dove il modello "confonde" due che consentono di analizzare i dati e visualizzare i risultati.
- Punteggio F1: la media armonica di precisione e richiamo. F1 è una metrica utile per trovare un equilibrio tra precisione e richiamo qualora esista una distribuzione non uniforme delle classi.