Valutazione dei modelli in Vertex AI

Vertex AI fornisce metriche di valutazione dei modelli sia per l'IA predittiva sia per i modelli di IA generativa. Questa pagina fornisce una panoramica del servizio di valutazione per i modelli di AI predittivi. Per valutare un modello di AI generativa, vedi Servizio di valutazione dell'IA generativa Panoramica.

Il servizio di valutazione dell'AI predittiva consente di valutare le prestazioni del modello in casi d'uso specifici. La valutazione è anche l'osservabilità delle prestazioni di un modello. La valutazione del modello fornita da Vertex AI può adattarsi al flusso di lavoro di machine learning tipico in diversi modi:

  • Dopo aver addestrato il modello, esamina le metriche di valutazione del modello prima di eseguirne il deployment. Puoi confrontare le metriche di valutazione di più modelli per decidere quale modello implementare.

  • Dopo il deployment del modello in produzione, valuta periodicamente il modello con nuovi dati in entrata. Se le metriche di valutazione mostrano un peggioramento delle prestazioni del modello, valuta la possibilità di riaddestrare il modello. Questo processo è chiamato valutazione continua.

Il modo in cui interpreti e utilizzi queste metriche dipende dalle esigenze aziendali e dal problema che il modello è addestrato a risolvere. Ad esempio, potresti avere una tolleranza più bassa per i falsi positivi rispetto ai falsi negativi o viceversa. Questo tipo di domande influisce sulle metriche su cui ti concentreresti durante l'iterazione del modello.

Alcune metriche chiave fornite dal servizio di valutazione di modelli di AI predittiva includono:

Funzionalità

Per valutare un modello con Vertex AI, è necessario avere una addestrato, un output di previsione batch e un set di dati basato su dati empirici reali. La di seguito è riportato un tipico flusso di lavoro di valutazione del modello utilizzando Vertex AI:

  1. Addestra un modello. Puoi farlo in Vertex AI utilizzando AutoML o addestramento personalizzato.

  2. Esegui un job di previsione batch sul modello per generare i risultati della previsione.

  3. Prepara i dati di dati empirici reali, che sono "etichettati correttamente" dati come determinati dagli esseri umani. I dati di fatto si presentano solitamente sotto forma di test utilizzato durante il processo di addestramento del modello.

  4. Esegui un job di valutazione sul modello per valutare l'accuratezza del batch i risultati della previsione rispetto ai dati di fatto.

  5. Analizzare le metriche risultanti dal job di valutazione.

  6. Ripeti il processo sul tuo modello per capire se è possibile migliorarne la precisione. Puoi eseguire più job di valutazione e confrontare i risultati di più job tra modelli o versioni del modello.

Puoi eseguire la valutazione del modello in Vertex AI in diversi modi:

  • Crea valutazioni tramite Vertex AI Model Registry nel nella console Google Cloud.

  • Utilizza le valutazioni del modello di Vertex AI come componente pipeline con Vertex AI Pipelines. Tu può creare esecuzioni e modelli di pipeline che includono le valutazioni del modello come del flusso di lavoro MLOps automatizzato.

    Puoi eseguire il componente di valutazione del modello da solo oppure con altri componenti della pipeline, come la previsione batch, .

Vertex AI supporta la valutazione dei seguenti tipi di modelli:

Immagine

Classificazione

Puoi visualizzare e scaricare file di schema dai seguenti file di Cloud Storage località:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: area sotto la curva di precisione-richiamo (PR), chiamata anche media la precisione. Il valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • Perdita logaritmica: entropia incrociata tra le previsioni del modello e il target e i relativi valori. L'intervallo va da zero a infinito, dove un valore più basso indica una un modello di qualità superiore.
  • Soglia di confidenza: un punteggio di confidenza che determina quali le previsioni da restituire. Un modello restituisce previsioni che raggiungono questo valore in alto. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce metriche di confidenza con valori di soglia diversi per mostrare come la soglia influisce precisione e ricordo.
  • Richiamo: la frazione delle previsioni con questa classe che il modello previsto correttamente. Chiamato anche tasso di veri positivi.
  • Precisione: la frazione delle previsioni di classificazione prodotte dalla corretto.
  • Matrice di confusione: A confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per errata dei risultati previsti, la matrice mostra invece ciò che è stato previsto dal modello. La la matrice di confusione aiuta a capire dove il modello "confonde" due che consentono di analizzare i dati e visualizzare i risultati.

Tabulare

Classificazione

Puoi visualizzare e scaricare file di schema dai seguenti file di Cloud Storage località:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: area sotto la curva di precisione-richiamo (PR), chiamata anche media la precisione. Il valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • AuROC: la area sotto la curva della caratteristica operativa del ricevitore. L'intervallo varia da zero a uno, dove un valore più elevato indica un modello di qualità migliore.
  • Perdita logaritmica: entropia incrociata tra le previsioni del modello e il target e i relativi valori. L'intervallo va da zero a infinito, dove un valore più basso indica una un modello di qualità superiore.
  • Soglia di confidenza: un punteggio di confidenza che determina quali le previsioni da restituire. Un modello restituisce previsioni che raggiungono questo valore in alto. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce metriche di confidenza con valori di soglia diversi per mostrare come la soglia influisce precisione e ricordo.
  • Richiamo: la frazione delle previsioni con questa classe che il modello previsto correttamente. Chiamato anche tasso di veri positivi.
  • Richiamo a 1: il richiamo (tasso di veri positivi) quando si considera solo l'etichetta con il punteggio di previsione più alto e non inferiore al livello di confidenza per ogni esempio.
  • Precisione: la frazione delle previsioni di classificazione prodotte dalla corretto.
  • Precisione a 1: la precisione quando viene considerata solo l'etichetta con il punteggio di previsione più alto e non al di sotto della soglia di confidenza esempio.
  • Punteggio F1: la media armonica di precisione e richiamo. F1 è un'informazione utile per trovare un equilibrio tra precisione e richiamo una distribuzione non uniforme delle classi.
  • Punteggio F1 a 1: la media armonica del richiamo a 1 e la precisione a 1.
  • Matrice di confusione: A confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per errata dei risultati previsti, la matrice mostra invece ciò che è stato previsto dal modello. La la matrice di confusione aiuta a capire dove il modello "confonde" due che consentono di analizzare i dati e visualizzare i risultati.
  • Conteggio veri negativi: il numero di volte in cui un modello ha previsto correttamente una classe negativa.
  • Conteggio veri positivi: il numero di volte in cui un modello ha previsto correttamente un una classe positiva.
  • Conteggio falsi negativi: il numero di volte in cui un modello ha previsto erroneamente una classe negativa.
  • Conteggio falsi positivi: il numero di volte in cui un modello ha previsto erroneamente una classe positiva.
  • Percentuale di falsi positivi: la frazione di risultati previsti in modo errato su tutti i risultati previsti.
  • Tasso di falsi positivi a 1: il tasso di falsi positivi quando solo si considerano l'etichetta con il punteggio di previsione più alto e non inferiore al livello di confidenza per ogni esempio.
  • Attribuzioni delle caratteristiche del modello: Vertex AI mostra l'impatto di ciascuna caratteristica su un modello. I valori vengono forniti come percentuale per ciascuna caratteristica: più alta è la percentuale, maggiore è l'impatto che l'elemento ha avuto durante l'addestramento del modello. Esamina queste informazioni per assicurarti che tutti i più importanti più pertinenti per i dati e il problema aziendale.

Regressione

Puoi visualizzare e scaricare file di schema dai seguenti file di Cloud Storage località:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: l'errore assoluto medio (MAE, Mean Absolute Error) è la differenza media assoluta. tra i valori target e quelli previsti. Questa metrica va da zero all'infinito; un valore più basso indica un modello di qualità migliore.
  • RMSE: l'errore quadratico medio è la radice quadrata del valore medio differenza quadrata tra i valori target e quelli previsti. L'RMSE è maggiore sensibile agli outlier rispetto al MAE. Se la preoccupazione principale riguarda gli errori di grande entità, L'RMSE può essere una metrica più utile da valutare. Simile al MAE, un valore minore indica un modello di qualità superiore (0 rappresenta un predittore perfetto).
  • RMSLE: la metrica dell'errore logaritmico quadratico medio è simile all'RMSE, tranne che utilizza il logaritmo naturale dei valori previsti ed effettivi più 1. Penalizza in misura maggiore la sottoprevisione rispetto alla sovraprevisione. it possono essere una buona metrica anche quando non si vuole penalizzare le differenze per valori di previsione più elevati rispetto a quelli ridotti. Questa metrica va da zero a infinito; un valore più basso indica un modello di qualità migliore. La metrica di valutazione RMSLE viene restituita solo se tutti i valori previsti e tutte le etichette sono non negativi.
  • r^2: r al quadrato (r^2) è il quadrato della correlazione di Pearson coefficiente tra le etichette e i valori previsti. Questa metrica va tra zero e uno. Un valore più alto indica un adattamento più vicino alla linea di regressione.
  • MAPE: l'errore percentuale medio assoluto (MAPE, Mean Absolute Percentage Error) è l'errore percentuale medio assoluto. di differenza percentuale tra le etichette e i valori previsti. Questa metrica va da zero a infinito, un valore più basso indica una qualità migliore un modello di machine learning.
    Se la colonna di destinazione non contiene nessun valore, il MAPE non viene mostrato. In questo caso, Il MAPE non è definito.
  • Attribuzioni delle caratteristiche del modello: Vertex AI mostra l'impatto di ciascuna caratteristica su un modello. I valori vengono forniti come percentuale per ciascuna caratteristica: più alta è la percentuale, maggiore è l'impatto che l'elemento ha avuto durante l'addestramento del modello. Esamina queste informazioni per assicurarti che tutti i più importanti più pertinenti per i dati e il problema aziendale.

Previsione

Puoi visualizzare e scaricare file di schema dai seguenti file di Cloud Storage località:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • MAE: l'errore assoluto medio (MAE, Mean Absolute Error) è la differenza media assoluta. tra i valori target e quelli previsti. Questa metrica va da zero all'infinito; un valore più basso indica un modello di qualità migliore.
  • RMSE: l'errore quadratico medio è la radice quadrata del valore medio differenza quadrata tra i valori target e quelli previsti. L'RMSE è maggiore sensibile agli outlier rispetto al MAE. Se la preoccupazione principale riguarda gli errori di grande entità, L'RMSE può essere una metrica più utile da valutare. Simile al MAE, un valore minore indica un modello di qualità superiore (0 rappresenta un predittore perfetto).
  • RMSLE: la metrica dell'errore logaritmico quadratico medio è simile all'RMSE, tranne che utilizza il logaritmo naturale dei valori previsti ed effettivi più 1. Penalizza in misura maggiore la sottoprevisione rispetto alla sovraprevisione. it possono essere una buona metrica anche quando non si vuole penalizzare le differenze per valori di previsione più elevati rispetto a quelli ridotti. Questa metrica va da zero a infinito; un valore più basso indica un modello di qualità migliore. La metrica di valutazione RMSLE viene restituita solo se tutti i valori previsti e tutte le etichette sono non negativi.
  • r^2: r al quadrato (r^2) è il quadrato della correlazione di Pearson coefficiente tra le etichette e i valori previsti. Questa metrica va tra zero e uno. Un valore più alto indica un adattamento più vicino alla linea di regressione.
  • MAPE: l'errore percentuale medio assoluto (MAPE, Mean Absolute Percentage Error) è l'errore percentuale medio assoluto. di differenza percentuale tra le etichette e i valori previsti. Questa metrica va da zero a infinito, un valore più basso indica una qualità migliore un modello di machine learning.
    Se la colonna di destinazione non contiene nessun valore, il MAPE non viene mostrato. In questo caso, Il MAPE non è definito.
  • WAPE: l'errore percentuale assoluto ponderato (WAPE) è la differenza complessiva tra il valore previsto da un modello e i valori osservati sopra i valori osservati. Rispetto all'RMSE, il WAPE viene ponderato in base alle differenze complessive piuttosto che differenze individuali, che possono essere fortemente influenzate da livelli bassi o intermittenti. Un valore più basso indica un modello di qualità migliore.
  • RMSPE: l'errore quadratico medio (RMPSE) mostra l'RMSE come un valore percentuale dei valori effettivi, anziché un numero assoluto. Un valore più basso indica un modello di qualità superiore.
  • Quantile: il quantile percentuale, che indica la probabilità che un il valore osservato sarà inferiore al valore previsto. Ad esempio, al valore 0,5 quantile, i valori osservati dovrebbero essere inferiori a quelli previsti il 50% delle volte.
  • Quantile osservato: mostra la percentuale di valori veri che erano inferiori. rispetto al valore previsto per un determinato quantile.
  • Perdita del flipper scalata: la perdita scalata del flipper in un determinato quantile. Un valore più basso indica un modello di qualità migliore per il quantile specificato.

Testo

Classificazione

Puoi visualizzare e scaricare file di schema dai seguenti file di Cloud Storage località:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: area sotto la curva di precisione-richiamo (PR), chiamata anche media la precisione. Il valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • Perdita logaritmica: entropia incrociata tra le previsioni del modello e il target e i relativi valori. L'intervallo va da zero a infinito, dove un valore più basso indica una un modello di qualità superiore.
  • Soglia di confidenza: un punteggio di confidenza che determina quali le previsioni da restituire. Un modello restituisce previsioni che raggiungono questo valore in alto. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce metriche di confidenza con valori di soglia diversi per mostrare come la soglia influisce precisione e ricordo.
  • Richiamo: la frazione delle previsioni con questa classe che il modello previsto correttamente. Chiamato anche tasso di veri positivi.
  • Richiamo a 1: il richiamo (tasso di veri positivi) quando si considera solo l'etichetta con il punteggio di previsione più alto e non inferiore al livello di confidenza per ogni esempio.
  • Precisione: la frazione delle previsioni di classificazione prodotte dalla corretto.
  • Precisione a 1: la precisione quando viene considerata solo l'etichetta con il punteggio di previsione più alto e non al di sotto della soglia di confidenza esempio.
  • Matrice di confusione: A confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per errata dei risultati previsti, la matrice mostra invece ciò che è stato previsto dal modello. La la matrice di confusione aiuta a capire dove il modello "confonde" due che consentono di analizzare i dati e visualizzare i risultati.
  • Punteggio F1: la media armonica di precisione e richiamo. F1 è un'informazione utile per trovare un equilibrio tra precisione e richiamo una distribuzione non uniforme delle classi.
  • Punteggio F1 a 1: la media armonica del richiamo a 1 e la precisione a 1.

Video

Classificazione

Puoi visualizzare e scaricare file di schema dai seguenti file di Cloud Storage località:
gs://google-cloud-aiplatform/schema/modelevaluation/

  • AuPRC: area sotto la curva di precisione-richiamo (PR), chiamata anche media la precisione. Il valore va da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • Soglia di confidenza: un punteggio di confidenza che determina quali le previsioni da restituire. Un modello restituisce previsioni che raggiungono questo valore in alto. Una soglia di confidenza più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce metriche di confidenza con valori di soglia diversi per mostrare come la soglia influisce precisione e ricordo.
  • Richiamo: la frazione delle previsioni con questa classe che il modello previsto correttamente. Chiamato anche tasso di veri positivi.
  • Precisione: la frazione delle previsioni di classificazione prodotte dalla corretto.
  • Matrice di confusione: A confusione mostra la frequenza con cui un modello ha previsto correttamente un risultato. Per errata dei risultati previsti, la matrice mostra invece ciò che è stato previsto dal modello. La la matrice di confusione aiuta a capire dove il modello "confonde" due che consentono di analizzare i dati e visualizzare i risultati.
  • Punteggio F1: la media armonica di precisione e richiamo. F1 è un'informazione utile per trovare un equilibrio tra precisione e richiamo una distribuzione non uniforme delle classi.

Tutorial sul blocco note

AutoML: tabulari

AutoML: testo

AutoML: video

Addestramento personalizzato: tabulare

Vertex AI Model Registry

Passaggi successivi