Valutazione dei modelli in Vertex AI

Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Vertex AI fornisce metriche di valutazione dei modelli, come precisione e richiamo, per aiutarti a determinare le prestazioni dei tuoi modelli.

La valutazione del modello fornita da Vertex AI può adattarsi al tipico flusso di lavoro di machine learning in diversi modi:

  1. Dopo aver addestrato il modello, esamina le metriche di valutazione del modello prima di eseguirne il deployment. Puoi confrontare le metriche di valutazione di più modelli per aiutarti a decidere quale modello implementare.

  2. Dopo aver eseguito il deployment del modello in produzione, valuta periodicamente il tuo modello con nuovi dati in entrata. Se le metriche di valutazione mostrano che il rendimento del tuo modello è in calo, valuta la possibilità di reimpostare il modello. Questa procedura è chiamata valutazione continua.

Il modo in cui vengono interpretate e utilizzate queste metriche dipende dalle esigenze della tua azienda e dal problema che il modello è addestrato a risolvere. Ad esempio, potresti avere una tolleranza inferiore per i falsi positivi rispetto ai falsi negativi o viceversa. Questi tipi di domande influiscono sulle metriche su cui ti conviene concentrarti durante l'iterazione del modello.

Funzionalità

Per valutare un modello con Vertex AI, devi avere un modello addestrato, un output di previsione batch e un set di dati di dati empirici reali. Di seguito è riportato un flusso di lavoro di valutazione del modello tipico che utilizza Vertex AI:

  1. Addestrare un modello. Puoi farlo in Vertex AI utilizzando AutoML o l'addestramento personalizzato.

  2. Esegui un job di previsione batch sul modello per generare i risultati della previsione.

  3. Prepara i dati basato su dati empirici reali, che sono quelli "etichettati correttamente" come determinati dagli esseri umani. La verità di base è solitamente sotto forma del set di dati di test utilizzato durante il processo di addestramento del modello.

  4. Esegui un job di valutazione sul modello che valuta la precisione dei risultati delle previsioni batch rispetto ai dati empirici reali.

  5. Analizza le metriche che derivano dal job di valutazione.

  6. Continua a modificare il tuo modello per vedere se puoi migliorarne la precisione. Puoi eseguire più job di valutazione e confrontare i risultati di più job tra modelli o versioni di modelli.

Puoi eseguire la valutazione dei modelli in Vertex AI in diversi modi:

  • Creare valutazioni tramite il registro modelli di Vertex AI nella console Google Cloud.

  • Usa le valutazioni dei modelli da Vertex AI come componente della pipeline con Vertex AI Pipelines. Puoi creare esecuzioni di pipeline e modelli che includono valutazioni dei modelli come parte del tuo flusso di lavoro MLOps automatizzato.

Vertex AI supporta la valutazione dei seguenti tipi di modello:

Immagine

Classificazione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelvalutazione/

  • AuPRC: l'area sotto la curva di precisione-richiamo (PR), nota anche come precisione media. Il valore varia da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • Perdita log: l'entropia incrociata tra le previsioni del modello e i valori target. L'intervallo va da zero a infinito, dove un valore più basso indica un modello di qualità superiore.
  • Soglia di affidabilità: un punteggio di affidabilità che determina quali previsioni restituire. Un modello restituisce previsioni di questo valore o superiori. Una soglia di affidabilità più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce metriche di affidabilità con valori di soglia diversi per mostrare come la soglia influisce sulla precisione e sul richiamo.
  • Richiama: la frazione delle previsioni con questa classe che il modello ha previsto in modo corretto. Chiamato anche velocità positiva.
  • Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono state corrette.
  • Matrice di confusione: si tratta di una matrice di confusione che indica la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra invece ciò che il modello prevede. La matrice di confusione ti aiuta a capire dove si trova il modello di "confusione" a due risultati.

Tabulare

Classificazione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelvalutazione/

  • AuPRC: l'area sotto la curva di precisione-richiamo (PR), nota anche come precisione media. Il valore varia da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • AuROC: l'area sotto la curva delle caratteristiche operative del ricevitore. L'intervallo va da zero a uno, dove un valore più alto indica un modello di qualità superiore.
  • Perdita log: l'entropia incrociata tra le previsioni del modello e i valori target. L'intervallo va da zero a infinito, dove un valore più basso indica un modello di qualità superiore.
  • Soglia di affidabilità: un punteggio di affidabilità che determina quali previsioni restituire. Un modello restituisce previsioni di questo valore o superiori. Una soglia di affidabilità più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce metriche di affidabilità con valori di soglia diversi per mostrare come la soglia influisce sulla precisione e sul richiamo.
  • Richiama: la frazione delle previsioni con questa classe che il modello ha previsto in modo corretto. Chiamato anche velocità positiva.
  • Richiama a 1: il richiamo (velocità positiva) solo se si considera l'etichetta con il punteggio di previsione più alto e non al di sotto della soglia di affidabilità per ogni esempio.
  • Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono state corrette.
  • Precisione a 1: la precisione quando si considera solo l'etichetta con il punteggio di previsione più alto e non al di sotto della soglia di affidabilità per ogni esempio.
  • Punteggio F1: la media armonica di precisione e richiamo. F1 è una metrica utile se stai cercando un equilibrio tra precisione e richiamo e c'è una distribuzione delle classi non uniforme.
  • Punteggio F1 a 1: la media armonica di richiamo a 1 e la precisione a 1.
  • Matrice di confusione: si tratta di una matrice di confusione che indica la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra invece ciò che il modello prevede. La matrice di confusione ti aiuta a capire dove si trova il modello di "confusione" a due risultati.
  • Vero numero negativo: il numero di volte in cui un modello ha previsto correttamente una classe negativa.
  • Vero numero positivo: il numero di volte in cui un modello ha previsto correttamente una classe positiva.
  • Falso negativo numero: il numero di volte in cui un modello ha previsto in modo errato una classe negativa.
  • Falso positivo numero: il numero di volte in cui un modello ha previsto in modo errato una classe positiva.
  • Percentuale di falsi positivi: la frazione dei risultati previsti in modo errato su tutti i risultati previsti.
  • Tasso di falsi positivi a 1: il tasso di falsi positivi quando si considera solo l'etichetta con il punteggio di previsione più alto e non al di sotto della soglia di affidabilità per ogni esempio.
  • Attribuzione delle caratteristiche del modello: Vertex AI mostra in che misura ciascuna caratteristica ha un impatto sul modello. I valori sono forniti in percentuale per ogni caratteristica: maggiore è la percentuale, maggiore è l'impatto della funzionalità sull'addestramento del modello. Consulta queste informazioni per assicurarti che tutte le funzionalità più importanti siano adatte ai problemi relativi ai dati e all'attività.

Regressione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelvalutazione/

  • MAE: l'errore medio assoluto (MAE) è la differenza media assoluta tra i valori target e i valori previsti. Il valore di questa metrica va da zero a infinito e un valore più basso indica un modello di qualità superiore.
  • RMSE: l'errore radice quadrata media è la radice quadrata della differenza media quadrata tra il valore target e i valori previsti. RMSE è più sensibile ai valori anomali di MAE,quindi se ti preoccupano gli errori di grandi dimensioni, RMSE può essere una metrica più utile da valutare. Analogamente a MAE, un valore più basso indica un modello di qualità superiore (0 rappresenta un predittore perfetto).
  • RMSLE: la metrica di errore logaritmica radice quadrata è simile a RMSE, ad eccezione del fatto che utilizza il logaritmo naturale dei valori previsti ed effettivi più 1. RMSLE penalizza ulteriormente la sottoprevisione rispetto alla sovraprevisione. Può inoltre essere una buona metrica quando non vuoi penalizzare maggiormente le differenze per valori di previsione di grandi dimensioni rispetto a quelli per previsioni di piccola entità. Il valore di questa metrica va da zero a infinito e un valore inferiore indica un modello di qualità migliore. La metrica di valutazione RMSLE viene restituita solo se tutti i valori di etichette e previsioni non sono negativi.
  • r^2: r al quadrato (r^2) è il quadrato del coefficiente di correlazione Pearson tra le etichette e i valori previsti. Il valore di questa metrica va da zero a uno; un valore più alto indica un modello di qualità migliore.
  • MAPE: errore percentuale medio assoluto (MAPE) indica la differenza percentuale assoluta media tra le etichette e i valori previsti. Questa metrica va da zero a infinito e un valore inferiore indica un modello di qualità migliore.
    MAPE non viene visualizzato se la colonna target contiene un valore pari a 0. In questo caso, MAPE non è definito.
  • Attribuzione delle caratteristiche del modello: Vertex AI mostra in che misura ciascuna caratteristica ha un impatto sul modello. I valori sono forniti in percentuale per ogni caratteristica: maggiore è la percentuale, maggiore è l'impatto della funzionalità sull'addestramento del modello. Consulta queste informazioni per assicurarti che tutte le funzionalità più importanti siano adatte ai problemi relativi ai dati e all'attività.

Previsione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelvalutazione/

  • MAE: l'errore medio assoluto (MAE) è la differenza media assoluta tra i valori target e i valori previsti. Il valore di questa metrica va da zero a infinito e un valore più basso indica un modello di qualità superiore.
  • RMSE: l'errore radice quadrata media è la radice quadrata della differenza media quadrata tra il valore target e i valori previsti. RMSE è più sensibile ai valori anomali di MAE,quindi se ti preoccupano gli errori di grandi dimensioni, RMSE può essere una metrica più utile da valutare. Analogamente a MAE, un valore più basso indica un modello di qualità superiore (0 rappresenta un predittore perfetto).
  • RMSLE: la metrica di errore logaritmica radice quadrata è simile a RMSE, ad eccezione del fatto che utilizza il logaritmo naturale dei valori previsti ed effettivi più 1. RMSLE penalizza ulteriormente la sottoprevisione rispetto alla sovraprevisione. Può inoltre essere una buona metrica quando non vuoi penalizzare maggiormente le differenze per valori di previsione di grandi dimensioni rispetto a quelli per previsioni di piccola entità. Il valore di questa metrica va da zero a infinito e un valore inferiore indica un modello di qualità migliore. La metrica di valutazione RMSLE viene restituita solo se tutti i valori di etichette e previsioni non sono negativi.
  • r^2: r al quadrato (r^2) è il quadrato del coefficiente di correlazione Pearson tra le etichette e i valori previsti. Il valore di questa metrica va da zero a uno; un valore più alto indica un modello di qualità migliore.
  • MAPE: errore percentuale medio assoluto (MAPE) indica la differenza percentuale assoluta media tra le etichette e i valori previsti. Questa metrica va da zero a infinito e un valore inferiore indica un modello di qualità migliore.
    MAPE non viene visualizzato se la colonna target contiene un valore pari a 0. In questo caso, MAPE non è definito.
  • WAPE: l'errore percentuale assoluto ponderato (WAPE) è la differenza complessiva tra il valore previsto da un modello e i valori osservati rispetto ai valori osservati. Rispetto a RMSE, il WAPE viene ponderato in base alle differenze complessive piuttosto che alle singole differenze, che possono essere fortemente influenzate da valori bassi o intermittenti. Un valore inferiore indica un modello di qualità migliore.
  • RMSPE: l'errore percentuale al quadrato medio (RMPSE) indica il valore RMSE come percentuale dei valori effettivi anziché un numero assoluto. Un valore più basso indica un modello di qualità superiore.
  • Quantile: il quantile percentuale, che indica la probabilità che un valore osservato sia inferiore al valore previsto. Ad esempio, al quantile 0, 5 i valori osservati dovrebbero essere inferiori ai valori previsti il 50% delle volte.
  • Quantile osservato: mostra la percentuale di valori reali inferiori al valore previsto per un dato quantile.
  • Perdita di flipper in scala: la perdita di flipper scalata in un determinato quantile. Un valore più basso indica un modello di qualità superiore al quantile specificato.

Testo

Classificazione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelvalutazione/

  • AuPRC: l'area sotto la curva di precisione-richiamo (PR), nota anche come precisione media. Il valore varia da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • Perdita log: l'entropia incrociata tra le previsioni del modello e i valori target. L'intervallo va da zero a infinito, dove un valore più basso indica un modello di qualità superiore.
  • Soglia di affidabilità: un punteggio di affidabilità che determina quali previsioni restituire. Un modello restituisce previsioni di questo valore o superiori. Una soglia di affidabilità più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce metriche di affidabilità con valori di soglia diversi per mostrare come la soglia influisce sulla precisione e sul richiamo.
  • Richiama: la frazione delle previsioni con questa classe che il modello ha previsto in modo corretto. Chiamato anche velocità positiva.
  • Richiama a 1: il richiamo (velocità positiva) solo se si considera l'etichetta con il punteggio di previsione più alto e non al di sotto della soglia di affidabilità per ogni esempio.
  • Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono state corrette.
  • Precisione a 1: la precisione quando si considera solo l'etichetta con il punteggio di previsione più alto e non al di sotto della soglia di affidabilità per ogni esempio.
  • Matrice di confusione: si tratta di una matrice di confusione che indica la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra invece ciò che il modello prevede. La matrice di confusione ti aiuta a capire dove si trova il modello di "confusione" a due risultati.
  • Punteggio F1: la media armonica di precisione e richiamo. F1 è una metrica utile se stai cercando un equilibrio tra precisione e richiamo e c'è una distribuzione delle classi non uniforme.
  • Punteggio F1 a 1: la media armonica di richiamo a 1 e la precisione a 1.
  • Matrice di confusione: si tratta di una matrice di confusione che indica la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra invece ciò che il modello prevede. La matrice di confusione ti aiuta a capire dove si trova il modello di "confusione" a due risultati.

Video

Classificazione

Puoi visualizzare e scaricare i file di schema dalla seguente posizione di Cloud Storage:
gs://google-cloud-aiplatform/schema/modelvalutazione/

  • AuPRC: l'area sotto la curva di precisione-richiamo (PR), nota anche come precisione media. Il valore varia da zero a uno, dove un valore più elevato indica un modello di qualità superiore.
  • Soglia di affidabilità: un punteggio di affidabilità che determina quali previsioni restituire. Un modello restituisce previsioni di questo valore o superiori. Una soglia di affidabilità più alta aumenta la precisione, ma riduce il richiamo. Vertex AI restituisce metriche di affidabilità con valori di soglia diversi per mostrare come la soglia influisce sulla precisione e sul richiamo.
  • Richiama: la frazione delle previsioni con questa classe che il modello ha previsto in modo corretto. Chiamato anche velocità positiva.
  • Precisione: la frazione delle previsioni di classificazione prodotte dal modello che sono state corrette.
  • Matrice di confusione: si tratta di una matrice di confusione che indica la frequenza con cui un modello ha previsto correttamente un risultato. Per i risultati previsti in modo errato, la matrice mostra invece ciò che il modello prevede. La matrice di confusione ti aiuta a capire dove si trova il modello di "confusione" a due risultati.
  • Punteggio F1: la media armonica di precisione e richiamo. F1 è una metrica utile se stai cercando un equilibrio tra precisione e richiamo e c'è una distribuzione delle classi non uniforme.

Passaggi successivi