Questa pagina è stata tradotta dall'API Cloud Translation.

Panoramica della valutazione dei modelli di BigQuery ML

Questo documento descrive in che modo BigQuery ML supporta la valutazione dei modelli di machine learning (ML).

Panoramica della valutazione del modello

Puoi utilizzare le metriche di valutazione del modello ML per i seguenti scopi:

Per valutare la qualità dell'adattamento tra il modello e i dati.
Per confrontare modelli diversi.
Per prevedere con quale precisione puoi aspettarti che ogni modello funzioni su un set di dati specifico, nel contesto della selezione del modello.

Le valutazioni dei modelli di apprendimento supervisionato e non supervisionato funzionano in modo diverso:

Per i modelli di apprendimento supervisionato, la valutazione del modello è ben definita. Un set di valutazione, ovvero dati che non sono stati analizzati dal modello, viene in genere escluso dal set di addestramento e poi utilizzato per valutare le prestazioni del modello. Ti consigliamo di non utilizzare il set di addestramento per la valutazione perché ciò fa sì che il modello abbia prestazioni scarse quando generalizza i risultati della previsione per i nuovi dati. Questo risultato è noto come overfitting.
Per i modelli di apprendimento non supervisionato, la valutazione del modello è meno definita e in genere varia da modello a modello. Poiché i modelli di apprendimento non supervisionato non riservano un set di valutazione, le metriche di valutazione vengono calcolate utilizzando l'intero set di dati di input.

Offerte di valutazione del modello

BigQuery ML fornisce le seguenti funzioni per calcolare le metriche di valutazione per i modelli di ML:

Categoria del modello	Tipi di modello	Funzioni di valutazione del modello	Cosa fa la funzione
Apprendimento supervisionato	Regressione lineare Regressore ad albero potenziato Regressore di foresta casuale Regressore DNN Regressore wide and deep Regressore AutoML Tables	`ML.EVALUATE`	Genera report sulle seguenti metriche: errore assoluto medio errore quadratico medio errore logaritmico quadratico medio errore assoluto mediano Punteggio R2 varianza spiegata
	Regressione logistica Classificatore ad alberi potenziati Classificatore random forest Classificatore DNN Classificatore wide and deep Classificatore AutoML Tables	`ML.EVALUATE`	Genera report sulle seguenti metriche: precisione recall accuracy Punteggio F1 perdita logaritmica roc auc
		`ML.CONFUSION_MATRIX`	Mostra la matrice di confusione.
		`ML.ROC_CURVE`	Metriche dei report per diversi valori di soglia, tra cui i seguenti: recall tasso di falsi positivi veri positivi falsi positivi veri negativi falsi negativi Si applica solo ai modelli di classificazione binaria.
Apprendimento non supervisionato	K-means	`ML.EVALUATE`	Riporta l'indice di Davies-Bouldin e la distanza quadratica media tra i punti dati e i centroidi dei cluster assegnati.
	Fattorizzazione matriciale	`ML.EVALUATE`	Per i modelli basati sul feedback esplicito, vengono riportate le seguenti metriche: errore assoluto medio errore quadratico medio errore logaritmico quadratico medio errore assoluto mediano Punteggio R2 varianza spiegata
	Fattorizzazione matriciale	`ML.EVALUATE`	Per i modelli basati sul feedback implicito, vengono riportate le seguenti metriche: precisione media errore quadratico medio guadagno cumulativo scontato normalizzato classifica media
	PCA	`ML.EVALUATE`	Indica il rapporto di varianza totale spiegata.
	Autoencoder	`ML.EVALUATE`	Genera report sulle seguenti metriche: errore assoluto medio errore quadratico medio errore logaritmico quadratico medio
Serie temporale	ARIMA_PLUS	`ML.EVALUATE`	Genera report sulle seguenti metriche: errore assoluto medio errore quadratico medio errore percentuale assoluto medio errore percentuale assoluto medio simmetrico Questa funzione richiede nuovi dati come input.
Serie temporale	ARIMA_PLUS	`ML.ARIMA_EVALUATE`	Riporta le seguenti metriche per tutti i modelli candidati ARIMA caratterizzati da diverse tuple (p, d, q, has_drift): log_likelihood AIC varianza Inoltre, segnala altre informazioni su stagionalità, effetti delle festività e valori anomali di picchi e cali. Questa funzione non richiede nuovi dati come input.

Valutazione automatica in `CREATE MODEL` dichiarazioni

BigQuery ML supporta la valutazione automatica durante la creazione del modello. A seconda del tipo di modello, delle opzioni di addestramento della suddivisione dei dati e dell'utilizzo dell'ottimizzazione degli iperparametri, le metriche di valutazione vengono calcolate in base al set di dati di valutazione riservato, al set di dati di test riservato o all'intero set di dati di input.

Per i modelli k-means, PCA, autoencoder e ARIMA_PLUS, BigQuery ML utilizza tutti i dati di input come dati di addestramento e le metriche di valutazione vengono calcolate in base all'intero set di dati di input.
Per i modelli di regressione lineare e logistica, albero potenziato, foresta casuale, DNN, Wide & Deep e fattorizzazione di matrici, le metriche di valutazione vengono calcolate in base al set di dati specificato dalle seguenti opzioni CREATE MODEL:
Quando addestri questi tipi di modelli utilizzando l'ottimizzazione degli iperparametri, l'opzione DATA_SPLIT_TEST_FRACTION ti aiuta anche a definire il set di dati rispetto al quale vengono calcolate le metriche di valutazione. Per maggiori informazioni, vedi Divisione dei dati.
Per i modelli AutoML Tables, scopri come vengono utilizzate le suddivisioni dei dati per l'addestramento e la valutazione.

Per ottenere le metriche di valutazione calcolate durante la creazione del modello, utilizza le funzioni di valutazione come ML.EVALUATE sul modello senza specificare dati di input. Per un esempio, vedi ML.EVALUATE senza dati di input specificati.

Valutazione con un nuovo set di dati

Dopo la creazione del modello, puoi specificare nuovi set di dati per la valutazione. Per fornire un nuovo set di dati, utilizza funzioni di valutazione come ML.EVALUATE sul modello con i dati di input specificati. Per un esempio, vedi ML.EVALUATE con una soglia personalizzata e dati di input.

Passaggi successivi

Per ulteriori informazioni sulle istruzioni e sulle funzioni SQL supportate per i modelli che supportano la valutazione, consulta i seguenti documenti: