Panoramica dell'ottimizzazione degli iperparametri

Nel machine learning, l'ottimizzazione degli iperparametri identifica un insieme di iperparametri ottimali per un algoritmo di apprendimento. Un iperparametro è un argomento del modello il cui valore viene impostato prima dell'inizio del processo di apprendimento. Al contrario, vengono appresi i valori di altri parametri, come i coefficienti di un modello lineare,

L'ottimizzazione degli iperparametri consente di dedicare meno tempo all'iterazione manuale degli iperparametri e più tempo all'esplorazione degli insight derivanti dai dati.

Puoi specificare le opzioni di ottimizzazione degli iperparametri per i seguenti tipi di modelli:

Per questi tipi di modelli, l'ottimizzazione degli iperparametri viene abilitata quando specifichi un valore per l'opzione NUM_TRIALS nell'istruzione CREATE MODEL.

Per provare a eseguire l'ottimizzazione degli iperparametri su un modello di regressione lineare, consulta Utilizzare l'ottimizzazione degli iperparametri di BigQuery ML per migliorare le prestazioni del modello.

Anche i seguenti modelli supportano l'ottimizzazione degli iperparametri, ma non consentono di specificare valori specifici:

  • Per impostazione predefinita, nell'addestramento dei modelli AutoML Tables è integrata l'ottimizzazione automatica degli iperparametri.
  • I modelli ARIMA_PLUS consentono di impostare l'argomento AUTO_ARIMA per eseguire l'ottimizzazione degli iperparametri utilizzando l'algoritmo auto.ARIMA. Questo algoritmo esegue l'ottimizzazione degli iperparametri per il modulo di tendenza. L'ottimizzazione degli iperparametri non è supportata per l'intera pipeline di modellazione.

Per informazioni sulle istruzioni e sulle funzioni SQL supportate per ogni tipo di modello, consulta Percorso dell'utente end-to-end per ogni modello.

Località

Per informazioni su quali località supportano l'ottimizzazione degli iperparametri, consulta Località di BigQuery ML.

Imposta gli iperparametri

Per ottimizzare un iperparametro, devi specificare un intervallo di valori per quell'iperparametro che il modello può utilizzare per un insieme di prove. Puoi farlo utilizzando una delle seguenti parole chiave quando imposti l'iperparametro nell'istruzione CREATE MODEL, anziché fornire un singolo valore:

  • HPARAM_RANGE: un valore ARRAY(FLOAT64) a due elementi che definisce i limiti minimo e massimo dello spazio di ricerca dei valori continui per un iperparametro. Utilizza questa opzione per specificare un intervallo di valori per un iperparametro, ad esempio LEARN_RATE = HPARAM_RANGE(0.0001, 1.0).

  • HPARAM_CANDIDATES: un valore ARRAY(STRUCT) che specifica l'insieme di valori discreti per l'iperparametro. Utilizza questa opzione per specificare un insieme di valori per un iperparametro, ad esempio OPTIMIZER = HPARAM_CANDIDATES(['ADAGRAD', 'SGD', 'FTRL']).

Iperparametri e obiettivi

La seguente tabella elenca gli iperparametri e gli obiettivi supportati per ciascun tipo di modello che supporta l'ottimizzazione degli iperparametri:

Tipo di modello Obiettivi degli iperparametri Iperparametro Intervallo valido Intervallo predefinito Tipo di bilancia
LINEAR_REG MEAN_ABSOLUTE_ERROR

MEAN_SQUARED_ERROR

MEAN_SQUARED_LOG_ERROR

MEDIAN_ABSOLUTE_ERROR

R2_SCORE (valore predefinito)

EXPLAINED_VARIANCE
L1_REG

L2_REG
(0, ∞]

(0, ∞]
(0, 10]

(0, 10]
LOG

LOG
LOGISTIC_REG PRECISION

RECALL

ACCURACY

F1_SCORE

LOG_LOSS

ROC_AUC (predefinita)
L1_REG

L2_REG
(0, ∞]

(0, ∞]
(0, 10]

(0, 10]
LOG

LOG
KMEANS DAVIES_BOULDIN_INDEX NUM_CLUSTERS [2, 100] [2, 10] LINEAR
MATRIX_
FACTORIZATION
(esplicito)
MEAN_SQUARED_ERROR NUM_FACTORS

L2_REG
[2, 200]

(0, ∞)
[2, 20]

(0, 10]
LINEAR

LOG
MATRIX_
FACTORIZATION
(implicita)
MEAN_AVERAGE_PRECISION (predefinito)

MEAN_SQUARED_ERROR

NORMALIZED_DISCOUNTED_CUMULATIVE_GAIN

AVERAGE_RANK
NUM_FACTORS

L2_REG

WALS_ALPHA
[2, 200]

(0, ∞)

[0, ∞)
[2, 20]

(0, 10]

[0, 100]
LINEAR

LOG

LINEAR
AUTOENCODER MEAN_ABSOLUTE_ERROR

MEAN_SQUARED_ERROR (valore predefinito)

MEAN_SQUARED_LOG_ERROR
LEARN_RATE

BATCH_SIZE

L1_REG

L2_REG

L1_REG_ACTIVATION

DROPOUT

HIDDEN_UNITS


OPTIMIZER



ACTIVATION_FN
[0, 1]

(0, ∞)

(0, ∞)

(0, ∞)

(0, ∞)


[0, 1)

Array di [1, ∞)

{ADAM, ADAGRAD, FTRL, RMSPROP, SGD}

{RELU, RELU6, CRELU, ELU, SELU, SIGMOID, TANH}
[0, 1]

[16, 1024]

(0, 10]

(0, 10]

(0, 10]


[0, 0.8]

N/D

{ADAM, ADAGRAD, FTRL, RMSPROP, SGD}

N/D
LOG

LOG

LOG

LOG

LOG


LINEAR

N/D

N/D



N/D
DNN_CLASSIFIER PRECISION

RECALL

ACCURACY

F1_SCORE

LOG_LOSS

ROC_AUC (predefinita)
BATCH_SIZE

DROPOUT

HIDDEN_UNITS

LEARN_RATE

OPTIMIZER



L1_REG

L2_REG

ACTIVATION_FN
(0, ∞)

[0, 1)

Array di [1, ∞)

[0, 1]

{ADAM, ADAGRAD, FTRL, RMSPROP, SGD}

(0, ∞)

(0, ∞)

{RELU, RELU6, CRELU, ELU, SELU, SIGMOID, TANH}
[16, 1024]

[0, 0.8]

N/A

[0, 1]

{ADAM, ADAGRAD, FTRL, RMSPROP, SGD}

(0, 10]

(0, 10]

N/D
LOG

LINEAR

N/D

LINEAR

N/D



LOG

LOG

N/D
DNN_REGRESSOR MEAN_ABSOLUTE_ERROR

MEAN_SQUARED_ERROR

MEAN_SQUARED_LOG_ERROR

MEDIAN_ABSOLUTE_ERROR

R2_SCORE (valore predefinito)

EXPLAINED_VARIANCE
DNN_LINEAR_
COMBINED_
CLASSIFIER
PRECISION

RECALL

ACCURACY

F1_SCORE

LOG_LOSS

ROC_AUC (predefinita)
BATCH_SIZE

DROPOUT

HIDDEN_UNITS

L1_REG

L2_REG

ACTIVATION_FN
(0, ∞)

[0, 1)

Array of [1, ∞)

(0, ∞)

(0, ∞)

{RELU, RELU6, CRELU, ELU, SELU, SIGMOID, TANH}
[16, 1024]

[0, 0.8]

N/D

(0, 10]

(0, 10]

N/A
LOG

LINEAR

N/D

LOG

LOG

N/A
DNN_LINEAR_
COMBINED_
REGRESSOR
MEAN_ABSOLUTE_ERROR

MEAN_SQUARED_ERROR

MEAN_SQUARED_LOG_ERROR

MEDIAN_ABSOLUTE_ERROR

R2_SCORE (valore predefinito)

EXPLAINED_VARIANCE
BOOSTED_TREE_
CLASSIFIER
PRECISION

RECALL

ACCURACY

F1_SCORE

LOG_LOSS

ROC_AUC (predefinita)
LEARN_RATE

L1_REG

L2_REG

DROPOUT

MAX_TREE_DEPTHMAX_TREE_DEPTH

SUBSAMPLE

MIN_SPLIT_LOSS

NUM_PARALLEL_TREE

MIN_TREE_CHILD_WEIGHT

COLSAMPLE_BYTREE

COLSAMPLE_BYLEVEL

COLSAMPLE_BYNODE

BOOSTER_TYPE

DART_NORMALIZE_TYPE

TREE_METHOD
[0, ∞)

(0, ∞)

(0, ∞)

[0, 1]

[1, 20]



(0, 1]

[0, ∞)

[1, ∞)


[0, ∞)


[0, 1]


[0, 1]


[0, 1]


{GBTREE, DART}

{TREE, FOREST}

{AUTO, EXACT, HISTAPPROX
[0, 1]

(0, 10]

(0, 10]

N/A

[1, 10]



(0, 1]

N/D

N/D


N/D


N/A


N/A


N/D


N/D

N/D

N/D
LINEAR

LOG

LOG

LINEAR

LINEAR



LINEAR

LINEAR

LINEAR


LINEAR


LINEAR


LINEAR


LINEAR


N/D

N/D

N/D
BOOSTED_TREE_
REGRESSOR






MEAN_ABSOLUTE_ERROR

MEAN_SQUARED_ERROR

MEAN_SQUARED_LOG_ERROR

MEDIAN_ABSOLUTE_ERROR

R2_SCORE (valore predefinito)

EXPLAINED_VARIANCE
RANDOM_FOREST_
CLASSIFIER
PRECISION

RECALL

ACCURACY

F1_SCORE

LOG_LOSS

ROC_AUC (predefinita)
L1_REG

L2_REG

MAX_TREE_DEPTH

SUBSAMPLE

MIN_SPLIT_LOSS

NUM_PARALLEL_TREE

MIN_TREE_CHILD_WEIGHT

COLSAMPLE_BYTREE

COLSAMPLE_BYLEVEL

COLSAMPLE_BYNODE

TREE_METHOD
(0, ∞)

(0, ∞)

[1, 20]

(0, 1)

[0, ∞)

[2, ∞)


[0, ∞)


[0, 1]


[0, 1]


[0, 1]

{AUTO, EXACT, APPROX, HIST}
(0, 10]

(0, 10]

[1, 20]

(0, 1)

N/D

[2, 200]


N/D


N/A


N/D


N/D


N/D
LOG

LOG

LINEAR

LINEAR

LINEAR

LINEAR


LINEAR


LINEAR


LINEAR


LINEAR


N/D
RANDOM_FOREST_
REGRESSOR






MEAN_ABSOLUTE_ERROR

MEAN_SQUARED_ERROR

MEAN_SQUARED_LOG_ERROR

MEDIAN_ABSOLUTE_ERROR

R2_SCORE (valore predefinito)

EXPLAINED_VARIANCE

La maggior parte degli iperparametri di scala LOG utilizza il limite inferiore aperto di 0. Puoi comunque impostare 0 come limite inferiore utilizzando la parola chiave HPARAM_RANGE per impostare l'intervallo degli iperparametri. Ad esempio, in un modello di classificazione dell'albero migliorato, potresti impostare l'intervallo per l'iperparametro L1_REG su L1_REG = HPARAM_RANGE(0, 5). Un valore di 0 viene convertito in 1e-14.

Gli iperparametri condizionali sono supportati. Ad esempio, in un modello di regressione ad albero potenziato, puoi ottimizzare l'iperparametro DART_NORMALIZE_TYPE solo quando il valore dell'iperparametro BOOSTER_TYPE è DART. In questo caso, specifichi sia gli spazi di ricerca sia le condizioni vengono gestite automaticamente, come mostrato nell'esempio seguente:

BOOSTER_TYPE = HPARAM_CANDIDATES(['DART', 'GBTREE'])
DART_NORMALIZE_TYPE = HPARAM_CANDIDATES(['TREE', 'FOREST'])

Punto di partenza della ricerca

Se non specifichi uno spazio di ricerca per un iperparametro utilizzando HPARAM_RANGE o HPARAM_CANDIDATES, la ricerca inizia dal valore predefinito dell'iperparametro, come documentato nell'argomento CREATE MODEL relativo al tipo di modello in questione. Ad esempio, se esegui l'ottimizzazione degli iperparametri per un modello ad albero ottimizzato e non specifichi un valore per l'iperparametro L1_REG, la ricerca inizia da 0, il valore predefinito.

Se specifichi uno spazio di ricerca per un iperparametro utilizzando HPARAM_RANGE o HPARAM_CANDIDATES, i punti di partenza della ricerca dipendono dal fatto che lo spazio di ricerca specificato includa il valore predefinito per l'iperparametro, come documentato nell'argomento CREATE MODEL per il tipo di modello in questione:

  • Se l'intervallo specificato contiene il valore predefinito, la ricerca inizia da lì. Ad esempio, se esegui l'ottimizzazione degli iperparametri per un modello di fattorizzazione matriciale implicito e specifichi il valore [20, 30, 40, 50] per l'iperparametro WALS_ALPHA, la ricerca inizia da 40, il valore predefinito.
  • Se l'intervallo specificato non contiene il valore predefinito, la ricerca inizia dal punto dell'intervallo specificato più vicino al valore predefinito. Ad esempio,se specifichi il valore [10, 20, 30] per l'iperparametro WALS_ALPHA, la ricerca inizia da 30, che è il valore più vicino al valore predefinito di 40.

Suddivisione dati

Quando specifichi un valore per l'opzione NUM_TRIALS, il servizio identifica che stai eseguendo l'ottimizzazione degli iperparametri ed esegue automaticamente una suddivisione in tre vie sui dati di input per suddividerli in set di addestramento, valutazione e test. Per impostazione predefinita, i dati di input sono randomizzati e quindi suddivisi per 80% per l'addestramento, 10% per la valutazione e 10% per il test.

I set di addestramento e valutazione vengono utilizzati in ogni addestramento di prova, come nei modelli che non utilizzano l'ottimizzazione degli iperparametri. I suggerimenti degli iperparametri della prova vengono calcolati in base alle metriche di valutazione del modello per il tipo di modello in questione. Alla fine di ogni addestramento, il set di test viene utilizzato per testare la prova e registrarne le metriche nel modello. Ciò garantisce l'obiettivo delle metriche di valutazione dei report finali mediante l'utilizzo di dati che non sono ancora stati analizzati dal modello. I dati di valutazione vengono utilizzati per calcolare le metriche intermedie per il suggerimento degli iperparametri, mentre i dati del test vengono utilizzati per calcolare le metriche finali del modello oggettive.

Se vuoi utilizzare solo un set di addestramento, specifica NO_SPLIT per l'opzione DATA_SPLIT_METHOD dell'istruzione CREATE MODEL.

Se vuoi utilizzare solo set di addestramento e valutazione, specifica 0 per l'opzione DATA_SPLIT_TEST_FRACTION dell'istruzione CREATE MODEL. Se il set di test è vuoto, viene utilizzato come set di test per la generazione di report sulle metriche di valutazione finale.

Le metriche dei modelli generati da un normale job di addestramento e quelle di un job di addestramento di ottimizzazione degli iperparametri sono confrontabili solo quando le frazioni di suddivisione dei dati sono uguali. Ad esempio, i seguenti modelli sono confrontabili:

  • Ottimizzazione non iperparametri: DATA_SPLIT_METHOD='RANDOM', DATA_SPLIT_EVAL_FRACTION=0.2
  • Ottimizzazione degli iperparametri: DATA_SPLIT_METHOD='RANDOM', DATA_SPLIT_EVAL_FRACTION=0.2, DATA_SPLIT_TEST_FRACTION=0

Prestazioni

Le prestazioni del modello quando si utilizza l'ottimizzazione degli iperparametri non sono generalmente peggiori rispetto alle prestazioni del modello quando si utilizza lo spazio di ricerca predefinito e non si utilizza l'ottimizzazione degli iperparametri. Un modello che utilizza lo spazio di ricerca predefinito e non l'ottimizzazione degli iperparametri utilizza sempre gli iperparametri predefiniti nella prima prova.

Per confermare i miglioramenti delle prestazioni del modello forniti dall'ottimizzazione degli iperparametri, confronta la prova ottimale per il modello di ottimizzazione degli iperparametri con la prima prova per il modello di ottimizzazione non degli iperparametri.

Transfer learning

Il Transfer Learning è abilitato per impostazione predefinita quando imposti l'opzione HPARAM_TUNING_ALGORITHM nell'istruzione CREATE MODEL su VIZIER_DEFAULT. L'ottimizzazione per un modello trae vantaggio dall'apprendimento da modelli ottimizzati in precedenza se soddisfa i seguenti requisiti:

  • Ha lo stesso tipo di modello dei modelli ottimizzati in precedenza.
  • Si trova nello stesso progetto dei modelli ottimizzati in precedenza.
  • Utilizza lo stesso spazio di ricerca degli iperparametri OPPURE un sottoinsieme dello spazio di ricerca degli iperparametri dei modelli ottimizzati in precedenza. Un sottoinsieme utilizza gli stessi nomi e tipi di iperparametri, ma non deve avere gli stessi intervalli. Ad esempio, (a:[0, 10]) è considerato come un sottoinsieme di (a:[-1, 1], b:[0, 1]).

Il Transfer Learning non richiede che i dati di input siano gli stessi.

Transfer Learning consente di risolvere il problema dell'avvio a freddo in cui il sistema esegue un'esplorazione casuale durante il primo batch di prova. Il Transfer Learning fornisce al sistema alcune conoscenze iniziali sugli iperparametri e sui relativi obiettivi. Per migliorare continuamente la qualità del modello, addestra sempre un nuovo modello di ottimizzazione degli iperparametri con gli stessi iperparametri o un sottoinsieme di iperparametri.

Transfer Learning aiuta l'ottimizzazione degli iperparametri a convergere più velocemente, anziché aiutare i sottomodelli a convergere.

Gestione degli errori

L'ottimizzazione degli iperparametri gestisce gli errori nei seguenti modi:

  • Cancellazione: se un job di addestramento viene annullato durante l'esecuzione, tutte le prove riuscite rimangono utilizzabili.

  • Input non valido: se l'input utente non è valido, il servizio restituisce un errore.

  • Iperparametri non validi: se gli iperparametri non sono validi per una prova, quest'ultima viene saltata e contrassegnata come INFEASIBLE nell'output della funzione ML.TRIAL_INFO.

  • Errore interno della prova: se più del 10% del valore NUM_TRIALS ha esito negativo a causa di INTERNAL_ERROR, il job di addestramento si arresta e restituisce un errore dell'utente.

  • Se meno del 10% del valore NUM_TRIALS ha esito negativo a causa di INTERNAL_ERROR, l'addestramento continua con le prove non riuscite contrassegnate come FAILED nell'output dalla funzione ML.TRIAL_INFO.

Funzioni di pubblicazione del modello

Puoi utilizzare modelli di output dall'ottimizzazione degli iperparametri con una serie di funzioni di pubblicazione dei modelli esistenti. Per utilizzare queste funzioni, segui queste regole:

  • Quando la funzione accetta dati di input, viene restituito solo il risultato di una prova. Per impostazione predefinita, questa è la prova ottimale, ma puoi anche scegliere una prova specifica specificando TRIAL_ID come argomento per la funzione specificata. Puoi ottenere TRIAL_ID dall'output della funzione ML.TRIAL_INFO. Sono supportate le seguenti funzioni:

  • Quando la funzione non accetta dati di input, vengono restituiti tutti i risultati della prova e la prima colonna di output è TRIAL_ID. Sono supportate le seguenti funzioni:

L'output da ML.FEATURE_INFO non cambia, perché tutte le prove condividono gli stessi dati di input.

Le metriche di valutazione di ML.EVALUATE e ML.TRIAL_INFO possono essere diverse per il modo in cui i dati di input vengono suddivisi. Per impostazione predefinita, ML.EVALUATE viene eseguito sui dati di test, mentre ML.TRIAL_INFO sui dati di valutazione. Per maggiori informazioni, consulta Suddivisione dati.

Funzioni non supportate

La funzione ML.TRAINING_INFO restituisce informazioni per ogni iterazione e i risultati dell'iterazione non vengono salvati nei modelli di ottimizzazione degli iperparametri. I risultati della prova vengono salvati. Puoi utilizzare la funzione ML.TRIAL_INFO per ottenere informazioni sui risultati della prova.

Esportazione del modello

Puoi esportare i modelli creati con l'ottimizzazione degli iperparametri in località Cloud Storage utilizzando l'istruzione EXPORT MODEL. Puoi esportare la prova ottimale predefinita o qualsiasi prova specificata.

Prezzi

Il costo dell'addestramento dell'ottimizzazione degli iperparametri è la somma dei costi di tutte le prove eseguite. I prezzi di una prova sono coerenti con il modello di prezzi di BigQuery ML esistente.

Domande frequenti

Quante prove sono necessarie per ottimizzare un modello?

Ti consigliamo di utilizzare almeno 10 prove per un iperparametro, quindi il numero totale di prove dovrebbe essere almeno pari a 10 * num_hyperparameters. Se utilizzi lo spazio di ricerca predefinito, fai riferimento alla colonna Iperparametri nella tabella Iperparametri e obiettivi per il numero di iperparametri ottimizzati per impostazione predefinita per un determinato tipo di modello.

Cosa succede se non vedo miglioramenti delle prestazioni con l'ottimizzazione degli iperparametri?

Assicurati di seguire le indicazioni riportate in questo documento per ottenere un confronto equo. Se non vedi ancora miglioramenti delle prestazioni, è possibile che gli iperparametri predefiniti funzionino già bene. Ti consigliamo di concentrarti sul feature engineering o di provare altri tipi di modelli prima di provare un'altra fase di ottimizzazione degli iperparametri.

E se volessi continuare a ottimizzare un modello?

Addestra un nuovo modello di ottimizzazione degli iperparametri con lo stesso spazio di ricerca. Il Transfer Learning integrato aiuta a continuare l'ottimizzazione in base ai modelli ottimizzati in precedenza.

Devo riaddestrare il modello con tutti i dati e gli iperparametri ottimali?

Dipende dai seguenti fattori:

  • I modelli K-means usano già tutti i dati come dati di addestramento, quindi non è necessario riaddestrare il modello.

  • Per i modelli di fattorizzazione matriciale, puoi riaddestrare il modello con gli iperparametri selezionati e tutti i dati di input per una migliore copertura di utenti ed elementi.

  • Per tutti gli altri tipi di modelli, il riaddestramento in genere non è necessario. Il servizio conserva già l'80% dei dati di input per l'addestramento durante la suddivisione casuale dei dati predefinita. Se il set di dati è piccolo, puoi comunque riaddestrare il modello con più dati di addestramento e gli iperparametri selezionati, ma lasciare pochi dati di valutazione per l'interruzione anticipata potrebbe peggiorare l'overfitting.

Passaggi successivi

Per provare a eseguire l'ottimizzazione degli iperparametri, consulta Utilizzare l'ottimizzazione degli iperparametri di BigQuery ML per migliorare le prestazioni del modello.