Questo documento fornisce una panoramica del flusso di lavoro tabulare per le pipeline e i componenti Wide & Deep. Per scoprire come addestrare un modello con Wide & Deep, consulta Addestrare un modello con Wide & Deep.
Wide & Deep addestra congiuntamente modelli lineari ampi e reti neurali profonde. Combina i vantaggi della memorizzazione e della generalizzazione. In alcuni esperimenti online, i risultati hanno mostrato che la combinazione di modelli ampi e approfonditi ha incrementato in modo significativo le acquisizioni di applicazioni del Google Store rispetto ai modelli solo ampi e solo approfonditi.
Vantaggi
- Integrato con Vertex AI. Il modello addestrato è un modello Vertex AI. Puoi eseguire previsioni batch o eseguire subito il deployment del modello per le previsioni online.
Wide & Deep su Vertex AI Pipelines
Tabular Workflow for Wide & Deep è un'istanza gestita di Vertex AI Pipelines.
Vertex AI Pipelines è un servizio serverless che esegue le pipeline Kubeflow. Puoi utilizzare le pipeline per automatizzare e monitorare le attività di machine learning e preparazione dei dati. Ogni passaggio di una pipeline esegue parte del flusso di lavoro della pipeline. Ad esempio, una pipeline può includere passaggi per suddividere i dati, trasformare i tipi di dati e addestrare un modello. Poiché i passaggi sono istanze di componenti della pipeline, hanno input, output e un'immagine container. Gli input dei passaggi possono essere impostati dagli input della pipeline o possono dipendere dall'output di altri passaggi all'interno di questa pipeline. Queste dipendenze definiscono il flusso di lavoro della pipeline come grafo diretto aciclico.
Sono disponibili due versioni del flusso di lavoro tabulare per Wide & Deep:
- HyperparameterTuningJob cerca il miglior insieme di valori degli iperparametri da utilizzare per l'addestramento del modello.
- CustomJob ti consente di specificare i valori degli iperparametri da utilizzare per l'addestramento del modello. Se sai esattamente quali valori di iperparametro ti servono, puoi specificarli anziché cercarli e risparmiare sulle risorse di addestramento.
Panoramica della pipeline e dei componenti di CustomJob Wide & Deep
La pipeline CustomJob Wide & Deep può essere illustrata dal seguente diagramma:
I componenti della pipeline sono:
- feature-transform-engine: esegui il feature engineering. Per maggiori dettagli, consulta Feature Transform Engine.
- split-materialized-data:
suddividi i dati materializzati in un set di addestramento, un set di valutazione e un set di test.
Input:
- Dati materializzati
materialized_data
.
Output:
- Suddivisione dell'addestramento materializzato
materialized_train_split
. - Suddivisione della valutazione materializzata
materialized_eval_split
. - Set di test materializzato
materialized_test_split
.
- Dati materializzati
- wide-and-deep-trainer:
esegui l'addestramento del modello.
Input:
- Riferimento di base dell'istanza
instance_baseline
. - Schema di addestramento
training_schema
. - Output della trasformazione
transform_output
. - Suddivisione del treno materializzata
materialized_train_split
. - Suddivisione della valutazione materializzata
materialized_eval_split
. - Set di test materializzato
materialized_test_split
.
Output:
- Modello finale
- Riferimento di base dell'istanza
- automl-tabular-infra-validator: convalida il modello addestrato inviando una richiesta di previsione e controllando se viene completata correttamente.
- model-upload: carica il modello dal bucket Cloud Storage dell'utente in Vertex AI come modello Vertex AI.
- condition-run-evaluation-2:
Facoltativo. Utilizza il set di test per calcolare le metriche di valutazione. Viene eseguito solo quando
run_evaluation
è impostato sutrue
.
Panoramica della pipeline e dei componenti di HyperparameterTuningJob Wide & Deep
La pipeline HyperparameterTuningJob Wide & Deep può essere illustrata dal seguente diagramma:
- feature-transform-engine: esegui il feature engineering. Per maggiori dettagli, consulta Feature Transform Engine.
- split-materialized-data:
suddividi i dati materializzati in un set di addestramento, un set di valutazione e un set di test.
Input:
- Dati materializzati
materialized_data
.
Output:
- Suddivisione dell'addestramento materializzato
materialized_train_split
. - Suddivisione della valutazione materializzata
materialized_eval_split
. - Set di test materializzato
materialized_test_split
.
- Dati materializzati
- get-wide-and-deep-study-spec-parameters:
genera la specifica dello studio in base a una configurazione della pipeline di addestramento. Se
l'utente fornisce valori per
study_spec_parameters_override
, utilizzali per sostituire i valori delle specifiche dello studio.Input:
- Sostituzione facoltativa dei parametri delle specifiche dello studio
study_spec_parameters_override
.
Output:
- Elenco finale degli iperparametri e dei relativi intervalli per il job di ottimizzazione degli iperparametri.
- Sostituzione facoltativa dei parametri delle specifiche dello studio
- wide-and-deep-hyperparameter-tuning-job:
esegui una o più prove di ottimizzazione degli iperparametri.
Input:
- Riferimento di base dell'istanza
instance_baseline
. - Schema di addestramento
training_schema
. - Output della trasformazione
transform_output
. - Suddivisione del treno materializzata
materialized_train_split
. - Suddivisione della valutazione materializzata
materialized_eval_split
. - Set di test materializzato
materialized_test_split
. - Elenco degli iperparametri e dei relativi intervalli per il job di ottimizzazione degli iperparametri.
- Riferimento di base dell'istanza
- get-best-hyperparameter-tuning-job-trial:
seleziona il modello dalla prova del job di ottimizzazione degli iperparametri migliore del passaggio precedente.
Output:
- Modello finale
- automl-tabular-infra-validator: convalida il modello addestrato inviando una richiesta di previsione e controllando se viene completata correttamente.
- model-upload: carica il modello dal bucket Cloud Storage dell'utente in Vertex AI come modello Vertex AI.
- condition-run-evaluation-2:
Facoltativo. Utilizza il set di test per calcolare le metriche di valutazione. Viene eseguito solo quando
run_evaluation
è impostato sutrue
.