Addestrare un modello con Wide & Deep

Questa pagina mostra come addestrare un modello di classificazione o regressione da un set di dati tabulare con il flusso di lavoro tabulare per Wide & Deep.

Sono disponibili due versioni del flusso di lavoro tabulare per Wide & Deep:

  • HyperparameterTuningJob cerca il miglior set di valori degli iperparametri da utilizzare per l'addestramento del modello.
  • CustomJob ti consente di specificare i valori degli iperparametri da utilizzare per l'addestramento del modello. Se sai esattamente di quali valori degli iperparametri hai bisogno, puoi specificarli anziché cercarli e risparmiare sulle risorse di addestramento.

Per informazioni sugli account di servizio utilizzati da questo flusso di lavoro, consulta Account di servizio per i flussi di lavoro tabulari.

API di flusso di lavoro

Questo flusso di lavoro utilizza le seguenti API:

  • Vertex AI
  • Dataflow
  • Compute Engine
  • Cloud Storage

Addestrare un modello con HyperparameterTuningJob

Il seguente codice di esempio mostra come eseguire una pipeline HyperparameterTuningJob:

pipeline_job = aiplatform.PipelineJob(
    ...
    template_path=template_path,
    parameter_values=parameter_values,
    ...
)
pipeline_job.run(service_account=SERVICE_ACCOUNT)

Il parametro facoltativo service_account in pipeline_job.run() ti consente di impostare il parametro l'account di servizio Vertex AI Pipelines a un account a tua scelta.

I valori della pipeline e dei parametri sono definiti dalla seguente funzione. I dati di addestramento possono essere un file CSV in Cloud Storage o una tabella in BigQuery.

template_path, parameter_values =  automl_tabular_utils.get_wide_and_deep_hyperparameter_tuning_job_pipeline_and_parameters(...)

Di seguito è riportato un sottoinsieme dei parametri get_wide_and_deep_hyperparameter_tuning_job_pipeline_and_parameters:

Nome parametro Tipo Definizione
data_source_csv_filenames Stringa Un URI di un file CSV archiviato in Cloud Storage.
data_source_bigquery_table_path Stringa Un URI di una tabella BigQuery.
dataflow_service_account Stringa (Facoltativo) Account di servizio personalizzato per eseguire i job Dataflow. Il job Dataflow può essere configurato per utilizzare IP privati e una sottorete VPC specifica. Questo parametro funge da override per l'account di servizio worker Dataflow predefinito.
study_spec_parameters_override List[Dict[String, Any]] (Facoltativo) Un override per l'ottimizzazione degli iperparametri. Questo parametro può essere vuoto o contenere uno o più dei possibili iperparametri. Se il valore di un iperparametro non è impostato, Vertex AI utilizza l'intervallo di ottimizzazione predefinito per l'iperparametro.

Se vuoi configurare gli iperparametri utilizzando il parametro study_spec_parameters_override: puoi utilizzare la funzione helper get_wide_and_deep_study_spec_parameters_override di Vertex AI. Questa funzione restituisce un elenco di iperparametri e intervalli.

Di seguito è riportato un esempio di come utilizzare la funzione get_wide_and_deep_study_spec_parameters_override:

study_spec_parameters_override = automl_tabular_utils.get_wide_and_deep_study_spec_parameters_override()

Addestra un modello con CustomJob

Il codice campione seguente mostra come eseguire una pipeline CustomJob:

pipeline_job = aiplatform.PipelineJob(
    ...
    template_path=template_path,
    parameter_values=parameter_values,
    ...
)
pipeline_job.run(service_account=SERVICE_ACCOUNT)

Il parametro facoltativo service_account in pipeline_job.run() ti consente di impostare il parametro l'account di servizio Vertex AI Pipelines a un account a tua scelta.

La pipeline e i valori dei parametri sono definiti dalla seguente funzione. I dati di addestramento possono essere un file CSV in Cloud Storage o una tabella in BigQuery.

template_path, parameter_values = automl_tabular_utils.get_wide_and_deep_trainer_pipeline_and_parameters(...)

Di seguito è riportato un sottoinsieme dei parametri get_wide_and_deep_trainer_pipeline_and_parameters:

Nome parametro Tipo Definizione
data_source_csv_filenames Stringa Un URI di un file CSV archiviato in Cloud Storage.
data_source_bigquery_table_path Stringa Un URI di una tabella BigQuery.
dataflow_service_account Stringa (Facoltativo) Account di servizio personalizzato per eseguire i job Dataflow. Il job Dataflow può essere configurato in modo da utilizzare IP privati e una subnet VPC specifica. Questo parametro funge da override per l'account di servizio worker Dataflow predefinito.

Passaggi successivi

Quando è tutto pronto per fare previsioni con il tuo modello di classificazione o regressione, hai due opzioni: