Forme um modelo com a arquitetura Wide & Deep

Esta página mostra como preparar um modelo de classificação ou regressão a partir de um conjunto de dados tabulares com o fluxo de trabalho tabular para o Wide & Deep.

Estão disponíveis duas versões do fluxo de trabalho tabular para modelos amplos e profundos:

  • O HyperparameterTuningJob procura o melhor conjunto de valores de hiperparâmetros a usar para a preparação do modelo.
  • CustomJob permite-lhe especificar os valores dos hiperparâmetros a usar para a preparação do modelo. Se souber exatamente os valores dos hiperparâmetros de que precisa, especifique-os em vez de os procurar e poupe recursos de preparação.

Para saber mais sobre as contas de serviço que este fluxo de trabalho usa, consulte o artigo Contas de serviço para fluxos de trabalho tabulares.

APIs Workflow

Este fluxo de trabalho usa as seguintes APIs:

  • Vertex AI
  • Dataflow
  • Compute Engine
  • Cloud Storage

Prepare um modelo com HyperparameterTuningJob

O seguinte exemplo de código demonstra como executar um pipeline HyperparameterTuningJob:

pipeline_job = aiplatform.PipelineJob(
    ...
    template_path=template_path,
    parameter_values=parameter_values,
    ...
)
pipeline_job.run(service_account=SERVICE_ACCOUNT)

O parâmetro service_account opcional em pipeline_job.run() permite-lhe definir a conta de serviço do Vertex AI Pipelines para uma conta à sua escolha.

O pipeline e os valores dos parâmetros são definidos pela seguinte função. Os dados de preparação podem ser um ficheiro CSV no Cloud Storage ou uma tabela no BigQuery.

template_path, parameter_values =  automl_tabular_utils.get_wide_and_deep_hyperparameter_tuning_job_pipeline_and_parameters(...)

Segue-se um subconjunto de parâmetros get_wide_and_deep_hyperparameter_tuning_job_pipeline_and_parameters:

Nome do parâmetro Tipo Definição
data_source_csv_filenames String Um URI para um CSV armazenado no Cloud Storage.
data_source_bigquery_table_path String Um URI para uma tabela do BigQuery.
dataflow_service_account String (Opcional) Conta de serviço personalizada para executar tarefas do Dataflow. A tarefa do Dataflow pode ser configurada para usar IPs privados e uma sub-rede da VPC específica. Este parâmetro funciona como uma substituição da conta de serviço do trabalhador do Dataflow predefinida.
study_spec_parameters_override List[Dict[String, Any]] (Opcional) Uma substituição para o aperfeiçoamento de hiperparâmetros. Este parâmetro pode estar vazio ou conter um ou mais dos hiperparâmetros possíveis. Se um valor de hiperparâmetro não estiver definido, o Vertex AI usa o intervalo de otimização predefinido para o hiperparâmetro.

Para configurar os hiperparâmetros através do parâmetro study_spec_parameters_override, use a função auxiliar do Vertex AI get_wide_and_deep_study_spec_parameters_override. Esta função devolve uma lista de hiperparâmetros e intervalos.

Segue-se um exemplo de como usar a função get_wide_and_deep_study_spec_parameters_override:

study_spec_parameters_override = automl_tabular_utils.get_wide_and_deep_study_spec_parameters_override()

Prepare um modelo com CustomJob

O seguinte exemplo de código demonstra como executar um pipeline CustomJob:

pipeline_job = aiplatform.PipelineJob(
    ...
    template_path=template_path,
    parameter_values=parameter_values,
    ...
)
pipeline_job.run(service_account=SERVICE_ACCOUNT)

O parâmetro service_account opcional em pipeline_job.run() permite-lhe definir a conta de serviço do Vertex AI Pipelines para uma conta à sua escolha.

O pipeline e os valores dos parâmetros são definidos pela seguinte função. Os dados de preparação podem ser um ficheiro CSV no Cloud Storage ou uma tabela no BigQuery.

template_path, parameter_values = automl_tabular_utils.get_wide_and_deep_trainer_pipeline_and_parameters(...)

Segue-se um subconjunto de parâmetros get_wide_and_deep_trainer_pipeline_and_parameters:

Nome do parâmetro Tipo Definição
data_source_csv_filenames String Um URI para um CSV armazenado no Cloud Storage.
data_source_bigquery_table_path String Um URI para uma tabela do BigQuery.
dataflow_service_account String (Opcional) Conta de serviço personalizada para executar tarefas do Dataflow. A tarefa do Dataflow pode ser configurada para usar IPs privados e uma sub-rede da VPC específica. Este parâmetro funciona como uma substituição da conta de serviço do trabalhador do Dataflow predefinida.

O que se segue?

Quando tiver tudo pronto para fazer inferências com o seu modelo de classificação ou regressão, tem duas opções: