Esta página mostra como preparar um modelo de classificação ou regressão a partir de um conjunto de dados tabulares com o fluxo de trabalho tabular para o Wide & Deep.
Estão disponíveis duas versões do fluxo de trabalho tabular para modelos amplos e profundos:
- O HyperparameterTuningJob procura o melhor conjunto de valores de hiperparâmetros a usar para a preparação do modelo.
- CustomJob permite-lhe especificar os valores dos hiperparâmetros a usar para a preparação do modelo. Se souber exatamente os valores dos hiperparâmetros de que precisa, especifique-os em vez de os procurar e poupe recursos de preparação.
Para saber mais sobre as contas de serviço que este fluxo de trabalho usa, consulte o artigo Contas de serviço para fluxos de trabalho tabulares.
APIs Workflow
Este fluxo de trabalho usa as seguintes APIs:
- Vertex AI
- Dataflow
- Compute Engine
- Cloud Storage
Prepare um modelo com HyperparameterTuningJob
O seguinte exemplo de código demonstra como executar um pipeline HyperparameterTuningJob:
pipeline_job = aiplatform.PipelineJob(
...
template_path=template_path,
parameter_values=parameter_values,
...
)
pipeline_job.run(service_account=SERVICE_ACCOUNT)
O parâmetro service_account
opcional em pipeline_job.run()
permite-lhe definir a conta de serviço do Vertex AI Pipelines para uma conta à sua escolha.
O pipeline e os valores dos parâmetros são definidos pela seguinte função. Os dados de preparação podem ser um ficheiro CSV no Cloud Storage ou uma tabela no BigQuery.
template_path, parameter_values = automl_tabular_utils.get_wide_and_deep_hyperparameter_tuning_job_pipeline_and_parameters(...)
Segue-se um subconjunto de parâmetros get_wide_and_deep_hyperparameter_tuning_job_pipeline_and_parameters
:
Nome do parâmetro | Tipo | Definição |
---|---|---|
data_source_csv_filenames |
String | Um URI para um CSV armazenado no Cloud Storage. |
data_source_bigquery_table_path |
String | Um URI para uma tabela do BigQuery. |
dataflow_service_account |
String | (Opcional) Conta de serviço personalizada para executar tarefas do Dataflow. A tarefa do Dataflow pode ser configurada para usar IPs privados e uma sub-rede da VPC específica. Este parâmetro funciona como uma substituição da conta de serviço do trabalhador do Dataflow predefinida. |
study_spec_parameters_override |
List[Dict[String, Any]] | (Opcional) Uma substituição para o aperfeiçoamento de hiperparâmetros. Este parâmetro pode estar vazio ou conter um ou mais dos hiperparâmetros possíveis. Se um valor de hiperparâmetro não estiver definido, o Vertex AI usa o intervalo de otimização predefinido para o hiperparâmetro. |
Para configurar os hiperparâmetros através do parâmetro study_spec_parameters_override
,
use a função auxiliar do Vertex AI get_wide_and_deep_study_spec_parameters_override
.
Esta função devolve uma lista de hiperparâmetros e intervalos.
Segue-se um exemplo de como usar a função get_wide_and_deep_study_spec_parameters_override
:
study_spec_parameters_override = automl_tabular_utils.get_wide_and_deep_study_spec_parameters_override()
Prepare um modelo com CustomJob
O seguinte exemplo de código demonstra como executar um pipeline CustomJob:
pipeline_job = aiplatform.PipelineJob(
...
template_path=template_path,
parameter_values=parameter_values,
...
)
pipeline_job.run(service_account=SERVICE_ACCOUNT)
O parâmetro service_account
opcional em pipeline_job.run()
permite-lhe definir a conta de serviço do Vertex AI Pipelines para uma conta à sua escolha.
O pipeline e os valores dos parâmetros são definidos pela seguinte função. Os dados de preparação podem ser um ficheiro CSV no Cloud Storage ou uma tabela no BigQuery.
template_path, parameter_values = automl_tabular_utils.get_wide_and_deep_trainer_pipeline_and_parameters(...)
Segue-se um subconjunto de parâmetros get_wide_and_deep_trainer_pipeline_and_parameters
:
Nome do parâmetro | Tipo | Definição |
---|---|---|
data_source_csv_filenames |
String | Um URI para um CSV armazenado no Cloud Storage. |
data_source_bigquery_table_path |
String | Um URI para uma tabela do BigQuery. |
dataflow_service_account |
String | (Opcional) Conta de serviço personalizada para executar tarefas do Dataflow. A tarefa do Dataflow pode ser configurada para usar IPs privados e uma sub-rede da VPC específica. Este parâmetro funciona como uma substituição da conta de serviço do trabalhador do Dataflow predefinida. |
O que se segue?
Quando tiver tudo pronto para fazer inferências com o seu modelo de classificação ou regressão, tem duas opções:
- Faça inferências online (em tempo real) com o seu modelo
- Obtenha inferências em lote diretamente do seu modelo.
- Saiba mais acerca dos preços da preparação de modelos.