Dokumen ini memberikan ringkasan Tabular Workflow untuk komponen dan pipeline TabNet. Untuk mempelajari cara melatih model dengan TabNet, baca artikel Melatih model dengan TabNet.
TabNet menggunakan sequential attention untuk memilih fitur yang akan menjadi alasan pada setiap langkah keputusan. Hal ini meningkatkan penafsiran dan pembelajaran yang lebih efisien karena kapasitas pembelajaran digunakan untuk fitur yang paling penting.
Manfaat
- Secara otomatis memilih ruang penelusuran hyperparameter yang sesuai berdasarkan ukuran set data, jenis prediksi, dan anggaran pelatihan.
- Terintegrasi dengan Vertex AI. Model yang dilatih adalah model Vertex AI. Anda dapat langsung menjalankan prediksi batch atau men-deploy model untuk prediksi online.
- Memberikan penafsiran model yang melekat. Anda dapat memperoleh insight tentang fitur yang digunakan TabNet untuk membuat keputusan.
- Mendukung pelatihan GPU.
TabNet di Vertex AI Pipelines
Tabular Workflow untuk TabNet adalah instance terkelola dari Vertex AI Pipelines.
Vertex AI Pipelines adalah layanan serverless yang menjalankan pipeline Kubeflow. Anda dapat menggunakan pipeline untuk mengotomatisasi dan memantau machine learning serta tugas penyiapan data Anda. Setiap langkah di pipeline menjalankan bagian dari alur kerja pipeline. Misalnya, pipeline dapat mencakup langkah-langkah untuk memisahkan data, mengubah jenis data, dan melatih model. Karena langkah tersebut adalah instance komponen pipeline, langkah memiliki input, output, dan image container. Input langkah dapat ditetapkan dari input pipeline atau dapat bergantung pada output langkah lain dalam pipeline ini. Dependensi ini menentukan alur kerja pipeline sebagai directed acyclic graph.
Tersedia dua versi Tabular Workflow untuk TabNet:
- HyperparameterTuningJob menelusuri kumpulan nilai hyperparameter terbaik yang akan digunakan untuk pelatihan model.
- CustomJob memungkinkan Anda menentukan nilai hyperparameter yang akan digunakan untuk pelatihan model. Jika tahu persis nilai hyperparameter yang dibutuhkan, Anda dapat menentukannya tanpa perlu mencarinya dan menghemat resource pelatihan.
Ringkasan pipeline dan komponen CustomJob TabNet
Pipeline CustomJob TabNet dapat diilustrasikan dengan diagram berikut:
Komponen pipeline adalah:
- feature-transform-engine: Melakukan rekayasa fitur. Lihat Feature Transform Engine untuk mengetahui detailnya.
- split-materialized-data:
Memisahkan data terwujud ke dalam set pelatihan, set evaluasi, dan set pengujian.
Input:
- Data terwujud
materialized_data
.
Output:
- Pemisahan pelatihan terwujud
materialized_train_split
. - Pemisahan evaluasi terwujud
materialized_eval_split
. - Set pengujian terwujud
materialized_test_split
.
- Data terwujud
- tabnet-trainer: Menjalankan pelatihan model.
Input:
- Dasar pengukuran instance
instance_baseline
. - Skema pelatihan
training_schema
. - Mentransformasi output
transform_output
. - Pemisahan pelatihan terwujud
materialized_train_split
. - Pemisahan evaluasi terwujud
materialized_eval_split
. - Set pengujian terwujud
materialized_test_split
.
Output:
- Model akhir
- Dasar pengukuran instance
- automl-tabular-infra-validator: Memvalidasi model yang dilatih dengan mengirimkan permintaan prediksi dan memeriksa apakah model tersebut berhasil diselesaikan.
- model-upload: Mengupload model dari bucket Cloud Storage pengguna ke Vertex AI sebagai model Vertex AI.
- condition-run-evaluation-2: condition-run-evaluation-2. Menggunakan set pengujian untuk menghitung metrik evaluasi. Hanya berjalan jika
run_evaluation
ditetapkan ketrue
.
Ringkasan pipeline dan komponen HyperparameterTuningJob TabNet
Pipeline HyperparameterTuningJob TabNet dapat diilustrasikan dengan diagram berikut:
- feature-transform-engine: Melakukan rekayasa fitur. Lihat Feature Transform Engine untuk mengetahui detailnya.
- split-materialized-data:
Memisahkan data terwujud ke dalam set pelatihan, set evaluasi, dan set pengujian.
Input:
- Data terwujud
materialized_data
.
Output:
- Pemisahan pelatihan terwujud
materialized_train_split
. - Pemisahan evaluasi terwujud
materialized_eval_split
. - Set pengujian terwujud
materialized_test_split
.
- Data terwujud
- get-tabnet-study-spec-parameters: Membuat spesifikasi studi berdasarkan konfigurasi pipeline pelatihan. Jika pengguna memberikan nilai untuk
study_spec_parameters_override
, gunakan nilai tersebut untuk mengganti nilai spesifikasi studi.Input:
- Konfigurasi pipeline pelatihan (
max_trial_count
,prediction_type
). - Statistik set data
dataset_stats
. - Penggantian opsional parameter spesifikasi studi
study_spec_parameters_override
.
Output:
- Daftar akhir hyperparameter dan rentangnya untuk tugas penyesuaian hyperparameter.
- Konfigurasi pipeline pelatihan (
- tabnet-hyperparameter-tuning-job: Melakukan satu atau beberapa uji coba penyesuaian hyperparameter.
Input:
- Dasar pengukuran instance
instance_baseline
. - Skema pelatihan
training_schema
. - Mentransformasi output
transform_output
. - Pemisahan pelatihan terwujud
materialized_train_split
. - Pemisahan evaluasi terwujud
materialized_eval_split
. - Set pengujian terwujud
materialized_test_split
. - Daftar hyperparameter dan rentangnya untuk tugas penyesuaian hyperparameter.
- Dasar pengukuran instance
- get-best-hyperparameter-tuning-job-trial:
Memilih model dari uji coba tugas penyesuaian hyperparameter terbaik pada langkah sebelumnya.
Output:
- Model akhir
- automl-tabular-infra-validator: Memvalidasi model yang dilatih dengan mengirimkan permintaan prediksi dan memeriksa apakah model tersebut berhasil diselesaikan.
- model-upload: Mengupload model dari bucket Cloud Storage pengguna ke Vertex AI sebagai model Vertex AI.
- condition-run-evaluation-2: condition-run-evaluation-2. Menggunakan set pengujian untuk menghitung metrik evaluasi. Hanya berjalan jika
run_evaluation
ditetapkan ketrue
.