Tabular Workflow untuk Wide & Deep

Dokumen ini memberikan ringkasan tentang Tabular Workflow untuk komponen dan pipeline Wide & Deep. Untuk mempelajari cara melatih model dengan Wide & Deep, lihat Melatih model dengan Wide & Deep.

Wide & Deep bersama-sama melatih model linear lebar dan jaringan neural dalam. Cara ini menggabungkan manfaat menghafal dan generalisasi. Dalam beberapa eksperimen online, hasilnya menunjukkan bahwa Wide & Deep meningkatkan akuisisi aplikasi Google Store secara signifikan dibandingkan dengan model khusus wide dan model khusus deep.

Manfaat

  • Terintegrasi dengan Vertex AI. Model yang dilatih adalah model Vertex AI. Anda dapat langsung menjalankan prediksi batch atau men-deploy model untuk prediksi online.

Wide & Deep di Vertex AI Pipelines

Tabular Workflow untuk Wide & Deep adalah instance terkelola dari Vertex AI Pipelines.

Vertex AI Pipelines adalah layanan serverless yang menjalankan pipeline Kubeflow. Anda dapat menggunakan pipeline untuk mengotomatisasi dan memantau machine learning serta tugas penyiapan data Anda. Setiap langkah di pipeline menjalankan bagian dari alur kerja pipeline. Misalnya, pipeline dapat mencakup langkah-langkah untuk memisahkan data, mengubah jenis data, dan melatih model. Karena langkah tersebut adalah instance komponen pipeline, langkah memiliki input, output, dan image container. Input langkah dapat ditetapkan dari input pipeline atau dapat bergantung pada output langkah lain dalam pipeline ini. Dependensi ini menentukan alur kerja pipeline sebagai directed acyclic graph.

Ada dua versi Tabular Workflow untuk Wide & Deep yang tersedia:

  • HyperparameterTuningJob menelusuri kumpulan nilai hyperparameter terbaik, yang akan digunakan untuk pelatihan model.
  • CustomJob memungkinkan Anda menentukan nilai hyperparameter yang akan digunakan untuk pelatihan model. Jika tahu persis nilai hyperparameter yang dibutuhkan, Anda dapat menentukannya tanpa perlu mencarinya dan menghemat resource pelatihan.

Ringkasan pipeline dan komponen CustomJob Wide & Deep

Pipeline CustomJob Wide & Deep dapat diilustrasikan dengan diagram berikut:

Pipeline untuk CustomJob Wide & Deep 

Komponen pipeline adalah:

  1. feature-transform-engine: Melakukan rekayasa fitur. Lihat Feature Transform Engine untuk mengetahui detailnya.
  2. split-materialized-data: Memisahkan data terwujud ke dalam set pelatihan, set evaluasi, dan set pengujian.

    Input:

    • Data terwujud materialized_data.

    Output:

    • Pemisahan pelatihan terwujud materialized_train_split.
    • Pemisahan evaluasi terwujud materialized_eval_split.
    • Set pengujian terwujud materialized_test_split.
  3. wide-and-deep-trainer: Melakukan pelatihan model.

    Input:

    • Dasar pengukuran instance instance_baseline.
    • Skema pelatihan training_schema.
    • Mentransformasi output transform_output.
    • Pemisahan pelatihan terwujud materialized_train_split.
    • Pemisahan evaluasi terwujud materialized_eval_split.
    • Set pengujian terwujud materialized_test_split.

    Output:

    • Model akhir
  4. automl-tabular-infra-validator: Memvalidasi model yang dilatih dengan mengirimkan permintaan prediksi dan memeriksa apakah model tersebut berhasil diselesaikan.
  5. model-upload: Mengupload model dari bucket Cloud Storage pengguna ke Vertex AI sebagai model Vertex AI.
  6. condition-run-evaluation-2: condition-run-evaluation-2. Menggunakan set pengujian untuk menghitung metrik evaluasi. Hanya berjalan jika run_evaluation ditetapkan ke true.

Ringkasan pipeline dan komponen HyperparameterTuningJob Wide & Deep

Pipeline HyperparameterTuningJob Wide & Deep dapat diilustrasikan dengan diagram berikut:

Pipeline untuk HyperparameterTuningJob Wide & Deep 

  1. feature-transform-engine: Melakukan rekayasa fitur. Lihat Feature Transform Engine untuk mengetahui detailnya.
  2. split-materialized-data: Memisahkan data terwujud ke dalam set pelatihan, set evaluasi, dan set pengujian.

    Input:

    • Data terwujud materialized_data.

    Output:

    • Pemisahan pelatihan terwujud materialized_train_split.
    • Pemisahan evaluasi terwujud materialized_eval_split.
    • Set pengujian terwujud materialized_test_split.
  3. get-wide-and-deep-study-spec-parameters: Menghasilkan spesifikasi studi berdasarkan konfigurasi pipeline pelatihan. Jika pengguna memberikan nilai untuk study_spec_parameters_override, gunakan nilai tersebut untuk mengganti nilai spesifikasi studi.

    Input:

    • Penggantian opsional parameter spesifikasi studi study_spec_parameters_override.

    Output:

    • Daftar akhir hyperparameter dan rentangnya untuk tugas penyesuaian hyperparameter.
  4. wide-and-deep-hyperparameter-tuning-job: Melakukan satu atau beberapa uji coba penyesuaian hyperparameter.

    Input:

    • Dasar pengukuran instance instance_baseline.
    • Skema pelatihan training_schema.
    • Mentransformasi output transform_output.
    • Pemisahan pelatihan terwujud materialized_train_split.
    • Pemisahan evaluasi terwujud materialized_eval_split.
    • Set pengujian terwujud materialized_test_split.
    • Daftar hyperparameter dan rentangnya untuk tugas penyesuaian hyperparameter.
  5. get-best-hyperparameter-tuning-job-trial: Memilih model dari uji coba tugas penyesuaian hyperparameter terbaik pada langkah sebelumnya.

    Output:

    • Model akhir
  6. automl-tabular-infra-validator: Memvalidasi model yang dilatih dengan mengirimkan permintaan prediksi dan memeriksa apakah model tersebut berhasil diselesaikan.
  7. model-upload: Mengupload model dari bucket Cloud Storage pengguna ke Vertex AI sebagai model Vertex AI.
  8. condition-run-evaluation-2: condition-run-evaluation-2. Menggunakan set pengujian untuk menghitung metrik evaluasi. Hanya berjalan jika run_evaluation ditetapkan ke true.

Langkah selanjutnya