Rekayasa fitur

Dokumen ini menjelaskan cara Feature Transform Engine menjalankan rekayasa fitur. Fitur Transform Engine melakukan pemilihan fitur dan transformasi fitur. Jika pemilihan fitur diaktifkan, Feature Transform Engine akan membuat serangkaian fitur penting yang diberi peringkat. Jika transformasi fitur diaktifkan, Feature Transform Engine akan memproses fitur untuk memastikan bahwa input untuk pelatihan model dan penyajian model konsisten. Feature Transform Engine dapat digunakan sendiri atau bersama dengan salah satu alur kerja pelatihan tabel. Platform ini mendukung framework TensorFlow dan non-TensorFlow.

Input

Anda harus memberikan input berikut ke Feature Transform Engine:

  • Data mentah (set data BigQuery atau CSV).
  • Konfigurasi pemisahan data.
  • Konfigurasi pemilihan fitur.
  • Konfigurasi transformasi fitur.

Output

Feature Transform Engine menghasilkan output berikut:

  • dataset_stats: Statistik yang mendeskripsikan set data mentah. Misalnya, dataset_stats memberikan jumlah baris dalam set data.
  • feature_importance: Skor nilai penting fitur. Output ini dibuat jika pemilihan fitur diaktifkan.
  • materialized_data, yang merupakan versi transformasi dari grup pemisahan data yang berisi pemisahan pelatihan, pemisahan evaluasi, dan pemisahan pengujian.
  • training_schema: Skema data pelatihan dalam spesifikasi OpenAPI, yang menjelaskan jenis data dari data pelatihan.
  • instance_schema: Skema instance dalam spesifikasi OpenAPI, yang menjelaskan jenis data dari data prediksi.
  • transform_output: Metadata transformasi. Jika Anda menggunakan TensorFlow untuk transformasi, metadatanya akan menyertakan grafik TensorFlow.

Langkah pemrosesan

Feature Transform Engine melakukan langkah-langkah berikut:

  • Buat pemisahan set data untuk pelatihan, evaluasi, dan pengujian.
  • Membuat statistik set data input dataset_stats yang mendeskripsikan set data mentah.
  • Jalankan pemilihan fitur.
  • Proses konfigurasi transformasi menggunakan statistik set data, yang akan me-resolve parameter transformasi otomatis menjadi parameter transformasi manual.
  • Ubah fitur mentah menjadi fitur buatan. Transformasi yang berbeda dilakukan untuk jenis fitur yang berbeda.

Pilihan fitur

Tujuan utama pemilihan fitur adalah untuk mengurangi jumlah fitur yang digunakan dalam model. Set fitur yang dikurangi diharapkan untuk menangkap sebagian besar informasi label dengan cara yang lebih ringkas. Dengan pemilihan fitur, Anda dapat mengurangi biaya model pelatihan dan penayangan tanpa memengaruhi kualitas model secara signifikan.

Jika pemilihan fitur diaktifkan, Feature Transform Engine akan menetapkan skor nilai penting untuk setiap fitur. Anda dapat memilih untuk menampilkan skor kepentingan dari rangkaian fitur lengkap atau dari subset fitur terpenting yang dikurangi.

Vertex AI menawarkan algoritma pemilihan fitur berikut:

Perhatikan bahwa tidak ada algoritma pemilihan fitur yang selalu berfungsi paling baik pada semua set data dan untuk semua tujuan. Jika memungkinkan, jalankan semua algoritma dan gabungkan hasilnya.

Informasi Bersama yang Disesuaikan (AMI)

AMI adalah penyesuaian skor Informasi Bersama (MI) untuk memperhitungkan peluang. Ini memperhitungkan fakta bahwa MI umumnya lebih tinggi untuk dua pengelompokan dengan jumlah cluster yang lebih besar, terlepas dari apakah sebenarnya ada lebih banyak informasi yang dibagikan.

AMI dapat mendeteksi relevansi fitur dan label, tetapi tidak sensitif terhadap redundansi fitur. AMI harus dipertimbangkan jika ada banyak fitur (misalnya, lebih dari 2.000) dan redundansi fitur tidak banyak. Algoritma ini lebih cepat daripada algoritma lain yang dijelaskan di sini, tetapi dapat mengambil fitur redundan.

Pemaksimalan Informasi Bersama Bersyarat (CMIM)

CMIM adalah algoritma rakus yang memilih fitur secara berulang berdasarkan informasi timbal balik bersyarat dari fitur kandidat sehubungan dengan fitur yang dipilih. Di setiap iterasi, CMIM memilih fitur yang memaksimalkan informasi timbal balik minimum dengan label yang belum ditangkap oleh fitur yang dipilih.

CMIM sangat andal dalam menangani redundansi fitur, dan berfungsi dengan baik dalam kasus umum.

Pemaksimalan Informasi Bersama (JMIM)

JMIM adalah algoritma rakus yang mirip dengan CMIM. JMIM memilih fitur yang memaksimalkan informasi bersama dari fitur baru dan fitur yang dipilih sebelumnya dengan label, sedangkan CMIM lebih mempertimbangkan redundansi.

JMIM adalah algoritma pemilihan fitur berkualitas tinggi.

Redundansi Minimum Relevansi Maksimum (MRMR)

MRMR adalah algoritma rakus yang bekerja secara berulang. Mirip dengan CMIM. Setiap iterasi memilih fitur yang memaksimalkan relevansi sehubungan dengan label sekaligus meminimalkan redundansi berpasangan sehubungan dengan fitur yang dipilih pada iterasi sebelumnya.

MRMR adalah algoritma pemilihan fitur berkualitas tinggi.

Langkah berikutnya

Setelah melakukan rekayasa fitur, Anda dapat melatih model untuk klasifikasi atau regresi: