Ringkasan pengurangan dimensi
Pengurangan dimensi adalah istilah umum untuk serangkaian teknik matematika yang digunakan untuk menangkap bentuk dan hubungan data dalam ruang berdimensi tinggi dan menerjemahkan informasi ini ke dalam ruang berdimensi rendah.
Mengurangi dimensi penting saat Anda menangani set data besar yang dapat berisi ribuan fitur. Dalam ruang data yang begitu besar, rentang jarak yang lebih lebar antara titik data dapat membuat output model lebih sulit untuk diinterpretasikan. Misalnya, hal ini menyulitkan untuk memahami titik data mana yang lebih dekat dan karenanya mewakili data yang lebih mirip. Pengurangan dimensi membantu Anda mengurangi jumlah fitur sekaligus mempertahankan karakteristik set data yang paling penting. Mengurangi jumlah fitur juga membantu mengurangi waktu pelatihan model apa pun yang menggunakan data sebagai input.
BigQuery ML menawarkan model berikut untuk pengurangan dimensi:
Anda dapat menggunakan model PCA dan autoencoder dengan fungsi
ML.PREDICT
atau
ML.GENERATE_EMBEDDING
untuk menyematkan data ke dalam ruang berdimensi lebih rendah, dan dengan
fungsi ML.DETECT_ANOMALIES
untuk melakukan deteksi anomali.
Anda dapat menggunakan output dari model pengurangan dimensi untuk tugas seperti berikut:
- Penelusuran kesamaan: Menemukan titik data yang mirip satu sama lain berdasarkan penyematan. Hal ini sangat berguna untuk menemukan produk terkait, merekomendasikan konten serupa, atau mengidentifikasi item duplikat atau anomali.
- Pengelompokan: Gunakan penyematan sebagai fitur input untuk model k-means guna mengelompokkan titik data berdasarkan kesamaannya. Hal ini dapat membantu Anda menemukan pola dan insight tersembunyi dalam data.
- Machine learning: Menggunakan embeddings sebagai fitur input untuk model klasifikasi atau regresi.
Artikel pusat informasi yang direkomendasikan
Dengan menggunakan setelan default dalam pernyataan CREATE MODEL
dan fungsi inferensi, Anda dapat membuat dan menggunakan model pengurangan dimensi, bahkan tanpa banyak pengetahuan ML. Namun, memiliki pengetahuan dasar tentang pengembangan ML membantu Anda mengoptimalkan data dan model untuk memberikan hasil yang lebih baik. Sebaiknya gunakan referensi berikut untuk mengembangkan
pengetahuan tentang teknik dan proses ML: