Ringkasan pengurangan dimensi

Pengurangan dimensi adalah istilah umum untuk serangkaian teknik matematika yang digunakan untuk menangkap bentuk dan hubungan data dalam ruang berdimensi tinggi dan menerjemahkan informasi ini ke dalam ruang berdimensi rendah.

Mengurangi dimensi sangat penting saat Anda menangani set data besar yang dapat berisi ribuan fitur. Dalam ruang data yang begitu besar, rentang jarak yang lebih lebar antara titik data dapat membuat output model lebih sulit untuk ditafsirkan. Misalnya, hal ini menyulitkan untuk memahami titik data mana yang lebih dekat dan karenanya mewakili data yang lebih mirip. Pengurangan dimensi membantu Anda mengurangi jumlah fitur sekaligus mempertahankan karakteristik set data yang paling penting. Mengurangi jumlah fitur juga membantu mengurangi waktu pelatihan model apa pun yang menggunakan data sebagai input.

BigQuery ML menawarkan model berikut untuk pengurangan dimensi:

Anda dapat menggunakan model PCA dan autoencoder dengan fungsi ML.PREDICT atau ML.GENERATE_EMBEDDING untuk menyematkan data ke dalam ruang berdimensi lebih rendah, dan dengan fungsi ML.DETECT_ANOMALIES untuk melakukan deteksi anomali.

Anda dapat menggunakan output dari model pengurangan dimensi untuk tugas seperti berikut:

  • Penelusuran kesamaan: Menemukan titik data yang mirip satu sama lain berdasarkan penyematan. Hal ini sangat berguna untuk menemukan produk terkait, merekomendasikan konten serupa, atau mengidentifikasi item duplikat atau anomali.
  • Pengelompokan: Gunakan penyematan sebagai fitur input untuk model k-means guna mengelompokkan titik data berdasarkan kesamaannya. Hal ini dapat membantu Anda menemukan pola dan insight tersembunyi dalam data.
  • Machine learning: Menggunakan embeddings sebagai fitur input untuk model klasifikasi atau regresi.