Penelusuran fuzzy adalah teknik penelusuran yang menemukan kecocokan meskipun kueri penelusuran tidak cocok dengan data terkait. Penelusuran ini tidak hanya melakukan pencocokan karakter demi karakter, tetapi juga mengidentifikasi hasil yang mirip dengan kueri penelusuran dalam hal ejaan, arti, atau kriteria lainnya. Hal ini mungkin sangat berguna saat menangani input pengguna, yang dapat mencakup hal-hal seperti kesalahan ketik, variasi (bentuk jamak vs tunggal, singkatan, stemming, dan lainnya), dan ketidaksesuaian lainnya berdasarkan berbagai cara pengguna berkomunikasi.
Bayangkan Anda menelusuri "apel" di database. Mesin telusur yang lebih sederhana mungkin hanya akan menampilkan entri yang sama persis dengan kata "apel". Namun, mesin dengan penelusuran fuzzy juga akan mempertimbangkan istilah serupa seperti "apple," "apples," atau bahkan "aple", yang dideteksi sebagai potensi kecocokan meskipun ada sedikit variasi ejaan.
Pendekatan ini dapat memperluas cakupan penelusuran dan membantu meningkatkan peluang menemukan informasi yang relevan, meskipun pengguna memiliki ejaan yang berbeda dalam kueri mereka. Hal ini seperti menebar jaring yang lebih luas yang menangkap tidak hanya ikan yang Anda cari, tetapi juga ikan yang mirip dengan ikan tersebut.
Penelusuran fleksibel dapat terbukti bermanfaat dalam skenario dengan data yang mungkin tidak konsisten atau ketika pengguna mungkin tidak tahu ejaan yang tepat dari hal yang mereka telusuri. Hal ini mungkin sangat penting di e-commerce untuk menemukan produk dengan sedikit variasi nama, atau di set data besar yang pembersihan data manualnya tidak praktis.
Produk Google Cloud yang dapat digunakan untuk mem-build dan menjalankan penelusuran fuzzy mencakup Vertex AI, Cloud SQL, dan Cloud Spanner. Untuk mempelajari penelusuran fuzzy yang sesuai kebutuhan Anda, hubungi tim penjualan kami atau mulai uji coba gratis Anda.
Penelusuran fuzzy menggunakan berbagai algoritma dan teknik untuk menentukan kemiripan antara dua string teks, kueri penelusuran, dan potensi kecocokan dalam data. Algoritma ini sering kali mengandalkan konsep seperti:
Dengan menggunakan jenis konsep ini, mesin telusur fuzzy dapat mengurutkan potensi kecocokan berdasarkan kemiripan dengan kueri asli sehingga membantu pengguna melihat berbagai hasil yang relevan, meskipun mengandung sedikit variasi dari istilah penelusurannya.
Seiring bertambah besarnya set data dan input pengguna yang semakin beragam, penelusuran fuzzy menawarkan pendekatan yang penting untuk mengambil informasi secara efektif. Model data dapat membantu menjembatani perbedaan antara berbagai cara pengguna berkomunikasi (atau melakukan penelusuran), dan cara data disusun dan disimpan.
Berikut alasan mengapa penelusuran fuzzy bisa saja penting:
Perbedaan mendasar antara penelusuran sesuai dan penelusuran fuzzy terletak pada cara keduanya menangani variasi dalam data. Mari kita lihat perbedaan utamanya:
Penelusuran sesuai | Penelusuran fuzzy | |
Kriteria yang cocok | Memerlukan kecocokan karakter demi karakter yang sesuai | Memungkinkan kesalahan ketik, variasi, dan pencocokan parsial |
Cakupan penelusuran | Lebih spesifik, hanya menampilkan hasil yang akurat | Lebih luas, mengambil lebih banyak hasil |
Kasus penggunaan | Situasi yang menuntut akurasi yang ketat, seperti katalog produk atau database di industri yang memiliki peraturan ketat | Skenario yang membutuhkan fleksibilitas dan toleransi error merupakan hal yang penting, seperti kotak penelusuran di situs besar |
Penelusuran sesuai
Penelusuran fuzzy
Kriteria yang cocok
Memerlukan kecocokan karakter demi karakter yang sesuai
Memungkinkan kesalahan ketik, variasi, dan pencocokan parsial
Cakupan penelusuran
Lebih spesifik, hanya menampilkan hasil yang akurat
Lebih luas, mengambil lebih banyak hasil
Kasus penggunaan
Situasi yang menuntut akurasi yang ketat, seperti katalog produk atau database di industri yang memiliki peraturan ketat
Skenario yang membutuhkan fleksibilitas dan toleransi error merupakan hal yang penting, seperti kotak penelusuran di situs besar
Untuk mengilustrasikan penerapan praktisnya, mari kita pelajari beberapa contoh cara penelusuran fuzzy membantu mencocokkan maksud pengguna di balik berbagai kueri penelusuran dengan hasil penelusuran yang relevan.
Dalam kasus ini, meskipun ada kesalahan ketik, algoritma penelusuran fuzzy mengenali maksud pengguna dan menampilkan resep yang diinginkan untuk pai apel. AI memahami bahwa "aple" kemungkinan merupakan kesalahan pengejaan dari "apel" dan memprioritaskan hasilnya.
Penelusuran fuzzy menangani variasi dalam bentuk jamak dengan lancar. Baik pengguna menelusuri bentuk tunggal atau jamak, mesin telusur akan secara cerdas mengambil hasil yang cocok dengan makna yang dimaksud sehingga memastikan pengguna menemukan resep apa pun pendekatan gramatikalnya.
Kemampuan untuk menafsirkan sinonim dapat memperluas cakupan penelusuran. Mesin pencari mengenali bahwa "ide hidangan cepat saji" dan "resep makan malam mudah" secara konseptual mirip dan memberikan hasil yang relevan untuk keduanya, sehingga memperluas kemungkinan yang ada di luar kata kunci literal yang digunakan.
Algoritma sering kali menggunakan stemming, yang mengurangi kata ke bentuk dasar atau akarnya. Hal ini memungkinkan penelusuran untuk mencocokkan "sepatu lari" dengan "sepatu berlari," meskipun kata-katanya berbeda secara tata bahasa sehingga memastikan pengguna menemukan produk yang relevan terlepas dari variasi kecilnya.
Sistem ini menangani singkatan dengan baik, misalnya mengenali bahwa "AS" merujuk pada "Amerika Serikat". Kemampuan ini sangat berguna di database dan mesin telusur yang sering menggunakan singkatan untuk mempersingkat.
Menerapkan penelusuran fuzzy biasanya melibatkan langkah-langkah berikut:
Meskipun penerapan spesifiknya dapat bervariasi tergantung pada aplikasi, Vertex AI Google Cloud dapat memanfaatkan teknik penelusuran fuzzy dalam alur kerja machine learning untuk meningkatkan akurasi model dan menangani data yang berisi banyak kendala atau tidak konsisten. Misalnya, pencocokan fuzzy dapat meningkatkan kualitas rekayasa fitur dengan mengelompokkan titik data yang serupa atau dengan mengidentifikasi dan memperbaiki error dalam set data pelatihan.
Mulailah membangun solusi di Google Cloud dengan kredit gratis senilai $300 dan lebih dari 20 produk yang selalu gratis.