Bagaimana cara kerja penelusuran fuzzy?

Penelusuran fuzzy menggunakan berbagai algoritma dan teknik untuk menentukan kemiripan antara dua string teks, kueri penelusuran, dan potensi kecocokan dalam data. Algoritma ini sering kali mengandalkan konsep seperti:

  • Jarak Levenshtein: Menentukan jumlah pengeditan terendah (seperti penyisipan, penghapusan, atau penggantian) yang diperlukan untuk mengubah satu string menjadi string lain. Jarak Levenshtein yang lebih rendah menunjukkan kemiripan yang lebih besar. Misalnya, "kucing" dan "kidung" memiliki jarak Levenshtein 3.
  • Kemiripan kosinus: Metode ini menghitung kosinus sudut antara dua vektor yang merepresentasikan kata atau string. Kemiripan kosinus 1 menunjukkan kecocokan persis, sedangkan 0 menunjukkan tidak ada kemiripan. Metode ini biasanya digunakan untuk membandingkan dokumen berdasarkan konten kata.
  • Algoritma fonetik: Teknik ini, seperti Soundex atau Metaphone, mengenkode kata berdasarkan pengucapannya. Hal ini membantu menemukan kata-kata yang terdengar mirip meskipun dieja berbeda, seperti "Smith" dan "Smyth".

Dengan menggunakan jenis konsep ini, mesin telusur fuzzy dapat mengurutkan potensi kecocokan berdasarkan kemiripan dengan kueri asli sehingga membantu pengguna melihat berbagai hasil yang relevan, meskipun mengandung sedikit variasi dari istilah penelusurannya.

Mengapa penelusuran fuzzy itu penting?

Seiring bertambah besarnya set data dan input pengguna yang semakin beragam, penelusuran fuzzy menawarkan pendekatan yang penting untuk mengambil informasi secara efektif. Model data dapat membantu menjembatani perbedaan antara berbagai cara pengguna berkomunikasi (atau melakukan penelusuran), dan cara data disusun dan disimpan. 

Berikut alasan mengapa penelusuran fuzzy bisa saja penting:

  • Kemudahan penggunaan: Penelusuran fuzzy mengakomodasi kesalahan ketik, variasi kata, atau salah eja, sehingga memudahkan pengguna untuk menemukan hal yang mereka perlukan tanpa perlu mengetahui ejaan atau ungkapan persisnya. Hal ini dapat menghasilkan pengalaman penelusuran yang lebih lancar dan cepat.
  • Peningkatan relevansi penelusuran: Dengan mempertimbangkan variasi dan sinonim, penelusuran fuzzy akan menampilkan lebih banyak hasil penelusuran yang relevan yang mungkin tidak ditemukan oleh penelusuran pencocokan sesuai.
  • Peningkatan visibilitas data: Dalam set data besar dengan potensi inkonsistensi atau variasi dalam entri data, penelusuran fuzzy membantu mengungkap hubungan tersembunyi dan mengambil informasi relevan yang mungkin terlewatkan.

Bagaimana penelusuran fuzzy diterapkan?

Menerapkan penelusuran fuzzy biasanya melibatkan langkah-langkah berikut:

  1. Pemrosesan data: Langkah ini melibatkan pembersihan dan standardisasi data hingga tingkat tertentu. Hal ini dapat mencakup pengubahan teks menjadi huruf kecil, penghapusan tanda baca, atau penerapan teknik stemming. Meskipun pencarian fuzzy menoleransi variasi, prapemrosesan dasar dapat meningkatkan efisiensinya.
  2. Pembuatan indeks: Data yang telah diproses akan dibuat indeksnya, yang sering kali menggunakan struktur data khusus seperti indeks terbalik atau struktur pohon trie. Struktur ini memungkinkan pengambilan cepat dari potensi kecocokan untuk kueri tertentu.
  3. Perhitungan kemiripan: Saat pengguna mengirimkan kueri, algoritma penelusuran fuzzy menghitung skor kemiripan antara kueri dan data yang diindeks. Hal ini melibatkan penggunaan algoritma seperti jarak Levenshtein, kemiripan kosinus, atau algoritma fonet untuk mengukur tingkat kecocokan.
  4. Peringkat dan pengambilan: Kecocokan potensial diurutkan berdasarkan skor kemiripan, dan hasil peringkat teratas diambil dan ditampilkan kepada pengguna.

Langkah selanjutnya

Mulailah membangun solusi di Google Cloud dengan kredit gratis senilai $300 dan lebih dari 20 produk yang selalu gratis.

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
Konsol