Che cos'è la ricerca approssimativa?

La ricerca approssimativa è una tecnica di ricerca che trova corrispondenze anche quando la query di ricerca non corrisponde perfettamente ai relativi dati. Non si limita a una corrispondenza letterale tra i caratteri, ma identifica i risultati simili alla query di ricerca in termini di ortografia, significato o altri criteri. Questo può essere particolarmente utile quando si ha a che fare con input utente, che possono includere errori di battitura, variazioni (plurale o singolare, abbreviazioni, stemming e altro) e altre incoerenze dovute ai diversi modi in cui gli utenti comunicano.

Immagina di cercare "frutta" in un database. Un motore di ricerca più semplice potrebbe restituire solo le voci che corrispondono esattamente alla parola "frutta". Tuttavia, un motore di ricerca con ricerca approssimativa considererebbe anche termini simili come "frutti", "frunta" o persino "fruuta", riconoscendoli come potenziali corrispondenze nonostante le variazioni ortografiche minori.

Questo approccio può ampliare l'ambito di ricerca e contribuire ad aumentare le probabilità di trovare informazioni pertinenti, anche se l'utente ha usato un'ortografia diversa nella query. È come gettare una rete più ampia che cattura non solo il pesce che stavi cercando, ma anche quelli che gli assomigliano molto.

La ricerca approssimativa può rivelarsi utile negli scenari in cui i dati potrebbero essere incoerenti o quando gli utenti potrebbero non conoscere l'ortografia esatta di ciò che stanno cercando. Può essere particolarmente utile nell'e-commerce per trovare prodotti con lievi variazioni di nome o in set di dati di grandi dimensioni in cui la pulizia manuale dei dati non è praticabile.

I prodotti Google Cloud che possono essere utilizzati per creare ed eseguire una ricerca approssimativa includono Vertex AI, Cloud SQL e Cloud Spanner. Per esplorare la ricerca approssimativa in base alle tue esigenze, contatta il nostro team di vendita o inizia la tua prova gratuita.

Inizia gratuitamente

Come funzionano le ricerche approssimative?

Le ricerche approssimative utilizzano vari algoritmi e tecniche per determinare la somiglianza tra due stringhe di testo, la query di ricerca e la potenziale corrispondenza nei dati. Questi algoritmi spesso si basano su concetti come:

Distanza di Levenshtein: determina il numero minimo di modifiche (come inserimenti, eliminazioni o sostituzioni) necessarie per trasformare una stringa in un'altra. Una distanza di Levenshtein più bassa indica una maggiore somiglianza. Ad esempio, le parole "kitten" e "sitting" hanno una distanza di Levenshtein pari a 3.
Similarità del coseno: calcola il coseno dell'angolo tra due vettori che rappresentano le parole o le stringhe. Una similarità del coseno uguale a 1 rappresenta una corrispondenza esatta, mentre 0 indica nessuna somiglianza. Viene comunemente utilizzata per confrontare i documenti in base al loro contenuto di parole.
Algoritmi fonetici: queste tecniche, come Soundex o Metaphone, codificano le parole in base alla loro pronuncia. Questo aiuta a trovare parole che suonano in modo simile anche se hanno ortografie diverse, come "Smith" e "Smyth".

Utilizzando questi tipi di concetti, i motori di ricerca approssimativa possono classificare le potenziali corrispondenze in base alla loro somiglianza con la query originale, aiutando gli utenti a visualizzare una serie di risultati pertinenti, anche se contengono variazioni minori rispetto ai termini di ricerca.

Perché la ricerca approssimativa è importante?

Man mano che le dimensioni dei set di dati aumentano e gli input degli utenti si diversificano, la ricerca approssimativa offre un approccio prezioso per il recupero di informazioni in modo efficace. Può aiutare a colmare il divario tra i diversi modi in cui gli utenti comunicano (o cercano) e il modo in cui i dati potrebbero essere stati strutturati e archiviati.

Ecco perché la ricerca approssimativa può essere importante:

Facilità d'uso: la ricerca approssimativa tiene conto di errori di battitura, varianti di parole o errori di ortografia, consentendo agli utenti di trovare più facilmente ciò di cui hanno bisogno senza dover conoscere l'ortografia o la frase esatta. In questo modo, l'esperienza di ricerca può essere più rapida e fluida.
Maggiore pertinenza della ricerca: considerando varianti e sinonimi, la ricerca approssimativa recupera una gamma più ampia di risultati pertinenti che potrebbero essere stati trascurati dalle ricerche con corrispondenza esatta.
Migliore rilevabilità dei dati: nei set di dati di grandi dimensioni con potenziali incoerenze o variazioni nell'inserimento dei dati, la ricerca approssimativa aiuta a scoprire connessioni nascoste e a recuperare informazioni pertinenti che potrebbero essere state trascurate.

Qual è la differenza tra ricerca esatta e ricerca approssimativa?

La differenza fondamentale tra la ricerca esatta e quella approssimativa sta nel modo in cui gestiscono le variazioni dei dati. Analizziamo le differenze principali:

	Ricerca esatta	Ricerca approssimativa
Criteri di corrispondenza	Richiede una corrispondenza esatta carattere per carattere	Consente errori di battitura, varianti e corrispondenze parziali
Ambito di ricerca	Più specifica, restituisce solo corrispondenze precise	Più ampia, recupera una gamma più vasta di risultati
Casi d'uso	Situazioni che richiedono un'accuratezza rigorosa, come database o cataloghi di prodotti in settori con una forte regolamentazione	Scenari in cui flessibilità e tolleranza agli errori sono cruciali, come le barre di ricerca su grandi siti web

Ricerca esatta

Ricerca approssimativa

Criteri di corrispondenza

Richiede una corrispondenza esatta carattere per carattere

Consente errori di battitura, varianti e corrispondenze parziali

Ambito di ricerca

Più specifica, restituisce solo corrispondenze precise

Più ampia, recupera una gamma più vasta di risultati

Casi d'uso

Situazioni che richiedono un'accuratezza rigorosa, come database o cataloghi di prodotti in settori con una forte regolamentazione

Scenari in cui flessibilità e tolleranza agli errori sono cruciali, come le barre di ricerca su grandi siti web

Comprendere le differenze tra ricerca esatta e ricerca approssimativa è fondamentale per selezionare la tecnica appropriata per una determinata attività. Mentre la ricerca esatta è adatta alle situazioni che richiedono un'elevata precisione, la ricerca approssimativa è eccellente nel gestire variazioni o errori degli utenti e trovare informazioni pertinenti nonostante le incoerenze.

Esempi di ricerca approssimativa

Per illustrarne le applicazioni pratiche, diamo un'occhiata ad alcuni esempi di come la ricerca approssimativa può aiutare a far corrispondere l'intent dell'utente dietro diverse query di ricerca con risultati di ricerca pertinenti.

Errori di battitura

L'utente cerca: "tota di mele"
Risultati della ricerca approssimativa: "torta di mele"

In questo caso, nonostante l'errore di battitura, l'algoritmo di ricerca approssimativa riconosce l'intenzione dell'utente e fornisce la ricetta desiderata per la torta di mele. Capisce che "tota" è probabilmente un errore di ortografia di "torta" e assegna la priorità al risultato di conseguenza.

Plurali e singolari

L'utente cerca: "ricetta"
Risultati della ricerca approssimativa: "ricette"

La ricerca approssimativa gestisce senza problemi le variazioni della pluralità. Indipendentemente dal fatto che l'utente cerchi la forma singolare o plurale, il motore di ricerca recupera in modo intelligente i risultati che corrispondono al significato inteso, assicurando che gli utenti trovino le ricette indipendentemente dall'approccio grammaticale.

Sinonimi

L'utente cerca: "idee per pasti veloci"
Risultati della ricerca approssimativa: "ricette facili per cena"

La capacità di interpretare i sinonimi amplia l'ambito di ricerca. Il motore riconosce che "idee per pasti veloci" e "ricette facili per cena" sono concettualmente simili e fornisce risultati pertinenti per entrambi, ampliando le possibilità andando oltre le parole chiave letterali usate.

Stemming

L'utente cerca: "scarpe da corsa"
Risultati della ricerca approssimativa: "correre scarpa"

Gli algoritmi spesso utilizzano lo stemming, che riduce le parole alla loro forma di base o radice. In questo modo, la ricerca può trovare corrispondenze tra "scarpe da corsa" e "correre scarpa", anche se le parole sono grammaticalmente diverse, e gli utenti possono trovare prodotti pertinenti indipendentemente dalle piccole variazioni.

Abbreviazioni

L'utente cerca: "USA"
Risultati della ricerca approssimativa: "Stati Uniti d'America"

Il sistema gestisce efficacemente le abbreviazioni, riconoscendo che "USA" si riferisce agli "Stati Uniti d'America". Questa funzionalità è particolarmente utile nei database e nei motori di ricerca, dove le abbreviazioni vengono spesso utilizzate per brevità.

Come viene implementata la ricerca approssimativa?

L'implementazione della ricerca approssimativa prevede in genere i seguenti passaggi:

Preelaborazione dei dati: questo passaggio prevede in una certa misura la pulizia e la standardizzazione dei dati. Ad esempio, potrebbe includere la conversione del testo in minuscolo, la rimozione della punteggiatura o l'applicazione di tecniche di stemming. Sebbene la ricerca approssimativa sia tollerante alle variazioni, un'elaborazione preliminare di base può migliorarne l'efficienza.
Indicizzazione: i dati pre-elaborati vengono indicizzati, spesso utilizzando strutture di dati specializzate come indici invertiti o strutture trie. Queste strutture consentono un recupero rapido di potenziali corrispondenze per una determinata query.
Calcolo della somiglianza: quando un utente invia una query, l'algoritmo di ricerca approssimativa calcola i punteggi di somiglianza tra la query e i dati indicizzati. Ciò comporta l'utilizzo di algoritmi come la distanza di Levenshtein, la somiglianza del coseno o gli algoritmi fonetici per quantificare il grado di corrispondenza.
Ranking e recupero: le potenziali corrispondenze vengono classificate in base ai loro punteggi di somiglianza e i risultati con il ranking più alto vengono recuperati e presentati all'utente.

In che modo Vertex AI sfrutta la ricerca approssimativa?

Sebbene l'implementazione specifica possa variare a seconda dell'applicazione, Vertex AI di Google Cloud può sfruttare le tecniche di ricerca approssimativa all'interno dei workflow di machine learning per migliorare l'accuratezza del modello e gestire dati rumorosi o incoerenti. Ad esempio, la corrispondenza approssimativa può migliorare il feature engineering raggruppando punti dati simili o identificando e correggendo errori nei set di dati di addestramento.

Fai il prossimo passo

Inizia a creare su Google Cloud con 300 $ di crediti gratuiti e oltre 20 prodotti Always Free.