什么是模糊搜索？

上次更新时间：2026 年 1 月 14 日

模糊搜索是一种搜索技术，即使搜索查询与相应数据不完全匹配，也能找到匹配项。它不仅仅是字符逐字匹配，还会识别在拼写、含义或其他标准方面与搜索查询相似的结果。在处理用户输入内容时，这可能特别有用，因为用户输入内容可能包含诸如错别字、变体（复数与单数、缩写、词干等）以及其他不一致之处，这些都基于用户在整个平台上采用的不同沟通方式。

假设您要在数据库中搜索“apple”。更简单的搜索引擎可能只会返回完全匹配“apple”一词的条目。但是，具有模糊搜索功能的搜索引擎还会考虑“apples”“appel”甚至“aplle”等类似字词，将它们识别为潜在匹配项，尽管它们的拼写略有不同。

这种方法可以扩大搜索范围，帮助提高找到相关信息的几率，即使用户在查询时使用了不同的拼写也是如此。这就好比是撒一张更大的网，不仅能捕获您要找的鱼，还能捕获与之极为相似的鱼。

在数据可能不一致或用户可能不知道所搜内容的确切拼写的情况下，模糊搜索可能会非常有用。在电子商务领域，该模型在查找名称略有差异的产品方面可能特别有用，在人工数据清理不切实际的大型数据集中也可能特别有用。

可用于构建和执行模糊搜索的 Google Cloud 产品包括 Vertex AI、Cloud SQL 和 Cloud Spanner。如要探索可满足您需求的模糊搜索解决方案，请联系我们的销售团队或开始免费试用。

模糊搜索的工作原理是什么？

模糊搜索采用各种算法和技术来确定两个文本字符串、搜索查询以及数据中的潜在匹配项之间的相似程度。这些算法通常依赖于以下概念：

Levenshtein 距离：用于确定将一个字符串转换为另一个字符串所需的最少修改次数（例如插入、删除或替换）。Levenshtein 距离越小，相似度越高。例如，“kitten”和“sitting”的 Levenshtein 距离为 3。
余弦相似度：计算表示字词或字符串的两个向量之间的余弦角度。余弦相似度为 1 表示完全匹配，而 0 表示不相似。这通常用于根据文档的字词内容进行比较。
语音算法：Soundex 或 Metaphone 等技术会根据单词的发音对其进行编码。这有助于找到发音相似的字词，即使它们的拼写不同，例如“Smith”和“Smyth”。

借助这些概念，模糊搜索引擎可以根据潜在匹配与原始查询的相似程度对其进行排名，帮助用户查看一系列相关结果，即使这些结果与用户的搜索字词存在细微差异也不影响。

模糊搜索为何重要？

随着数据集越来越大，用户输入也越来越多样化，模糊搜索是一种有效检索信息的重要方法。它可以帮助弥合用户多种多样的沟通（或搜索）方式与数据可能的结构和存储方式之间的差距。

模糊搜索之所以很重要，原因如下：

用户友好：模糊搜索可容纳错别字、词形变化或拼写错误，让用户无需知道确切的拼写或措辞，即可轻松找到所需内容。这有助于提供更流畅、更快速的搜索体验。
提高搜索相关性：模糊搜索会考虑变体和同义词，从而检索出更广泛的相关结果，而完全匹配搜索可能无法检索到这些结果。
增强数据发现能力：在可能存在数据输入不一致或差异的大型数据集中，模糊搜索有助于发现隐藏的联系，并检索可能被忽略的相关信息。

精确搜索和模糊搜索有何区别？

精确搜索与模糊搜索之间的根本区别在于它们处理数据变化的方式。我们来看看主要区别：

	精确搜索	模糊搜索
匹配条件	要求字符与字符完全匹配	允许包含错别字、变体和部分匹配的字词
搜索范围	范围更窄，仅返回精确匹配的结果	范围更广，检索结果范围更广
使用场景	要求精确度极高的场景，例如受严格监管的行业中的商品目录或数据库	灵活性和容错能力至关重要的场景，例如大型网站上的搜索栏

精确搜索

模糊搜索

匹配条件

要求字符与字符完全匹配

允许包含错别字、变体和部分匹配的字词

搜索范围

范围更窄，仅返回精确匹配的结果

范围更广，检索结果范围更广

使用场景

要求精确度极高的场景，例如受严格监管的行业中的商品目录或数据库

灵活性和容错能力至关重要的场景，例如大型网站上的搜索栏

了解精确搜索和模糊搜索之间的区别对于为给定的任务选择合适的技术至关重要。虽然精确搜索适用于需要高精确度的场景，但模糊搜索在处理用户的变体或错误以及在存在不一致的情况下查找相关信息方面表现出色。

模糊搜索示例

为了说明其实际应用，我们来看看一些示例，看看模糊搜索如何帮助匹配不同搜索查询背后的用户意图与相关搜索结果。

Typos

用户搜索：“aple pie”
模糊搜索查找结果：“apple pie”

在本例中，即使出现了拼写错误，模糊搜索算法也能识别用户的意图，并提供所需的苹果派食谱。它能理解“aple”可能是“apple”的拼写错误，并相应地优先显示结果。

复数和单数

用户搜索：“recipe”
模糊搜索查找到："recipes"

模糊搜索可无缝处理多种变体。无论用户搜索单数还是复数形式，搜索引擎都会智能地检索与预期含义相符的结果，确保用户无论使用何种语法方法都能找到食谱。

同义词

用户搜索：“quick meal ideas”
模糊搜索结果：“easy dinner recipes”

解读同义词的功能可扩大搜索范围。该引擎会识别“quick meal ideas”和“easy dinner recipes”在概念上相似，并为这两个查询提供相关结果，从而扩大了结果的可能性，而不仅仅局限于所用的字面关键字。

词干提取

用户搜索：“running shoes”
模糊搜索找到："run shoe"

算法通常会采用词干提取，将单词简化为其基本形式或词根形式。这样，搜索结果中就会出现“running shoes”和“run shoe”这两个词组，即使它们在语法上有所不同，也能确保用户找到相关产品，而不会因为细微的差别而错失机会。

缩写

用户搜索：“USA”
模糊搜索找到：“United States of America”

系统可以有效地处理缩写，识别“USA”是指“United States of America”。这项功能在数据库和搜索引擎中尤为有用，因为这类系统中经常使用缩写来简化表达。

模糊搜索是如何实现的？

实现模糊搜索通常涉及以下步骤：

数据预处理：此步骤涉及对数据进行清理和标准化，程度取决于具体情况。这可能包括将文本转换为小写、移除标点符号或应用词干提取技术。虽然模糊搜索可以容忍差异，但基本预处理可以提高其效率。
索引：对预处理后的数据进行索引，通常使用倒排索引或字典树结构等专门的数据结构。这些结构可用于快速检索给定查询的潜在匹配项。
相似性计算：当用户提交查询时，模糊搜索算法会计算查询与索引数据之间的相似性得分。这涉及使用 Levenshtein 距离、余弦相似度或语音算法等算法来量化匹配程度。
排名和检索：根据相似性得分对潜在匹配结果进行排名，然后检索排名靠前的结果并将其呈现给用户。

Vertex AI 如何利用模糊搜索？

虽然具体实现可能因应用而异，但 Google Cloud 的 Vertex AI 可以在其机器学习工作流中利用模糊搜索技术来提高模型准确性，并处理噪声或不一致的数据。例如，模糊匹配可以通过对类似的数据点进行分组，或者识别和更正训练数据集中的错误，从而增强特征工程。

立即行动

获享 $300 赠金以及 20 多种提供“始终免费”用量的产品，开始在 Google Cloud 上构建项目。

不知从何入手，需要一点帮助？
与销售人员联系
与值得信赖的合作伙伴携手
寻找合作伙伴
继续浏览
查看所有产品