퍼지 검색은 검색어와 해당 데이터가 완벽하게 일치하지 않더라도 일치 항목을 찾는 검색 기법입니다. 문자 그대로의 문자 일치뿐만 아니라 철자, 의미 또는 기타 기준 측면에서 검색어와 유사한 결과를 식별합니다. 이 기능은 사용자 입력을 처리할 때 특히 유용할 수 있습니다. 사용자 입력에는 오타, 변형(복수형 대 단수형, 약어, 어간 추출 등), 사용자가 전반적으로 소통하는 다양한 방식에 따른 기타 불일치 등이 포함될 수 있습니다.
데이터베이스에서 'apple'을 검색한다고 상상해 보세요. 더 단순한 검색엔진은 'apple'이라는 단어와 정확히 일치하는 항목만 반환할 수 있습니다. 그러나 퍼지 검색을 사용하는 엔진은 'apples', 'appel', 심지어 'aplle'과 같은 유사한 용어도 고려하여 철자가 약간 다르더라도 일치 가능성이 있는 항목으로 인식합니다.
이 접근 방식을 사용하면 검색 범위를 넓히고 사용자가 쿼리에 다른 철자를 입력하더라도 관련성 높은 정보를 찾을 가능성을 높일 수 있습니다. 마치 넓은 그물을 던지는 것과 같아서 찾고자 하는 물고기뿐만 아니라 비슷한 물고기도 잡을 수 있습니다.
퍼지 검색은 데이터가 일관되지 않거나 사용자가 검색어의 정확한 철자를 모를 때 유용할 수 있습니다. 전자상거래에서 이름이 약간 다르게 표시된 제품을 찾거나 수동 데이터 정리가 실용적이지 않은 대규모 데이터 세트에서 특히 유용할 수 있습니다.
Vertex AI, Cloud SQL, Cloud Spanner 등 Google Cloud 제품을 사용하면 퍼지 검색을 빌드하고 실행할 수 있습니다. 니즈에 맞는 퍼지 검색을 살펴보려면 영업팀에 문의하거나 무료 체험판을 시작하세요.
퍼지 검색은 두 텍스트 문자열, 검색어, 데이터의 잠재적 일치 항목 간의 유사성을 판단하기 위해 다양한 알고리즘과 기법을 사용합니다. 이러한 알고리즘은 다음과 같은 개념을 사용합니다.
이러한 유형의 개념을 사용하면 퍼지 검색엔진이 원래 쿼리와의 유사성을 기반으로 잠재적 일치 항목의 순위를 지정할 수 있으므로 사용자는 검색어와 약간 다르더라도 관련성이 높은 결과를 볼 수 있습니다.
데이터 세트가 커지고 사용자 입력이 다양해짐에 따라 퍼지 검색은 정보를 효과적으로 검색하는 데 유용한 접근 방식을 제공합니다. 사용자가 소통(또는 검색)하는 다양한 방식과 데이터가 구조화되고 저장된 방식 간의 격차를 해소하는 데 도움이 될 수 있습니다.
다음과 같은 이유로 퍼지 검색이 중요할 수 있습니다.
정확한 검색과 퍼지 검색의 근본적인 차이점은 데이터의 변형을 처리하는 방식에 있습니다. 주요 차이점을 살펴보겠습니다.
정확한 검색 | 퍼지 검색 | |
일치 기준 | 문자별로 정확하게 일치해야 함 | 오타, 변형, 부분 일치 허용 |
검색 범위 | 더 좁은 범위로, 정확하게 일치하는 항목만 반환 | 더 넓은 범위에서 다양한 결과 검색 |
사용 사례 | 규제가 엄격한 업종의 제품 카탈로그 또는 데이터베이스처럼 정확성이 엄격하게 요구되는 상황 | 대규모 웹사이트의 검색창처럼 유연성과 오류 허용 범위가 중요한 시나리오 |
정확한 검색
퍼지 검색
일치 기준
문자별로 정확하게 일치해야 함
오타, 변형, 부분 일치 허용
검색 범위
더 좁은 범위로, 정확하게 일치하는 항목만 반환
더 넓은 범위에서 다양한 결과 검색
사용 사례
규제가 엄격한 업종의 제품 카탈로그 또는 데이터베이스처럼 정확성이 엄격하게 요구되는 상황
대규모 웹사이트의 검색창처럼 유연성과 오류 허용 범위가 중요한 시나리오
이를 실제로 적용하는 방법을 설명하기 위해, 다양한 검색어에 숨겨진 사용자 의도를 관련 검색 결과와 일치시키는 데 퍼지 검색이 어떻게 도움이 되는지 몇 가지 예를 살펴보겠습니다.
이 경우 오타가 있더라도 퍼지 검색 알고리즘이 사용자 의도를 인식하여 사과 파이 레시피를 제공합니다. 'aple'이 'apple'의 오타일 가능성이 높다는 것을 이해하고 이에 따라 결과의 우선순위를 지정합니다.
퍼지 검색은 복수형의 변형을 원활하게 처리합니다. 사용자가 단수형이나 복수형을 검색하든 상관없이 검색엔진은 의도한 의미와 일치하는 결과를 지능적으로 검색하여 사용자가 문법적 접근 방식에 관계없이 레시피를 찾을 수 있도록 합니다.
동의어를 해석할 수 있으므로 검색 범위가 넓어집니다. 엔진은 'quick meal ideas'와 'easy dinner recipes'가 개념적으로 유사하다는 것을 인식하고 두 가지 모두에 대해 관련성 있는 결과를 제공하여 사용된 키워드의 문자 그대로의 의미를 넘어서는 가능성을 확장합니다.
알고리즘은 단어를 기본 또는 어근 형태로 축소하는 어간 추출을 자주 사용합니다. 이를 통해 단어가 문법적으로 다르더라도 'running shoes'와 run shoe'를 일치시켜 사용자가 약간의 변형에 관계없이 관련 제품을 찾을 수 있도록 합니다.
시스템은 'USA'가 'United States of America'를 의미한다는 것을 인식하여 약어를 효과적으로 처리합니다. 이 기능은 간결함을 위해 약어가 자주 사용되는 데이터베이스와 검색엔진에서 특히 유용합니다.
퍼지 검색 구현은 일반적으로 다음 단계를 포함합니다.
구체적인 구현은 애플리케이션에 따라 다를 수 있지만 Google Cloud의 Vertex AI는 머신러닝 워크플로 내에서 퍼지 검색 기법을 활용하여 모델 정확성을 개선하고 노이즈가 많거나 일관성이 없는 데이터를 처리할 수 있습니다. 예를 들어 퍼지 일치를 사용하면 유사한 데이터 포인트를 그룹화하거나 학습 데이터 세트의 오류를 식별하고 수정하여 특성 추출을 향상할 수 있습니다.