전체 텍스트 검색은 어떻게 작동하나요?

전체 텍스트 검색에는 두 가지 기본 단계가 있습니다. 도서관의 지도를 만드는 것과 유사한 색인 생성과 해당 지도에서 요청된 정보를 가져오는 검색입니다.

색인 생성

색인 생성 단계에서 시스템은 문서의 텍스트 콘텐츠를 분석하고 구조화된 형식으로 데이터를 저장합니다. 이 프로세스에는 일반적으로 다음이 포함됩니다.

  • 토큰화: 텍스트를 개별 단어 또는 토큰이라는 단위로 분해합니다. 이는 문장을 개별 단어로 구분하는 것과 같습니다.
  • 어간 추출: 'running'을 'run'과 같이 단어를 어근 형태로 줄입니다. 이렇게 하면 검색 시 동일한 단어의 변형이 하나의 용어로 취급됩니다.
  • 불용어 삭제: 검색에서 특별히 의미가 없는 'the', 'a', 'is'와 같은 일반적인 단어를 삭제합니다. 이렇게 하면 색인 크기를 줄이고 검색 속도를 높일 수 있습니다.
  • 색인 구축: 키워드를 문서 내 위치에 매핑하는 데이터 구조를 만듭니다. 이 색인은 로드맵과 같은 역할을 하여 검색엔진이 관련 문서를 빠르게 찾을 수 있도록 합니다.

색인 생성 프로세스는 전체 텍스트 검색 시스템의 성능에 매우 중요합니다. 잘 구성된 색인을 사용하면 방대한 데이터 세트 내에서도 관련 문서를 빠르고 효율적으로 검색할 수 있습니다.

검색

색인이 구축되면 검색 단계에서 사용자가 쿼리를 제출하고 관련 결과를 검색할 수 있습니다. 시스템은 검색어를 분석하고 색인을 사용하여 관련 키워드가 포함된 문서를 식별합니다.

검색 시 시스템은 키워드와 정확히 일치하는 검색어만 찾는 것이 아닙니다. 또한 다양한 기법을 사용하여 결과의 관련성을 개선할 수 있습니다. 예를 들어 문서 내 키워드의 근접도나 쿼리와 관련된 콘텐츠의 관련성을 고려할 수 있습니다.

전체 텍스트 검색 방법

전체 텍스트 검색에는 다양한 접근 방식이 있으며, 각 접근 방식은 고유한 기능을 갖추고 있어 다양한 니즈에 더 적합할 수 있습니다. 몇 가지 일반적인 방법은 다음과 같습니다.

기본 검색

이 간단한 검색 방법은 키워드의 순서나 근접도에 관계없이 문서 내 키워드를 일치시킵니다. 예를 들어 'cat'과 'dog'를 검색하면 두 단어 중 하나가 포함된 문서가 반환됩니다.

기본 검색은 간단하고 단순한 검색 시나리오에 적합하며 일반적으로 컴퓨팅 성능이 덜 필요할 수 있지만, 키워드가 일반적인 경우 특히 관련성 없는 결과가 많이 반환될 수 있습니다.

퍼지 검색

퍼지 검색은 철자, 오타와 같은 변형을 허용하는 보다 유연한 방법입니다. 단어 유사성과 같은 요소를 고려하며, 사용자가 'cat'과 'cats'와 같이 약간씩 다른 단어가 포함된 문서를 찾을 수 있도록 합니다.

사용자가 'programing' 팁에 대해 논의하는 포럼을 생각해 보세요. 'programming'을 표준 검색하면 이러한 유형의 오타 또는 맞춤법 오류로 인해 포럼 콘텐츠가 누락될 수 있습니다. 그러나 퍼지 검색은 'programing'을 유사 검색어로 인식하여 관련 콘텐츠가 검색 결과에 포함되도록 합니다.

근접 검색

근접 검색을 사용하면 사용자가 키워드 간의 근접도를 지정할 수 있습니다. 예를 들어 'cat NEAR dog'를 검색하면 'cat'과 'dog'라는 단어가 서로 가까이 나타나는 문서가 반환됩니다.

과거 데이터 및 콘텐츠의 보관 파일을 다루고 있다고 가정해 보겠습니다. 전체 텍스트 검색에서 근접 검색 방법을 사용하면 연구자가 특정 관계에 대한 문서를 더 빠르게 찾을 수 있도록 애플리케이션을 구성할 수 있습니다. 'Abraham Lincoln /3 Mary Todd'를 검색하면 'Abraham Lincoln'이 'Mary Todd'와 가까이 나타나는 문서가 우선적으로 표시됩니다. 이렇게 하면 각 개인을 언급하는 별도의 문서가 표시되는 대신 반환된 결과에 두 사람의 관계에 관한 정보가 포함될 가능성이 높아집니다.

이 방법은 검색어 간의 관계가 중요한 문서를 찾는 데 특히 유용합니다.

다음 단계 수행

$300의 무료 크레딧과 20여 개의 항상 무료 제품으로 Google Cloud에서 빌드하세요.

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
콘솔
Google Cloud