벡터 검색 소개

이 기능에 대한 의견을 제공하거나 지원을 요청하려면 bq-vector-search@google.com으로 이메일을 보내 주세요.

이 문서에서는 BigQuery의 벡터 검색에 대해 간략하게 설명합니다. 벡터 검색을 사용하면 임베딩을 검색하여 의미론적으로 유사한 항목을 식별할 수 있습니다.

임베딩은 텍스트 또는 오디오 파일의 일부와 같이 특정 항목을 나타내는 고차원의 숫자 벡터입니다. 머신러닝(ML) 모델은 임베딩을 사용하여 이러한 항목에 대한 시맨틱스를 인코딩함으로써 손쉽게 추론하고 비교할 수 있도록 합니다. 예를 들어 클러스터링, 분류, 추천 모델에서 일반적인 작업은 임베딩 공간에서 벡터 간 거리를 측정하여 의미론적으로 가장 유사한 항목을 찾는 것입니다.

벡터 검색을 수행하려면 VECTOR_SEARCH 함수와 선택적으로 벡터 색인을 사용합니다. 벡터 색인을 사용할 때 VECTOR_SEARCH최근접 이웃 검색 기법을 사용하여 벡터 검색 성능을 향상시키고 재현율을 줄여 더 나은 근사치의 결과를 반환합니다. 무작위 대입은 벡터 색인을 사용할 수 없을 때 정확한 결과를 반환하는 데 사용되며, 벡터 색인을 사용할 수 있는 경우에도 무작위 대입을 사용하여 정확한 결과를 얻을 수 있습니다.

가격 책정

CREATE VECTOR INDEXVECTOR_SEARCH 함수에는 BigQuery 컴퓨팅 가격 책정이 사용됩니다. CREATE VECTOR INDEX 문의 경우 색인이 생성된 열만 처리 바이트에서 고려됩니다.

조직에서 색인 생성된 테이블 데이터의 총 크기가 20TB 한도 미만인 경우 벡터 색인을 빌드하고 새로고침하는 데 필요한 처리에 요금이 청구되지 않습니다. 이 한도를 넘어서 색인 생성을 지원하려면 색인 관리 작업을 처리하기 위한 자체 예약을 제공해야 합니다. 벡터 색인이 활성 상태면 스토리지 비용이 발생합니다. 색인 스토리지 크기는 INFORMATION_SCHEMA.VECTOR_INDEXES에서 찾을 수 있습니다. 벡터 색인의 범위가 100%가 아니더라도 INFORMATION_SCHEMA.VECTOR_INDEXES 뷰에 보고된 모든 색인 스토리지에 대한 요금이 부과됩니다.

할당량 및 한도

자세한 내용은 벡터 색인 제한을 참조하세요.

제한사항

  • VECTOR_SEARCH 함수가 포함된 쿼리는 BigQuery BI Engine에 의해 가속화되지 않습니다.
  • BigQuery 데이터 보안 및 거버넌스 규칙은 VECTOR_SEARCH 사용에 적용됩니다. 자세한 내용은 VECTOR_SEARCH제한사항 섹션을 참조하세요. 이러한 규칙은 벡터 색인 생성에 적용되지 않습니다.

알려진 문제

예약 중인 프로젝트에서 실행된 일부 벡터 검색 쿼리에서는 벡터 색인을 사용할 수 없습니다. 수정이 제공될 때까지 이 문제에 대한 도움이 필요한 경우 bq-vector-search@google.com에 문의하세요.

다음 단계

  • 벡터 색인 만들기 자세히 알아보기
  • 벡터 검색으로 임베딩 검색 튜토리얼을 통해 벡터 색인을 만드는 방법을 알아본 후 색인이 있거나 없는 임베딩에 대해 벡터 검색을 수행하는 방법을 알아보세요.
  • 텍스트 임베딩 생성 및 사용 튜토리얼을 통해 다음 태스크를 수행하는 방법을 알아보세요.

    • 텍스트 임베딩을 생성합니다.
    • 임베딩에 벡터 색인을 만듭니다.
    • 유사한 텍스트를 검색하기 위해 임베딩과 함께 벡터 검색을 수행합니다.
    • 벡터 검색 결과를 사용하여 검색 증강 생성(RAG)을 수행하여 프롬프트 입력을 보강하고 결과를 개선합니다.