Embeddings API 개요

임베딩은 입력 간의 관계를 캡처하는 텍스트, 이미지 또는 동영상의 수치적 표현입니다. 머신러닝 모델, 특히 생성형 AI 모델은 대규모 데이터 세트 내에서 패턴을 식별하여 임베딩을 생성하는 데 적합합니다. 애플리케이션은 임베딩을 사용하여 언어를 처리하고 생성하여 콘텐츠만의 특징적인 복잡한 의미와 의미 관계를 인식할 수 있습니다. 사용자는 Google 검색을 완료하거나 음악 스트리밍 추천을 볼 때마다 임베딩과 상호 작용합니다.

임베딩이 작동하는 방식은, 텍스트, 이미지, 동영상을 벡터라고 하는 부동 소수점 숫자 배열로 변환하는 것입니다. 이러한 벡터는 텍스트, 이미지 및 동영상의 의미를 포착하도록 설계되었습니다. 임베딩 배열의 길이를 벡터의 차원이라고 합니다. 예를 들어, 텍스트 한 구절은 수백 개의 차원을 포함하는 벡터로 표현될 수 있습니다. 그런 다음, 두 텍스트의 벡터 표현 간 숫자 거리를 계산함으로써 애플리케이션은 객체 간의 유사성을 확인할 수 있습니다.

Vertex AI는 텍스트와 멀티모달이라는 두 가지 임베딩 모델을 지원합니다.

텍스트 임베딩 사용 사례

텍스트 임베딩의 몇 가지 일반적인 사용 사례는 다음과 같습니다.

  • 시맨틱 검색: 의미론적 유사성에 따라 순위가 지정된 텍스트를 검색합니다.
  • 분류: 해당 텍스트 속성이 지정된 텍스트와 유사한 항목의 클래스를 반환합니다.
  • 클러스터링: 해당 텍스트 속성이 지정된 텍스트와 유사한 항목을 클러스터링합니다.
  • 이상치 감지: 해당 텍스트 속성이 지정된 텍스트와 가장 관련이 없는 항목을 반환합니다.
  • 대화 인터페이스: 대화 수준의 임베딩 공간에서와 같이 비슷한 응답으로 이어질 수 있는 문장 그룹을 클러스터링합니다.

사용 사례 예시: 도서 추천 챗봇 개발

도서 추천 챗봇을 개발하려면 가장 먼저 해야 할 일이 심층신경망(DNN)을 통해 각 도서를 임베딩 벡터로 변환하는 것입니다. 여기서 임베딩 벡터 하나는 도서 한 권을 나타냅니다. 도서 제목이나 텍스트 콘텐츠만 DNN에 입력할 수 있습니다. 또는 장르와 같이 책을 설명하는 다른 메타데이터와 함께 사용할 수도 있습니다.

이 예시의 임베딩은 줄거리와 장르가 있는 수천 개의 도서 제목으로 구성될 수 있으며, 에밀리 브론테의 폭풍의 언덕 및 제인 오스틴의 설득과 같이 서로 유사한(수치 표현 간의 거리가 가까운) 도서에 대한 표현이 있을 수 있습니다. 반면 F.스콧 피츠제럴드의 도서 개츠비에 대한 수치 표현은 시대, 장르, 줄거리가 덜 유사하기 때문에 더 거리가 멉니다.

입력은 임베딩 공간의 방향에 가장 큰 영향을 줍니다. 예를 들어 도서 제목 입력만 있는 경우 제목이 비슷하지만 줄거리가 매우 다른 두 도서는 서로 가까워질 수 있습니다. 하지만 제목과 줄거리를 포함하면 이러한 도서는 임베딩 공간에서 유사성이 떨어집니다(더 멀리 떨어져 있음).

생성형 AI를 사용하면 이 도서 추천 챗봇이 쿼리를 기반으로 사용자가 좋아하거나 싫어할 만한 도서를 요약, 추천, 표시할 수 있습니다.

멀티모달 임베딩 사용 사례

멀티모달 임베딩의 일반적인 사용 사례에는 다음과 같은 경우가 있습니다.

  • 이미지 및 텍스트 사용 사례:

    • 이미지 분류: 이미지를 입력으로 받고 하나 이상의 클래스(라벨)를 예측합니다.
    • 이미지 검색: 관련되었거나 유사한 이미지를 검색합니다.
    • 권장사항: 이미지를 기반으로 제품 또는 광고 권장사항을 생성합니다.
  • 이미지, 텍스트, 동영상 사용 사례:

    • 권장사항: 동영상을 기반으로 제품 또는 광고 권장사항을 생성합니다(유사성 검색).
    • 동영상 콘텐츠 검색
    • 시맨틱 검색 사용: 텍스트를 입력으로 받고 쿼리와 일치하는 순위가 지정된 프레임 세트를 반환합니다.
    • 유사성 검색 사용:
      • 동영상을 입력으로 받고 쿼리와 일치하는 동영상 세트를 반환합니다.
      • 이미지를 입력으로 받고 쿼리와 일치하는 동영상 세트를 반환합니다.
    • 동영상 분류: 동영상을 입력으로 받고 하나 이상의 클래스를 예측합니다.

사용 사례 예시: 온라인 소매 환경

온라인 소매업체들은 고객 경험을 개선하기 위해 멀티모달 임베딩을 점점 더 많이 활용하고 있습니다. 쇼핑하는 동안 맞춤형 제품 추천을 보고 텍스트 검색에서 시각적 결과를 얻을 때마다 임베딩과 상호 작용하는 것으로 보시면 됩니다.

온라인 소매업 사용 사례를 위한 멀티모달 임베딩을 만들려면 먼저 각 제품 이미지를 처리하여 시각적 스타일, 색상 팔레트, 주요 세부 사항 등을 수학적으로 표현한 고유한 이미지 임베딩을 생성하세요. 동시에 제품 설명, 고객 리뷰, 기타 관련 텍스트 데이터를 의미론적 의미와 맥락을 파악할 수 있는 텍스트 임베딩으로 변환합니다. 스토어는 이러한 이미지 및 텍스트 임베딩을 통합 검색 및 추천 엔진에 병합하여 고객의 방문 기록과 선호도에 따라 시각적으로 유사한 품목을 맞춤형 추천으로 제공할 수 있습니다. 또한 고객은 자연어 설명을 사용하여 제품을 검색할 수 있는데, 검색 엔진이 검색어와 가장 시각적으로 유사한 항목을 검색하여 표시합니다. 예를 들어 고객이 '검은색 여름 드레스'를 검색하면 검색 엔진은 검은색이면서 더 가벼운 소재가 사용되었으며 소매가 없을 수 있는 여름 드레스 컷의 드레스를 표시할 수 있습니다. 시각적 이해와 텍스트 이해의 강력한 조합은 고객 참여와 만족도를 높이고 간소화된 쇼핑 경험을 제공하게 되어 궁극적으로 판매를 촉진하게 됩니다.

다음 단계