임베딩은 입력 간의 관계를 캡처하는 텍스트, 이미지 또는 동영상의 수치적 표현입니다. 머신러닝 모델, 특히 생성형 AI 모델은 대규모 데이터 세트 내에서 패턴을 식별하여 임베딩을 생성하는 데 적합합니다. 애플리케이션은 임베딩을 사용하여 언어를 처리하고 생성하여 콘텐츠만의 특징적인 복잡한 의미와 의미 관계를 인식할 수 있습니다. 사용자는 Google 검색을 완료하거나 음악 스트리밍 추천을 볼 때마다 임베딩과 상호 작용합니다.
임베딩이 작동하는 방식은, 텍스트, 이미지, 동영상을 벡터라고 하는 부동 소수점 숫자 배열로 변환하는 것입니다. 이러한 벡터는 텍스트, 이미지 및 동영상의 의미를 포착하도록 설계되었습니다. 임베딩 배열의 길이를 벡터의 차원이라고 합니다. 예를 들어, 텍스트 한 구절은 수백 개의 차원을 포함하는 벡터로 표현될 수 있습니다. 그런 다음, 두 텍스트의 벡터 표현 간 숫자 거리를 계산함으로써 애플리케이션은 객체 간의 유사성을 확인할 수 있습니다.
Vertex AI는 텍스트와 멀티모달이라는 두 가지 임베딩 모델을 지원합니다.
텍스트 임베딩 사용 사례
텍스트 임베딩의 몇 가지 일반적인 사용 사례는 다음과 같습니다.
시맨틱 검색: 의미론적 유사성에 따라 순위가 지정된 텍스트를 검색합니다.
분류: 해당 텍스트 속성이 지정된 텍스트와 유사한 항목의 클래스를 반환합니다.
클러스터링: 해당 텍스트 속성이 지정된 텍스트와 유사한 항목을 클러스터링합니다.
이상치 감지: 해당 텍스트 속성이 지정된 텍스트와 가장 관련이 없는 항목을 반환합니다.
대화 인터페이스: 대화 수준의 임베딩 공간에서와 같이 비슷한 응답으로 이어질 수 있는 문장 그룹을 클러스터링합니다.
사용 사례 예시: 도서 추천 챗봇 개발
도서 추천 챗봇을 개발하려면 가장 먼저 해야 할 일이 심층신경망(DNN)을 통해 각 도서를 임베딩 벡터로 변환하는 것입니다. 여기서 임베딩 벡터 하나는 도서 한 권을 나타냅니다. 도서 제목이나 텍스트 콘텐츠만 DNN에 입력할 수 있습니다. 또는 장르와 같이 책을 설명하는 다른 메타데이터와 함께 사용할 수도 있습니다.
이 예시의 임베딩은 줄거리와 장르가 있는 수천 개의 도서 제목으로 구성될 수 있으며, 에밀리 브론테의 폭풍의 언덕 및 제인 오스틴의 설득과 같이 서로 유사한(수치 표현 간의 거리가 가까운) 도서에 대한 표현이 있을 수 있습니다. 반면 F.스콧 피츠제럴드의 도서 개츠비에 대한 수치 표현은 시대, 장르, 줄거리가 덜 유사하기 때문에 더 거리가 멉니다.
입력은 임베딩 공간의 방향에 가장 큰 영향을 줍니다. 예를 들어 도서 제목 입력만 있는 경우 제목이 비슷하지만 줄거리가 매우 다른 두 도서는 서로 가까워질 수 있습니다. 하지만 제목과 줄거리를 포함하면 이러한 도서는 임베딩 공간에서 유사성이 떨어집니다(더 멀리 떨어져 있음).
생성형 AI를 사용하면 이 도서 추천 챗봇이 쿼리를 기반으로 사용자가 좋아하거나 싫어할 만한 도서를 요약, 추천, 표시할 수 있습니다.
멀티모달 임베딩 사용 사례
멀티모달 임베딩의 일반적인 사용 사례에는 다음과 같은 경우가 있습니다.
이미지 및 텍스트 사용 사례:
이미지 분류: 이미지를 입력으로 받고 하나 이상의 클래스(라벨)를 예측합니다.
이미지 검색: 관련되었거나 유사한 이미지를 검색합니다.
권장사항: 이미지를 기반으로 제품 또는 광고 권장사항을 생성합니다.
이미지, 텍스트, 동영상 사용 사례:
권장사항: 동영상을 기반으로 제품 또는 광고 권장사항을 생성합니다(유사성 검색).
동영상 콘텐츠 검색
시맨틱 검색 사용: 텍스트를 입력으로 받고 쿼리와 일치하는 순위가 지정된 프레임 세트를 반환합니다.
유사성 검색 사용:
동영상을 입력으로 받고 쿼리와 일치하는 동영상 세트를 반환합니다.
이미지를 입력으로 받고 쿼리와 일치하는 동영상 세트를 반환합니다.
동영상 분류: 동영상을 입력으로 받고 하나 이상의 클래스를 예측합니다.
사용 사례 예시: 온라인 소매 환경
온라인 소매업체들은 고객 경험을 개선하기 위해 멀티모달 임베딩을 점점 더 많이 활용하고 있습니다. 쇼핑하는 동안 맞춤형 제품 추천을 보고 텍스트 검색에서 시각적 결과를 얻을 때마다 임베딩과 상호 작용하는 것으로 보시면 됩니다.
온라인 소매업 사용 사례를 위한 멀티모달 임베딩을 만들려면 먼저 각 제품 이미지를 처리하여 시각적 스타일, 색상 팔레트, 주요 세부 사항 등을 수학적으로 표현한 고유한 이미지 임베딩을 생성하세요. 동시에 제품 설명, 고객 리뷰, 기타 관련 텍스트 데이터를 의미론적 의미와 맥락을 파악할 수 있는 텍스트 임베딩으로 변환합니다. 스토어는 이러한 이미지 및 텍스트 임베딩을 통합 검색 및 추천 엔진에 병합하여 고객의 방문 기록과 선호도에 따라 시각적으로 유사한 품목을 맞춤형 추천으로 제공할 수 있습니다. 또한 고객은 자연어 설명을 사용하여 제품을 검색할 수 있는데, 검색 엔진이 검색어와 가장 시각적으로 유사한 항목을 검색하여 표시합니다. 예를 들어 고객이 '검은색 여름 드레스'를 검색하면 검색 엔진은 검은색이면서 더 가벼운 소재가 사용되었으며 소매가 없을 수 있는 여름 드레스 컷의 드레스를 표시할 수 있습니다. 시각적 이해와 텍스트 이해의 강력한 조합은 고객 참여와 만족도를 높이고 간소화된 쇼핑 경험을 제공하게 되어 궁극적으로 판매를 촉진하게 됩니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[],[],null,["# Embeddings APIs overview\n\nEmbeddings are numerical representations of text, images, or videos that capture\nrelationships between inputs. Machine learning models, especially generative\nAI models, are suited for creating embeddings by identifying patterns within\nlarge datasets. Applications can use embeddings to process and produce\nlanguage, recognizing complex meanings and semantic relationships specific to\nyour content. You interact with embeddings every time you complete a\nGoogle Search or see music streaming recommendations.\n\nEmbeddings work by converting text, image, and video into arrays of floating\npoint numbers, called vectors. These vectors are designed to capture the meaning\nof the text, images, and videos. The length of the embedding array is called the\nvector's dimensionality. For example, one passage of text might be represented\nby a vector containing hundreds of dimensions. Then, by calculating the\nnumerical distance between the vector representations of two pieces of text, an\napplication can determine the similarity between the objects.\n\nVertex AI supports two types of embeddings models, text and multimodal.\n\nText embeddings use cases\n-------------------------\n\nSome common use cases for text embeddings include:\n\n- **Semantic search**: Search text ranked by semantic similarity.\n- **Classification**: Return the class of items whose text attributes are similar to the given text.\n- **Clustering**: Cluster items whose text attributes are similar to the given text.\n- **Outlier Detection**: Return items where text attributes are least related to the given text.\n- **Conversational interface**: Clusters groups of sentences which can lead to similar responses, like in a conversation-level embedding space.\n\n### Example use case: Develop a book recommendation chatbot\n\nIf you want to develop a book recommendation chatbot, the first thing to do is\nto use a deep neural network (DNN) to convert each book into an embedding\nvector, where one embedding vector represents one book. You can feed, as input\nto the DNN, just the book title or just the text content. Or you can use both of\nthese together, along with any other metadata describing the book, such as the\ngenre.\n\nThe embeddings in this example could be comprised of thousands of book titles\nwith summaries and their genre, and it might have representations for books like\n*Wuthering Heights* by Emily Brontë and *Persuasion* by Jane Austen that are\nsimilar to each other (small distance between numerical representation). Whereas\nthe numerical representation for the book *The Great Gatsby* by F. Scott\nFitzgerald would be further, as the time period, genre, and summary is less\nsimilar.\n\nThe inputs are the main influence to the orientation of the embedding space. For\nexample, if we only had book title inputs, then two books with similar titles,\nbut very different summaries, could be close together. However, if we include\nthe title and summary, then these same books are less similar (further away) in\nthe embedding space.\n\nWorking with generative AI, this book-suggestion chatbot could summarize,\nsuggest, and show you books which you might like (or dislike), based on your\nquery.\n\nMultimodal embeddings use cases\n-------------------------------\n\nSome common use cases for multimodal embeddings include:\n\n- Image and text use cases:\n\n - **Image classification**: Takes an image as input and predicts one or more classes (labels).\n - **Image search**: Search relevant or similar images.\n - **Recommendations**: Generate product or ad recommendations based on images.\n- Image, text, and video use cases:\n\n - **Recommendations**: Generate product or advertisement recommendations based on videos (similarity search).\n - **Video content search**\n - **Using semantic search**: Take a text as an input, and return a set of ranked frames matching the query.\n - **Using similarity search** :\n - Take a video as an input, and return a set of videos matching the query.\n - Take an image as an input, and return a set of videos matching the query.\n - **Video classification**: Takes a video as input and predicts one or more classes.\n\n### Example use case: Online retail experience\n\nOnline retailers are increasingly leveraging multimodal embeddings to enhance\ncustomer experience. Every time you see personalized product recommendations\nwhile shopping, and get visual results from a text search, you are interacting\nwith an embedding.\n\nIf you want to create a multimodal embedding for an online retail use case,\nstart by processing each product image to generate a unique image embedding,\nwhich is a mathematical representation of its visual style, color palette, key\ndetails, and more. Simultaneously, convert product descriptions, customer\nreviews, and other relevant textual data into text embeddings that capture their\nsemantic meaning and context. By merging these image and text embeddings into a\nunified search and recommendation engine, the store can offer personalized\nrecommendations of visually similar items based on a customer's browsing history\nand preferences. Additionally, it enables customers to search for products using\nnatural language descriptions, with the engine retrieving and displaying the\nmost visually similar items that match their search query. For example, if a\ncustomer searches \"Black summer dress\", the search engine can display dresses\nwhich are black, and also are in summer dress cuts, made out of lighter\nmaterial, and might be sleeveless. This powerful combination of visual and\ntextual understanding creates a streamlined shopping experience that enhances\ncustomer engagement, satisfaction, and ultimately can drive sales.\n\nWhat's next\n-----------\n\n- To learn more about embeddings, see [Meet AI's multitool: Vector embeddings](https://cloud.google.com/blog/topics/developers-practitioners/meet-ais-multitool-vector-embeddings).\n- To take a foundational ML crash course on embeddings, see [Embeddings](https://developers.google.com/machine-learning/crash-course/embeddings/video-lecture).\n- To learn more about how to store vector embeddings in a database, see the [Discover](/discover/what-is-a-vector-database) page and the [Overview of Vector Search](/vertex-ai/docs/vector-search/overview).\n- To learn about responsible AI best practices and Vertex AI's safety filters, see [Responsible AI](/vertex-ai/generative-ai/docs/learn/responsible-ai).\n- To learn how to get embeddings, see the following documents:\n - [Get text embeddings](/vertex-ai/generative-ai/docs/embeddings/get-text-embeddings)\n - [Get multimodal embeddings](/vertex-ai/generative-ai/docs/embeddings/get-multimodal-embeddings)"]]