임베딩은 입력 간의 관계를 캡처하는 텍스트, 이미지 또는 동영상의 수치적 표현입니다. 머신러닝 모델, 특히 생성형 AI 모델은 대규모 데이터 세트 내에서 패턴을 식별하여 임베딩을 생성하는 데 적합합니다. 애플리케이션은 임베딩을 사용하여 언어를 처리하고 생성하여 콘텐츠만의 특징적인 복잡한 의미와 의미 관계를 인식할 수 있습니다.
에어 갭이 적용된 Google Distributed Cloud (GDC)의 Vertex AI는 영어 및 다국어 텍스트 입력용 Text Embedding API를 지원합니다.
텍스트 임베딩은 텍스트를 벡터라고 하는 부동 소수점 숫자 배열로 변환하여 작동합니다. 이러한 벡터는 텍스트의 의미를 포착하도록 설계되었습니다. 임베딩 배열의 길이를 벡터의 차원이라고 합니다.
예를 들어, 텍스트 한 구절은 수백 개의 차원을 포함하는 벡터로 표현될 수 있습니다. 그런 다음, 두 텍스트의 벡터 표현 간 숫자 거리를 계산함으로써 애플리케이션은 객체 간의 유사성을 확인할 수 있습니다.
대화 인터페이스: 대화 수준의 임베딩 공간에서와 같이 비슷한 응답으로 이어질 수 있는 문장 그룹을 클러스터링합니다.
사용 사례 예시: 도서 추천 챗봇 개발
도서 추천 챗봇을 개발하려면 가장 먼저 해야 할 일이 심층신경망(DNN)을 통해 각 도서를 임베딩 벡터로 변환하는 것입니다. 여기서 임베딩 벡터 하나는 도서 한 권을 나타냅니다. 도서 제목이나 텍스트 콘텐츠를 DNN에 입력할 수 있습니다. 또는 장르와 같이 책을 설명하는 다른 메타데이터와 함께 사용할 수도 있습니다.
이 예의 임베딩에는 요약과 장르가 포함된 수천 개의 도서 제목이 포함될 수 있습니다. 에밀리 브론테의 폭풍의 언덕과 제인 오스틴의 설득과 같이 서로 유사한 책 (숫자 표현 간 거리가 작음)을 표현할 수 있습니다. 반면 F.스콧 피츠제럴드의 도서 개츠비에 대한 수치 표현은
시대, 장르, 줄거리가 덜 유사하기 때문에 더 거리가 멉니다.
입력은 임베딩 공간의 방향에 가장 큰 영향을 줍니다. 예를 들어 도서 제목 입력만 있는 경우 제목이 비슷하지만 줄거리가 매우 다른 두 도서는 서로 가까워질 수 있습니다. 하지만 제목과 줄거리를 포함하면 이러한 도서는 임베딩 공간에서 유사성이 떨어집니다 (더 멀리 떨어져 있음).
생성형 AI를 사용하면 이 도서 추천 챗봇이 쿼리를 기반으로 사용자가 좋아하거나 싫어할 만한 도서를 요약, 추천, 표시할 수 있습니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-09-04(UTC)"],[],[],null,["# Text embeddings overview\n\n| **Important:** This content applies to version 1.14.4 and later.\n\nEmbeddings are numerical representations of text, images, or videos that capture\nrelationships between inputs. Machine learning models, especially\nGenerative AI models, are suited for creating embeddings by identifying\npatterns within large datasets. Applications can use embeddings to process and\nproduce language, recognizing complex meanings and semantic relationships\nspecific to your content.\n\nVertex AI on Google Distributed Cloud (GDC) air-gapped supports\nText Embedding APIs for English and multilingual textual input.\nText Embedding works by converting text into arrays of floating-point\nnumbers called vectors. These vectors are designed to capture the meaning of the\ntext. The length of the embedding array is called the vector's dimensionality.\nFor example, one passage of text might be represented by a vector containing\nhundreds of dimensions. Then, by calculating the numerical distance between the\nvector representations of two pieces of text, an application can determine the\nsimilarity between the objects.\n| **Note:** Only text is supported as an input type for embeddings on GDC.\n\nFor a list of supported models, see\n[Embeddings models](/distributed-cloud/hosted/docs/latest/gdch/application/ao-user/genai/genai-models#embeddings-models).\n\nFor a list of supported multilingual languages, see\n[Supported text embedding languages](/distributed-cloud/hosted/docs/latest/gdch/application/ao-user/genai/supported-text-languages).\n\nText embeddings use cases\n-------------------------\n\nSome common use cases for text embeddings include:\n\n- **Semantic search**: Search text ranked by semantic similarity.\n- **Classification**: Return the class of items with attributes similar to the given text.\n- **Clustering**: Cluster items whose text attributes are similar to the given text.\n- **Outlier detection**: Return items where text attributes are least related to the given text.\n- **Conversational interface**: Cluster groups of sentences that can lead to similar responses, like in a conversation-level embedding space.\n\n### Example use case: Develop a book recommendation chatbot\n\nIf you want to develop a book recommendation chatbot, the first thing to do is\nto use a deep neural network (DNN) to convert each book into an embedding\nvector, where one embedding vector represents one book. You can feed the book\ntitle or text content as input to the DNN. Alternatively, you can use both of\nthese inputs together, along with any other metadata describing the book, such\nas the genre.\n\nThe embeddings in this example could include thousands of book titles with\nsummaries and their genre. It might have representations for books like\n*Wuthering Heights* by Emily Brontë and *Persuasion* by Jane Austen that are\nsimilar to each other (small distance between numerical representation). In\ncontrast, the numerical representation of the book *The Great Gatsby* by F.\nScott Fitzgerald would be further, as the time period, genre, and summary are\nless similar.\n\nThe inputs are the main influence on the orientation of the embedding space. For\nexample, if we only had book title inputs, then two books with similar titles\nbut very different summaries could be close together. However, if we include the\ntitle and summary, then these same books are less similar (further away) in the\nembedding space.\n\nWorking with Generative AI, this book-suggestion chatbot could summarize,\nsuggest, and show you books that you might like (or dislike) based on your\nquery.\n\nWhat's next\n-----------\n\n- Learn how to [get text embeddings](/distributed-cloud/hosted/docs/latest/gdch/application/ao-user/genai/get-text-embeddings)."]]