Einbettungs-APIs – Übersicht

Einbettungen sind numerische Darstellungen von Text, Bildern oder Videos, die Beziehungen zwischen Eingaben aufnehmen. Modelle für maschinelles Lernen, insbesondere generative KI-Modelle, eignen sich zum Erstellen von Einbettungen, indem Muster in großen Datasets identifiziert werden. Anwendungen können mithilfe von Einbettungen Sprache verarbeiten und erzeugen und so komplexe Bedeutungen und semantische Beziehungen erkennen, die für Ihre Inhalte spezifisch sind. Sie interagieren mit den Einbettungen jedes Mal, wenn Sie eine Google Suche abschließen oder Empfehlungen für Musikstreaming sehen.

Bei Einbettungen werden Text, Bilder und Videos in Arrays von Gleitkommazahlen umgewandelt, die als Vektoren bezeichnet werden. Diese Vektoren sind so konzipiert, dass die Bedeutung des Texts, der Bilder und der Videos erfasst wird. Die Länge des Einbettungsarrays wird als Dimensionalität des Vektors bezeichnet. Beispielsweise könnte ein Textdurchgang durch einen Vektor mit Hunderten von Dimensionen dargestellt werden. Anschließend kann eine Anwendung die Ähnlichkeit zwischen den Objekten ermitteln, indem sie die numerische Entfernung zwischen den Vektordarstellungen zweier Textelemente berechnet.

Vertex AI unterstützt zwei Arten von Einbettungsmodellen: Text und multimodal.

Anwendungsfälle für Texteinbettungen

Typische Anwendungsfälle für Texteinbettungen sind:

  • Semantische Suche: Suchtext, geordnet nach der semantischen Ähnlichkeit.
  • Klassifizierung: Gibt die Klasse von Elementen zurück, deren Textattribute dem angegebenen Text ähneln.
  • Clustering: Clusterelemente, deren Textattribute dem angegebenen Text ähneln.
  • Ausreißererkennung: Gibt Elemente zurück, bei denen Textattribute am wenigsten mit dem angegebenen Text zusammenhängen.
  • Unterhaltungsschnittstelle: Gruppiert Gruppen von Sätzen, die zu ähnlichen Antworten führen können, z. B. in einem Einbettungsbereich auf Unterhaltungsebene.

Beispielanwendungsfall: Chatbot für Buchempfehlungen entwickeln

Wenn Sie einen Chatbot für Buchempfehlungen entwickeln möchten, müssen Sie zuerst ein neuronales Deep-Learning-Netzwerk (DNN) verwenden, um die einzelnen Bücher in Einbettungsvektoren umzuwandeln, wobei ein Einbettungsvektor ein Buch darstellt. Sie können als Eingabe für den DNN nur den Buchtitel oder nur den Textinhalt einspeisen. Oder Sie verwenden beide zusammen mit anderen Metadaten, die das Buch beschreiben, z. B. das Genre.

Die Einbettungen in diesem Beispiel könnten aus Tausenden von Buchtiteln mit Zusammenfassungen und ihrem Genre bestehen und möglicherweise Darstellungen für Bücher wie diese haben. Sturmhöhe von Emily Brontë und Anne Elliot von Jane Austen, die sich gegenseitig ähneln (kleine Entfernung zwischen numerischer Darstellung). Die numerische Darstellung für das Buch Der große Gatsby von F. Scott Fitzgerald wäre weniger nah, da Zeitraum, Genre und Zusammenfassung weniger ähnlich sind.

Die Eingaben stellen den wichtigsten Einfluss auf die Ausrichtung des Einbettungsbereichs dar. Wenn wir beispielsweise nur für Buchtitel eingegeben haben, könnten zwei Bücher mit ähnlichen Titeln, aber sehr unterschiedlichen Zusammenfassungen nahe beieinander liegen. Wenn wir jedoch den Titel und die Zusammenfassung einschließen, sind diese Bücher im Einbettungsbereich weniger ähnlich (weiter weg).

Wenn dieser Chatbot mit Generative AI arbeitet, kann er anhand Ihrer Abfrage Bücher zusammenfassen, vorschlagen und Ihnen Bücher anzeigen, die Ihnen gefallen oder nicht gefallen könnten.

Anwendungsfälle für multimodale Einbettungen

Typische Anwendungsfälle für multimodale Einbettungen:

  • Bild- und Textanwendungsfälle:

    • Bildklassifizierung: Nimmt ein Bild als Eingabe und sagt eine oder mehrere Klassen (Labels) vorher.
    • Bildersuche: Nach relevanten oder ähnlichen Bildern suchen.
    • Empfehlungen: Generiert Produkt- oder Anzeigenempfehlungen auf Basis von Bildern.
  • Anwendungsfälle für Bilder, Text und Videos:

    • Empfehlungen: Produkt- oder Werbeempfehlungen auf Basis von Videos generieren (Ähnlichkeitssuche).
    • Suche nach Videoinhalten
    • Semantische Suche verwenden: Nimmt einen Text als Eingabe und gibt eine Reihe von eingestuften Frames zurück, die mit der Abfrage übereinstimmen.
    • Ähnlichkeitssuche verwenden:
      • Nehmen Sie ein Video als Eingabe und geben Sie eine Reihe von Videos zurück, die der Abfrage entsprechen.
      • Nehmen Sie ein Bild als Eingabe und geben Sie eine Reihe von Videos zurück, die der Abfrage entsprechen.
    • Videoklassifizierung: Nimmt ein Video als Eingabe und sagt eine oder mehrere Klassen vorher.

Anwendungsbeispiel: Online-Einzelhandel

Onlinehändler nutzen zunehmend multimodale Einbettungen, um das Kundenerlebnis zu verbessern. Jedes Mal, wenn Sie beim Einkauf personalisierte Produktempfehlungen sehen und visuelle Ergebnisse aus einer Textsuche erhalten, interagieren Sie mit einer Einbettung.

Wenn Sie eine multimodale Einbettung für einen Online-Einzelhandelsanwendungsfall erstellen möchten, verarbeiten Sie zuerst jedes Produktbild, um eine eindeutige Bildeinbettung zu erstellen. Dabei handelt es sich um eine mathematische Darstellung des visuellen Stils, der Farbpalette und Schlüsseldetails und mehr. Sie können gleichzeitig Produktbeschreibungen, Kundenrezensionen und andere relevante Textdaten in Texteinbettungen umwandeln, die ihre semantische Bedeutung und ihren Kontext erfassen Durch das Zusammenführen dieser Bild- und Texteinbettungen in einem einheitlichen Such- und Empfehlungssystem kann der Speicher personalisierte Empfehlungen für visuell ähnliche Artikel basierend auf dem Browserverlauf und den Einstellungen eines Kunden anbieten. Außerdem können Kunden damit über Beschreibungen in natürlicher Sprache nach Produkten suchen, wobei die Suchmaschine die Produkte abruft und darstellt, die der Suchanfrage visuell am ähnlichsten sind. Wenn ein Kunde zum Beispiel nach "Schwarzes Sommerkleid" sucht, kann die Suchmaschine Kleider anzeigen lassen, die schwarz sind und auch Damenkleider mit sommerlichen ärmellosen Schnitten aus leichterem Material. Diese leistungsstarke Kombination aus visuellem und Textverständnis sorgt für ein optimiertes Einkaufserlebnis, das die Kundeninteraktion und -zufriedenheit fördert und letztendlich den Umsatz steigern kann.

Nächste Schritte