Panoramica delle API Embeddings

Gli incorporamenti sono rappresentazioni numeriche di testo, immagini o video che acquisiscono le relazioni tra gli input. I modelli di machine learning, in particolare i modelli di AI generativa, sono adatti per creare incorporamenti identificando pattern all'interno di set di dati di grandi dimensioni. Le applicazioni possono utilizzare gli incorporamenti per elaborare e produrre il linguaggio, riconoscendo significati complessi e relazioni semantiche specifiche per i tuoi contenuti. Interagisci con gli incorporamenti ogni volta che completi una Ricerca Google o vedi consigli per lo streaming di musica.

Gli incorporamenti funzionano convertendo testo, immagini e video in array di numeri in virgola mobile, chiamati vettori. Questi vettori sono studiati per acquisire il significato del testo, delle immagini e dei video. La lunghezza dell'array di incorporamento è chiamata dimensionalità del vettore. Ad esempio, un passaggio di testo potrebbe essere rappresentato da un vettore contenente centinaia di dimensioni. Quindi, calcolando la distanza numerica tra le rappresentazioni vettoriali di due parti di testo, un'applicazione può determinare la somiglianza tra gli oggetti.

Vertex AI supporta due tipi di modelli di incorporamenti: di testo e multimodali.

Casi d'uso degli incorporamenti di testo

Alcuni casi d'uso comuni per gli incorporamenti di testo includono:

  • Ricerca semantica: testo di ricerca classificato per somiglianza semantica.
  • Classificazione: restituisce la classe degli elementi i cui attributi di testo sono simili al testo specificato.
  • Cluster: elementi del cluster i cui attributi di testo sono simili al testo specificato.
  • Rilevamento outlier: restituisce gli elementi in cui gli attributi di testo sono meno correlati al testo specificato.
  • Interfaccia conversazionale: raggruppa gruppi di frasi che possono portare a risposte simili, ad esempio in uno spazio di incorporamento a livello di conversazione.

Esempio di caso d'uso: sviluppare un chatbot per i suggerimenti sui libri

Se vuoi sviluppare un chatbot per i suggerimenti di libri, la prima cosa da fare è utilizzare una rete neurale profonda (DNN) per convertire ogni libro in un vettore di incorporamento, dove un vettore di incorporamento rappresenta un libro. Puoi fornire come input della DNN solo il titolo del libro o solo il contenuto di testo. In alternativa, puoi utilizzare entrambi insieme, insieme a qualsiasi altro metadato che descriva il libro, come il genere.

Gli incorporamenti in questo esempio potrebbero essere costituiti da migliaia di titoli di libri con riassunti e il relativo genere e potrebbero avere rappresentazioni di libri come Wuthering Heights di Emily Brontë e Persuasion di Jane Austen che sono simili tra loro (a poca distanza tra la rappresentazione numerica). mentre la rappresentazione numerica del libro Il grande Gatsby di F. Scott Fitzgerald ci spostò oltre, perché periodo di tempo, genere e riassunto sono meno simili.

Gli input sono la principale influenza sull'orientamento dello spazio di incorporamento. Ad esempio, se avessimo inserito solo i titoli dei libri, due libri con titoli simili, ma riepiloghi molto diversi, potrebbero essere vicini. Tuttavia, se includiamo il titolo e il riassunto, gli stessi libri saranno meno simili (più in là) nello spazio di incorporamento.

Grazie all'utilizzo dell'AI generativa, questo chatbot per suggerimenti di libri potrebbe riassumere, suggerire e mostrarti libri che potrebbero piacerti (o non ti piacciono) in base alla tua query.

Casi d'uso degli incorporamenti multimodali

Alcuni casi d'uso comuni per gli incorporamenti multimodali includono:

  • Casi d'uso di immagini e testo:

    • Classificazione delle immagini: prende un'immagine come input e prevede una o più classi (etichette).
    • Ricerca immagini: cerca immagini pertinenti o simili.
    • Consigli: genera consigli su prodotti o annunci basati su immagini.
  • Casi d'uso di immagini, testo e video:

    • Consigli: genera consigli su prodotti o pubblicità in base ai video (ricerca di similitudine).
    • Ricerca di contenuti video
    • Utilizzando la ricerca semantica: prendi un testo come input e restituisci un insieme di frame classificati corrispondenti alla query.
    • Utilizzo della ricerca di similitudini:
      • Prendi un video come input e restituisci un insieme di video corrispondenti alla query.
      • Prendi un'immagine come input e restituisci un insieme di video corrispondenti alla query.
    • Classificazione video: prende un video come input e prevede una o più classi.

Caso d'uso di esempio: esperienza di vendita al dettaglio online

I retailer online stanno sfruttando sempre di più gli incorporamenti multimodali per migliorare la customer experience. Ogni volta che visualizzi consigli personalizzati sui prodotti mentre fai acquisti e ricevi risultati visivi da una ricerca testuale, stai interagendo con un incorporamento.

Se vuoi creare un incorporamento multimodale per un caso d'uso di vendita al dettaglio online, inizia elaborando ogni immagine prodotto per generare un incorporamento unico dell'immagine, che è una rappresentazione matematica dello stile visivo, della tavolozza dei colori, dei dettagli chiave e altro ancora. Converti contemporaneamente le descrizioni dei prodotti, le recensioni dei clienti e altri dati testuali pertinenti in incorporamenti di testo che ne acquisiscono il significato e il contesto semantico. Unendo questi incorporamenti di immagini e testo in un motore di ricerca e per suggerimenti unificato, il negozio può offrire consigli personalizzati di articoli visivamente simili in base alla cronologia di navigazione e alle preferenze del cliente. Inoltre, consente ai clienti di cercare prodotti utilizzando descrizioni in linguaggio naturale e il motore recupera e mostra gli elementi visivamente più simili che corrispondono alla query di ricerca. Ad esempio, se un cliente cerca "Abito estivo nero", il motore di ricerca può mostrare abiti neri, anche tagliati per abiti estivi, realizzati con materiale più chiaro e potenzialmente senza maniche. Questa potente combinazione di comprensione visiva e testuale crea un'esperienza di acquisto semplificata che migliora il coinvolgimento e la soddisfazione dei clienti e, in ultima analisi, può incrementare le vendite.

Passaggi successivi