Ringkasan Embeddings API

Embedding adalah representasi numerik dari teks, gambar, atau video yang merekam hubungan antar-input. Model machine learning, terutama model AI generatif, cocok untuk membuat penyematan dengan mengidentifikasi pola dalam set data besar. Aplikasi dapat menggunakan penyematan untuk memproses dan menghasilkan bahasa, mengenali makna kompleks dan hubungan semantik khusus untuk konten Anda. Anda berinteraksi dengan penyematan setiap kali menyelesaikan Penelusuran Google atau melihat rekomendasi streaming musik.

Embedding berfungsi dengan mengonversi teks, gambar, dan video menjadi array bilangan floating point, yang disebut vektor. Vektor ini dirancang untuk menangkap makna teks, gambar, dan video. Panjang array penyematan disebut dimensi vektor. Misalnya, satu bagian teks mungkin direpresentasikan oleh vektor yang berisi ratusan dimensi. Kemudian, dengan menghitung jarak numerik antara representasi vektor dari dua bagian teks, aplikasi dapat menentukan kesamaan antara objek.

Vertex AI mendukung dua jenis model penyematan, teks dan multimodal.

Kasus penggunaan embedding teks

Beberapa kasus penggunaan umum untuk embedding teks adalah:

  • Penelusuran semantik: Penelusuran teks yang diberi peringkat berdasarkan kemiripan semantik.
  • Klasifikasi: Menampilkan class item yang atribut teksnya mirip dengan teks yang diberikan.
  • Pengelompokan: Mengelompokkan item yang atribut teksnya mirip dengan teks yang diberikan.
  • Deteksi Pencilan: Menampilkan item yang atribut teksnya paling tidak berkaitan dengan teks yang diberikan.
  • Antarmuka percakapan: Mengelompokkan grup kalimat yang dapat menyebabkan respons serupa, seperti dalam ruang sematan tingkat percakapan.

Contoh kasus penggunaan: Mengembangkan chatbot rekomendasi buku

Jika Anda ingin mengembangkan chatbot rekomendasi buku, hal pertama yang harus dilakukan adalah menggunakan deep neural network (DNN) untuk mengonversi setiap buku menjadi vektor embedding, dengan satu vektor embedding merepresentasikan satu buku. Sebagai input ke DNN, Anda dapat memasukkan hanya judul buku atau hanya konten teks. Atau, Anda dapat menggunakan keduanya secara bersamaan, beserta metadata lain yang mendeskripsikan buku, seperti genre.

Penyematan dalam contoh ini dapat terdiri dari ribuan judul buku dengan ringkasan dan genrenya, dan mungkin memiliki representasi untuk buku seperti Wuthering Heights oleh Emily Brontë dan Persuasion oleh Jane Austen yang mirip satu sama lain (jarak kecil antara representasi numerik). Sedangkan representasi numerik untuk buku The Great Gatsby karya F. Scott Fitzgerald akan lebih jauh, karena periode waktu, genre, dan ringkasannya kurang mirip.

Input merupakan pengaruh utama terhadap orientasi ruang sematan. Misalnya, jika kita hanya memiliki input berupa judul buku, dua buku dengan judul yang mirip, tetapi memiliki ringkasan yang sangat berbeda, bisa berdekatan. Namun, jika kita menyertakan judul dan ringkasan, kedua buku yang sama ini akan kurang serupa (lebih jauh jaraknya) dalam ruang penyematan.

Berkat AI generatif, chatbot pemberi saran buku ini dapat meringkas, menyarankan, dan menampilkan buku yang mungkin Anda sukai (atau tidak sukai), berdasarkan kueri Anda.

Kasus penggunaan embeddings multimodal

Beberapa kasus penggunaan umum untuk penyematan multi-modal mencakup:

  • Kasus penggunaan gambar dan teks:

    • Klasifikasi gambar: Mengambil gambar sebagai input dan memprediksi satu atau beberapa kelas (label).
    • Penelusuran gambar: Menelusuri gambar yang relevan atau mirip.
    • Rekomendasi: Membuat rekomendasi produk atau iklan berdasarkan gambar.
  • Kasus penggunaan gambar, teks, dan video:

    • Rekomendasi: Membuat rekomendasi produk atau iklan berdasarkan video (penelusuran kemiripan).
    • Penelusuran konten video
    • Menggunakan penelusuran semantik: Mengambil teks sebagai input, dan menampilkan kumpulan frame yang diberi peringkat yang cocok dengan kueri.
    • Menggunakan penelusuran kesamaan:
      • Ambil video sebagai input, dan tampilkan kumpulan video yang cocok dengan kueri.
      • Ambil gambar sebagai input, dan tampilkan kumpulan video yang cocok dengan kueri.
    • Klasifikasi video: Mengambil video sebagai input dan memprediksi satu atau beberapa class.

Contoh kasus penggunaan: Pengalaman retail online

Retailer online semakin memanfaatkan penyematan multimodal untuk meningkatkan pengalaman pelanggan. Setiap kali Anda melihat rekomendasi produk yang dipersonalisasi saat berbelanja, dan mendapatkan hasil visual dari penelusuran teks, Anda berinteraksi dengan penyematan.

Jika Anda ingin membuat penyematan multimodal untuk kasus penggunaan retail online, mulailah dengan memproses setiap gambar produk untuk menghasilkan penyematan gambar yang unik, yang merupakan representasi matematika dari gaya visual, palet warna, detail utama, dan lainnya. Secara bersamaan, konversikan deskripsi produk, ulasan pelanggan, dan data tekstual relevan lainnya menjadi penyematan teks yang menangkap makna dan konteks semantiknya. Dengan menggabungkan penyematan gambar dan teks ini ke dalam mesin penelusuran dan rekomendasi terpadu, toko dapat menawarkan rekomendasi item yang mirip secara visual yang dipersonalisasi berdasarkan histori penjelajahan dan preferensi pelanggan. Selain itu, fitur ini memungkinkan pelanggan menelusuri produk menggunakan deskripsi natural language, dengan mesin mengambil dan menampilkan item yang paling mirip secara visual yang cocok dengan kueri penelusuran mereka. Misalnya, jika pelanggan menelusuri "Gaun musim panas hitam", mesin telusur dapat menampilkan gaun yang berwarna hitam, dan juga dalam potongan gaun musim panas, yang terbuat dari bahan yang lebih ringan, dan mungkin tanpa lengan. Kombinasi pemahaman visual dan tekstual yang efektif ini menciptakan pengalaman belanja yang disederhanakan yang meningkatkan engagement dan kepuasan pelanggan, dan pada akhirnya dapat mendorong penjualan.

Langkah selanjutnya