AI multimodal

Membuat teks, kode, video, audio, dan gambar dari hampir semua jenis konten

Model multimodal dapat memproses berbagai input, termasuk teks, gambar, dan audio, sebagai prompt dan mengonversi prompt tersebut menjadi berbagai output, bukan hanya jenis sumber.

Pelanggan baru mendapatkan kredit gratis senilai hingga $300 untuk mencoba model multimodal di Vertex AI dan produk Google Cloud lainnya.

Ringkasan

Apa contoh AI multimodal?

Model multimodal adalah model ML (machine learning) yang mampu memproses informasi dari berbagai modalitas, termasuk gambar, video, dan teks. Misalnya, model multimodal Google, Gemini, dapat menerima foto sepiring kue dan menghasilkan resep tertulis sebagai respons, dan sebaliknya.

Apa perbedaan antara AI generatif dan AI multimodal?

AI Generatif adalah istilah umum penggunaan model ML untuk membuat konten baru, seperti teks, gambar, musik, audio, dan video yang biasanya berasal dari prompt satu jenis. AI multimodal memperluas kemampuan generatif ini, dengan memproses informasi dari berbagai modalitas, termasuk gambar, video, dan teks. Multimodalitas dapat dianggap sebagai kemampuan AI untuk memproses dan memahami berbagai mode sensoris. Secara praktis, hal ini berarti pengguna tidak terbatas pada satu input dan satu jenis output serta dapat meminta prompt model dengan hampir semua input untuk menghasilkan hampir semua jenis konten.

AI apa yang dapat menggunakan gambar sebagai prompt?

Gemini adalah model multimodal dari tim di Google DeepMind yang dapat di-prompt dengan tidak hanya gambar, tetapi juga teks, kode, dan video. Gemini dirancang dari awal agar dapat berpikir dengan lancar menggunakan teks, gambar, video, audio, dan kode. Gemini di Vertex AI bahkan dapat menggunakan prompt untuk mengekstrak teks dari gambar, mengonversi teks gambar ke JSON, dan menghasilkan jawaban tentang gambar yang diupload.

Bagaimana masa depan AI multimodal dan mengapa hal ini penting?

AI multimodal dan model multimodal mewakili lompatan maju dalam cara developer membangun dan memperluas fungsi AI di aplikasi generasi berikutnya. Misalnya, Gemini dapat memahami, menjelaskan, dan menghasilkan kode berkualitas tinggi dalam bahasa pemrograman paling populer di dunia, seperti Python, Java, C++, dan Go—sehingga membebaskan developer untuk bekerja membangun lebih banyak aplikasi yang berisi fitur. Potensi AI multimodal juga membawa dunia lebih dekat dengan AI, yang tidak seperti software cerdas dan lebih seperti asisten atau asisten ahli.

Apa manfaat model multimodal dan AI multimodal?

Manfaat AI multimodal adalah menawarkan AI dengan kemampuan penalaran, pemecahan masalah, dan pembuatan yang lebih canggih kepada developer dan pengguna. Kemajuan ini menawarkan kemungkinan tak terbatas tentang bagaimana aplikasi generasi berikutnya dapat mengubah cara kita bekerja dan hidup. Bagi developer yang ingin mulai membangun solusi, Vertex AI Gemini API menawarkan berbagai fitur seperti keamanan perusahaan, residensi data, performa, dan dukungan teknis. Pelanggan Google Cloud lama dapat mulai meminta prompt dengan Gemini di Vertex AI saat ini.

Cara Kerjanya

Model multimodal mampu memahami dan memproses hampir semua input, menggabungkan berbagai jenis informasi, dan menghasilkan hampir semua output. Misalnya, menggunakan Vertex AI dengan Gemini, pengguna dapat meminta prompt dengan teks, gambar, video, atau kode untuk menghasilkan berbagai jenis konten daripada yang sebelumnya dimasukkan.

Prompt multimodal yang mengubah gambar kue menjadi resep berupa teks

Penggunaan Umum

Mencoba prompt multimodal

Minta prompt Gemini dengan teks, gambar, dan video

Uji model Gemini menggunakan natural language, kode, atau gambar. Coba contoh prompt untuk mengekstrak teks dari gambar, mengonversi teks gambar menjadi JSON, dan bahkan membuat jawaban tentang gambar yang diupload untuk membangun aplikasi AI generasi berikutnya.

Prompt di konsol
UI prompt Vertex AI untuk model multimodal

Minta prompt Gemini dengan teks, gambar, dan video

Uji model Gemini menggunakan natural language, kode, atau gambar. Coba contoh prompt untuk mengekstrak teks dari gambar, mengonversi teks gambar menjadi JSON, dan bahkan membuat jawaban tentang gambar yang diupload untuk membangun aplikasi AI generasi berikutnya.

Prompt di konsol
UI prompt Vertex AI untuk model multimodal

Menggunakan model multimodal

Memulai Gemini, model multimodal Google

Dapatkan ringkasan tentang penggunaan model multimodal di Google Cloud, kekuatan dan batasan Gemini, info perintah dan permintaan, serta jumlah token.

Lihat dokumentasi
Coba Gemini API, referensi Vertex AI Gemini API, dan Desain prompt multimodal

Memulai Gemini, model multimodal Google

Dapatkan ringkasan tentang penggunaan model multimodal di Google Cloud, kekuatan dan batasan Gemini, info perintah dan permintaan, serta jumlah token.

Lihat dokumentasi
Coba Gemini API, referensi Vertex AI Gemini API, dan Desain prompt multimodal

Memulai bukti konsep Anda

Pelanggan baru mendapatkan kredit gratis senilai hingga $300 untuk mencoba model multimodal di Vertex AI

Coba contoh perintah untuk menguji kemampuan multimodal Gemini

Mendesain prompt multimodal

Pelajari AI generatif di Vertex AI

Coba Vertex AI Gemini API

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
Konsol
Google Cloud