Ringkasan model multimodal


  • Coba thumbnail Gemini
    Coba Gemini API

    Setelah Anda siap menggunakan Google Cloud, coba beberapa prompt multimodal di Vertex AI Studio, atau dalam tutorial notebook menggunakan Python SDK atau REST API.

  • Thumbnail referensi Gemini API
    Referensi Vertex AI Gemini API

    Pelajari endpoint, parameter, dan nilai yang ditampilkan dari Vertex AI Gemini API.

  • Thumbnail perintah multimodal Gemini
    Desain perintah multimodal

    Pelajari praktik terbaik untuk mendesain prompt multimodal dan melihat contoh perintah.


Model multimodal

Perintah Tanggapan

Beri saya resep untuk kue ini.


Cookie
**BAHAN**
- 1 c. (2 batang) mentega tawar, melunak
- 3/4 c. gula pasir
- 3/4 c. gula merah, dikemas
- 1 sdt . ekstrak vanila
- 2 telur besar
- 2 1/4 c. tepung serbaguna
- 1 sdt soda kue
- 1 sdt. garam
...

Model multimodal adalah model yang mampu memproses informasi dari berbagai modalitas, termasuk gambar, video, dan teks. Misalnya, Anda dapat mengirim foto sepiring kue kepada model dan memintanya untuk memberi Anda resep kue tersebut.

Model Gemini

Tersedia model Gemini berikut:

  • Gemini 1.5 Pro: (Pratinjau) Dibuat agar bersifat multimodal (teks, gambar, audio, PDF, kode, video) dan untuk menskalakan di berbagai tugas dengan token input hingga 1 juta.
  • Gemini 1.0 Pro: Dirancang untuk menangani tugas natural language, chat teks dan kode multiturn, serta pembuatan kode.
  • Gemini 1.0 Pro Vision: Mendukung perintah multimodal. Anda dapat menyertakan teks, gambar, dan video dalam permintaan perintah serta mendapatkan respons teks atau kode.

Kasus penggunaan Gemini 1.5 Pro

Gemini 1.5 Pro (Pratinjau) mendukung pembuatan teks dari perintah yang menyertakan salah satu dari, atau kombinasi, modalitas berikut dalam perintah: teks, kode, PDF, gambar, audio, video. Kasus penggunaannya mencakup, tetapi tidak terbatas pada, berikut ini:

Kasus Penggunaan Deskripsi
Rangkum Buat versi dokumen yang lebih pendek yang menggabungkan informasi terkait dari teks aslinya. Misalnya, Anda mungkin ingin meringkas bab dari buku teks. Atau, Anda dapat membuat deskripsi produk yang ringkas dari paragraf panjang yang menjelaskan produk tersebut secara mendetail.
Pencarian informasi visual Menggunakan pengetahuan eksternal yang digabungkan dengan informasi yang diekstrak dari gambar atau video input untuk menjawab pertanyaan.
Pengenalan objek Jawab pertanyaan terkait identifikasi objek yang mendetail dalam gambar dan video.
Pemahaman konten digital Jawab pertanyaan dan ekstrak informasi dari konten visual seperti infografis, diagram, gambar, tabel, dan halaman web.
Pembuatan konten terstruktur Menghasilkan respons berdasarkan input multimodal dalam format seperti HTML dan JSON.
Teks dan deskripsi Buat deskripsi gambar dan video dengan berbagai tingkat detail.
Konten berdurasi panjang Anda dapat memproses konten panjang, hingga 1 juta token di seluruh teks, kode, gambar, video, dan audio.
Penalaran Menyimpulkan informasi baru secara komposisi tanpa menghafal atau mengambil.
Audio Menganalisis file ucapan untuk perangkuman, transkripsi, dan Tanya Jawab.
Audio dan video Rangkum file video dengan audio dan tampilkan segmen dengan stempel waktu.
Pemrosesan multimodal Memproses beberapa jenis media input secara bersamaan, seperti input video dan audio.

Kasus penggunaan Gemini 1.0 Pro

Gemini 1.0 Pro mendukung pembuatan teks dan kode dari prompt teks. Kasus penggunaannya mencakup, tetapi tidak terbatas pada, hal-hal berikut:

Kasus Penggunaan Deskripsi
Rangkum Buat versi dokumen yang lebih pendek yang menggabungkan informasi terkait dari teks aslinya. Misalnya, Anda mungkin ingin meringkas bab dari buku teks. Atau, Anda dapat membuat deskripsi produk yang ringkas dari paragraf panjang yang menjelaskan produk tersebut secara mendetail.
Menjawab pertanyaan Berikan jawaban atas pertanyaan dalam teks. Misalnya, Anda dapat mengotomatiskan pembuatan dokumen Pertanyaan Umum (FAQ) dari konten pusat informasi.
Pemahaman konten digital Berikan label ke teks yang disediakan. Misalnya, label mungkin diterapkan pada teks yang menjelaskan ketepatan tata bahasanya.
Klasifikasi Hasilkan respons dalam format seperti HTML dan JSON berdasarkan petunjuk perintah yang diberikan.
Pencarian info Gabungkan pengetahuan dunia dengan informasi yang diekstrak dari gambar dan video.
Pengenalan objek Jawab pertanyaan terkait identifikasi terperinci objek dalam gambar dan video.
Analisis sentimen Ini adalah bentuk klasifikasi yang mengidentifikasi sentimen teks. Sentimen diubah menjadi label yang diterapkan ke teks. Misalnya, sentimen teks mungkin bersifat polaritas seperti positif atau negatif, atau sentimen seperti kemarahan atau kebahagiaan.
Ekstraksi entity Buat teks dengan menentukan serangkaian persyaratan dan latar belakang. Misalnya, Anda mungkin ingin membuat draf email dalam konteks tertentu menggunakan gaya bahasa tertentu.
Pembuatan kode Buat kode berdasarkan deskripsi. Misalnya, Anda dapat meminta model untuk menulis fungsi yang memeriksa apakah suatu tahun adalah tahun kabisat.

Kasus penggunaan Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision mendukung pembuatan teks menggunakan teks, gambar, dan video sebagai input. Kasus penggunaannya mencakup, tetapi tidak terbatas pada, hal berikut:

Kasus Penggunaan Deskripsi
Pencarian info Gabungkan pengetahuan dunia dengan informasi yang diekstrak dari gambar dan video.
Pengenalan objek Jawab pertanyaan terkait identifikasi terperinci objek dalam gambar dan video.
Pemahaman konten digital Jawab pertanyaan dengan mengekstrak informasi dari konten, seperti infografis, diagram, gambar, tabel, dan halaman web.
Pembuatan konten terstruktur Hasilkan respons dalam format seperti HTML dan JSON berdasarkan petunjuk perintah yang diberikan.
Teks / deskripsi Buat deskripsi gambar dan video dengan berbagai tingkat detail.
Ekstrapolasi Membuat tebakan mengenai hal-hal yang tidak ditampilkan dalam gambar, atau apa yang terjadi sebelum atau setelah video.
Deteksi objek foto Mendeteksi objek dalam gambar dan menampilkan deskripsi teks dari objek tersebut.
Informasi pengembalian tentang item dalam gambar Gunakan gambar yang berisi beberapa barang kebutuhan sehari-hari dan Gemini 1.0 Pro Vision dapat menampilkan perkiraan harga yang harus Anda bayar.
Memahami layar dan antarmuka Ekstrak informasi dari layar peralatan, antarmuka pengguna, dan tata letak. Misalnya, Anda dapat menggunakan gambar peralatan dengan Gemini 1.0 Pro Vision untuk mendapatkan petunjuk tentang cara menggunakan perangkat tersebut.
Memahami diagram teknis Menguraikan diagram hubungan entity (ER), memahami hubungan antar-tabel, mengidentifikasi persyaratan untuk pengoptimalan di lingkungan tertentu seperti BigQuery.
Membuat rekomendasi berdasarkan beberapa gambar Anda dapat menggunakan gambar kacamata mata untuk mendapatkan rekomendasi tentang gambar yang paling sesuai dengan wajah Anda.
Membuat deskripsi video Mendeteksi apa yang ditampilkan dalam video. Misalnya, berikan video tujuan liburan, dapatkan deskripsi tujuan, 5 rekomendasi aktivitas terpopuler, dan saran cara mencapainya.

Untuk mempelajari lebih lanjut cara mendesain prompt untuk berbagai penggunaan, lihat halaman berikut:

Lihat juga: Kekuatan dan batasan model

SDK bahasa pemrograman

Vertex AI Gemini API mendukung SDK berikut:

Python

from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")

response = model.generate_content(["What is this?", img])

Node.js

// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});

const result = await model.generateContent([
  "What is this?",
  {inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);

Java

public static void main(String[] args) throws Exception {
  try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
    GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
  List<Content> contents = new ArrayList<>();
  contents.add(ContentMaker
                .fromMultiModalData(
                    "What is this?",
                    PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
  GenerateContentResponse response = model.generateContent(contents);
    }
  }
}

Go

model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)

Apa perbedaan dengan Google AI Gemini API

Vertex AI Gemini API dan Google AI Gemini API memungkinkan Anda menggabungkan kemampuan model Gemini ke dalam aplikasi. Platform yang tepat untuk Anda bergantung pada tujuan Anda.

Vertex AI Gemini API dirancang bagi developer dan perusahaan untuk digunakan dalam deployment yang diskalakan. Layanan ini menawarkan fitur seperti keamanan perusahaan, residensi data, performa, dan dukungan teknis. Jika Anda sudah menjadi pelanggan Google Cloud atau men-deploy aplikasi berskala sedang hingga besar, Anda berada di tempat yang tepat.

Jika Anda adalah penggemar, siswa, atau developer yang baru menggunakan Google Cloud, cobalah Google AI Gemini API, yang cocok untuk eksperimen, pembuatan prototipe, dan deployment kecil. Jika Anda mencari cara untuk menggunakan Gemini langsung dari aplikasi seluler dan web, lihat Google AI SDK untuk Android, Swift, dan web.

Dokumentasi Vertex AI Gemini API

Pilih salah satu topik berikut untuk mempelajari Vertex AI Gemini API lebih lanjut.

Mulai menggunakan Vertex AI Gemini API


Bermigrasi ke Vertex AI Gemini API


Pelajari cara menggunakan fitur inti