-
Coba Gemini API
Setelah Anda siap menggunakan Google Cloud, coba beberapa prompt multimodal di Vertex AI Studio, atau dalam tutorial notebook menggunakan Python SDK atau REST API.
-
Referensi Vertex AI Gemini API
Pelajari endpoint, parameter, dan nilai yang ditampilkan dari Vertex AI Gemini API.
-
Desain perintah multimodal
Pelajari praktik terbaik untuk mendesain prompt multimodal dan melihat contoh perintah.
Model multimodal
Perintah | Tanggapan |
Beri saya resep untuk kue ini. |
**BAHAN** - 1 c. (2 batang) mentega tawar, melunak - 3/4 c. gula pasir - 3/4 c. gula merah, dikemas - 1 sdt . ekstrak vanila - 2 telur besar - 2 1/4 c. tepung serbaguna - 1 sdt soda kue - 1 sdt. garam ... |
Model multimodal adalah model yang mampu memproses informasi dari berbagai modalitas, termasuk gambar, video, dan teks. Misalnya, Anda dapat mengirim foto sepiring kue kepada model dan memintanya untuk memberi Anda resep kue tersebut.
Model Gemini
Tersedia model Gemini berikut:
- Gemini 1.5 Pro: (Pratinjau) Dibuat agar bersifat multimodal (teks, gambar, audio, PDF, kode, video) dan untuk menskalakan di berbagai tugas dengan token input hingga 1 juta.
- Gemini 1.0 Pro: Dirancang untuk menangani tugas natural language, chat teks dan kode multiturn, serta pembuatan kode.
- Gemini 1.0 Pro Vision: Mendukung perintah multimodal. Anda dapat menyertakan teks, gambar, dan video dalam permintaan perintah serta mendapatkan respons teks atau kode.
Kasus penggunaan Gemini 1.5 Pro
Gemini 1.5 Pro (Pratinjau) mendukung pembuatan teks dari perintah yang menyertakan salah satu dari, atau kombinasi, modalitas berikut dalam perintah: teks, kode, PDF, gambar, audio, video. Kasus penggunaannya mencakup, tetapi tidak terbatas pada, berikut ini:
Kasus Penggunaan | Deskripsi |
---|---|
Rangkum | Buat versi dokumen yang lebih pendek yang menggabungkan informasi terkait dari teks aslinya. Misalnya, Anda mungkin ingin meringkas bab dari buku teks. Atau, Anda dapat membuat deskripsi produk yang ringkas dari paragraf panjang yang menjelaskan produk tersebut secara mendetail. |
Pencarian informasi visual | Menggunakan pengetahuan eksternal yang digabungkan dengan informasi yang diekstrak dari gambar atau video input untuk menjawab pertanyaan. |
Pengenalan objek | Jawab pertanyaan terkait identifikasi objek yang mendetail dalam gambar dan video. |
Pemahaman konten digital | Jawab pertanyaan dan ekstrak informasi dari konten visual seperti infografis, diagram, gambar, tabel, dan halaman web. |
Pembuatan konten terstruktur | Menghasilkan respons berdasarkan input multimodal dalam format seperti HTML dan JSON. |
Teks dan deskripsi | Buat deskripsi gambar dan video dengan berbagai tingkat detail. |
Konten berdurasi panjang | Anda dapat memproses konten panjang, hingga 1 juta token di seluruh teks, kode, gambar, video, dan audio. |
Penalaran | Menyimpulkan informasi baru secara komposisi tanpa menghafal atau mengambil. |
Audio | Menganalisis file ucapan untuk perangkuman, transkripsi, dan Tanya Jawab. |
Audio dan video | Rangkum file video dengan audio dan tampilkan segmen dengan stempel waktu. |
Pemrosesan multimodal | Memproses beberapa jenis media input secara bersamaan, seperti input video dan audio. |
Kasus penggunaan Gemini 1.0 Pro
Gemini 1.0 Pro mendukung pembuatan teks dan kode dari prompt teks. Kasus penggunaannya mencakup, tetapi tidak terbatas pada, hal-hal berikut:
Kasus Penggunaan | Deskripsi |
---|---|
Rangkum | Buat versi dokumen yang lebih pendek yang menggabungkan informasi terkait dari teks aslinya. Misalnya, Anda mungkin ingin meringkas bab dari buku teks. Atau, Anda dapat membuat deskripsi produk yang ringkas dari paragraf panjang yang menjelaskan produk tersebut secara mendetail. |
Menjawab pertanyaan | Berikan jawaban atas pertanyaan dalam teks. Misalnya, Anda dapat mengotomatiskan pembuatan dokumen Pertanyaan Umum (FAQ) dari konten pusat informasi. |
Pemahaman konten digital | Berikan label ke teks yang disediakan. Misalnya, label mungkin diterapkan pada teks yang menjelaskan ketepatan tata bahasanya. |
Klasifikasi | Hasilkan respons dalam format seperti HTML dan JSON berdasarkan petunjuk perintah yang diberikan. |
Pencarian info | Gabungkan pengetahuan dunia dengan informasi yang diekstrak dari gambar dan video. |
Pengenalan objek | Jawab pertanyaan terkait identifikasi terperinci objek dalam gambar dan video. |
Analisis sentimen | Ini adalah bentuk klasifikasi yang mengidentifikasi sentimen teks. Sentimen diubah menjadi label yang diterapkan ke teks. Misalnya, sentimen teks mungkin bersifat polaritas seperti positif atau negatif, atau sentimen seperti kemarahan atau kebahagiaan. |
Ekstraksi entity | Buat teks dengan menentukan serangkaian persyaratan dan latar belakang. Misalnya, Anda mungkin ingin membuat draf email dalam konteks tertentu menggunakan gaya bahasa tertentu. |
Pembuatan kode | Buat kode berdasarkan deskripsi. Misalnya, Anda dapat meminta model untuk menulis fungsi yang memeriksa apakah suatu tahun adalah tahun kabisat. |
Kasus penggunaan Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision mendukung pembuatan teks menggunakan teks, gambar, dan video sebagai input. Kasus penggunaannya mencakup, tetapi tidak terbatas pada, hal berikut:
Kasus Penggunaan | Deskripsi |
---|---|
Pencarian info | Gabungkan pengetahuan dunia dengan informasi yang diekstrak dari gambar dan video. |
Pengenalan objek | Jawab pertanyaan terkait identifikasi terperinci objek dalam gambar dan video. |
Pemahaman konten digital | Jawab pertanyaan dengan mengekstrak informasi dari konten, seperti infografis, diagram, gambar, tabel, dan halaman web. |
Pembuatan konten terstruktur | Hasilkan respons dalam format seperti HTML dan JSON berdasarkan petunjuk perintah yang diberikan. |
Teks / deskripsi | Buat deskripsi gambar dan video dengan berbagai tingkat detail. |
Ekstrapolasi | Membuat tebakan mengenai hal-hal yang tidak ditampilkan dalam gambar, atau apa yang terjadi sebelum atau setelah video. |
Deteksi objek foto | Mendeteksi objek dalam gambar dan menampilkan deskripsi teks dari objek tersebut. |
Informasi pengembalian tentang item dalam gambar | Gunakan gambar yang berisi beberapa barang kebutuhan sehari-hari dan Gemini 1.0 Pro Vision dapat menampilkan perkiraan harga yang harus Anda bayar. |
Memahami layar dan antarmuka | Ekstrak informasi dari layar peralatan, antarmuka pengguna, dan tata letak. Misalnya, Anda dapat menggunakan gambar peralatan dengan Gemini 1.0 Pro Vision untuk mendapatkan petunjuk tentang cara menggunakan perangkat tersebut. |
Memahami diagram teknis | Menguraikan diagram hubungan entity (ER), memahami hubungan antar-tabel, mengidentifikasi persyaratan untuk pengoptimalan di lingkungan tertentu seperti BigQuery. |
Membuat rekomendasi berdasarkan beberapa gambar | Anda dapat menggunakan gambar kacamata mata untuk mendapatkan rekomendasi tentang gambar yang paling sesuai dengan wajah Anda. |
Membuat deskripsi video | Mendeteksi apa yang ditampilkan dalam video. Misalnya, berikan video tujuan liburan, dapatkan deskripsi tujuan, 5 rekomendasi aktivitas terpopuler, dan saran cara mencapainya. |
Untuk mempelajari lebih lanjut cara mendesain prompt untuk berbagai penggunaan, lihat halaman berikut:
Lihat juga: Kekuatan dan batasan model
SDK bahasa pemrograman
Vertex AI Gemini API mendukung SDK berikut:
Python
from vertexai import generative_models
from vertexai.generative_models import GenerativeModel
model = GenerativeModel(model_name="gemini-1.0-pro-vision")
response = model.generate_content(["What is this?", img])
Node.js
// Initialize Vertex AI with your Cloud project and location
const vertexAI = new VertexAI({project: projectId, location: location});
const generativeVisionModel = vertexAI.getGenerativeModel({ model: "gemini-1.0-pro-vision"});
const result = await model.generateContent([
"What is this?",
{inlineData: {data: imgDataInBase64, mimeType: 'image/png'}}
]);
Java
public static void main(String[] args) throws Exception {
try (VertexAI vertexAi = new VertexAI(PROJECT_ID, LOCATION); ) {
GenerativeModel model = new GenerativeModel("gemini-1.0-pro-vision", vertexAI);
List<Content> contents = new ArrayList<>();
contents.add(ContentMaker
.fromMultiModalData(
"What is this?",
PartMaker.fromMimeTypeAndData("image/jpeg", IMAGE_URI)));
GenerateContentResponse response = model.generateContent(contents);
}
}
}
Go
model := client.GenerativeModel("gemini-1.0-pro-vision", "us-central1")
img := genai.ImageData("jpeg", image_bytes)
prompt := genai.Text("What is this?")
resp, err := model.GenerateContent(ctx, img, prompt)
Apa perbedaan dengan Google AI Gemini API
Vertex AI Gemini API dan Google AI Gemini API memungkinkan Anda menggabungkan kemampuan model Gemini ke dalam aplikasi. Platform yang tepat untuk Anda bergantung pada tujuan Anda.
Vertex AI Gemini API dirancang bagi developer dan perusahaan untuk digunakan dalam deployment yang diskalakan. Layanan ini menawarkan fitur seperti keamanan perusahaan, residensi data, performa, dan dukungan teknis. Jika Anda sudah menjadi pelanggan Google Cloud atau men-deploy aplikasi berskala sedang hingga besar, Anda berada di tempat yang tepat.
Jika Anda adalah penggemar, siswa, atau developer yang baru menggunakan Google Cloud, cobalah Google AI Gemini API, yang cocok untuk eksperimen, pembuatan prototipe, dan deployment kecil. Jika Anda mencari cara untuk menggunakan Gemini langsung dari aplikasi seluler dan web, lihat Google AI SDK untuk Android, Swift, dan web.
Dokumentasi Vertex AI Gemini API
Pilih salah satu topik berikut untuk mempelajari Vertex AI Gemini API lebih lanjut.
Mulai menggunakan Vertex AI Gemini API
-
Melakukan penyiapan di Google Cloud
Jika Anda baru menggunakan Google Cloud, ikuti langkah-langkah penyiapan di halaman ini untuk memulai dengan cepat.
-
Class Python SDK untuk Gemini API
Pelajari class yang disediakan oleh Python SDK untuk Vertex AI Gemini API, termasuk atribut, metode, dan contoh penggunaan.
-
Referensi Python SDK
Lihat referensi AI generatif lengkap untuk Vertex AI SDK untuk Python.
Bermigrasi ke Vertex AI Gemini API
-
Bermigrasi dari Google AI ke Vertex AI
Pelajari cara memigrasikan kode python Anda dari Google AI Gemini API ke Vertex AI Gemini API.
-
Bermigrasi dari PaLM API ke Gemini API
Pelajari cara memigrasikan kode Python dari Vertex AI PaLM API ke Vertex AI Gemini API.
Pelajari cara menggunakan fitur inti
-
Mengirim permintaan perintah multimodal
Pelajari cara mengirim permintaan perintah multimodal menggunakan Konsol Cloud, Python SDK, atau REST API.
-
Mengirim permintaan perintah chat
Pelajari cara mengirim perintah chat satu giliran dan multi-giliran menggunakan Cloud Console, Python SDK, atau REST API.
-
Panggilan fungsi
Pelajari cara membuat model menghasilkan JSON untuk memanggil fungsi eksternal.