Vertex AI memiliki daftar model dasar yang terus bertambah, yang dapat Anda uji, deploy, dan sesuaikan untuk digunakan dalam aplikasi berbasis AI. Model dasar disesuaikan untuk kasus penggunaan tertentu dan ditawarkan dengan berbagai titik harga. Halaman ini merangkum model yang tersedia di berbagai API dan memberikan panduan tentang model yang akan dipilih berdasarkan kasus penggunaan.
Untuk mengetahui informasi selengkapnya tentang semua API dan model AI di Vertex AI, lihat Menjelajahi model AI di Model Garden.
Model Gemini
Tabel berikut merangkum model yang tersedia di Gemini API. Untuk informasi selengkapnya tentang detail API, lihat referensi Gemini API.
Untuk menjelajahi model di konsol Google Cloud, pilih kartu modelnya di Model Garden.
Model | Input | Output | Kasus penggunaan | Mencoba model |
---|---|---|---|---|
Gemini 2.0 Flash
gemini-2.0-flash-001
|
Teks, Kode, Gambar, Audio, Video, Video dengan Audio, PDF | Teks, Audio (pratinjau pribadi), Gambar (pratinjau pribadi) | Model andalan untuk semua tugas harian. Performa keseluruhan yang kuat dan mendukung Live API streaming real-time. | Coba Gemini 2.0 Flash |
Gemini 2.0 Pro
gemini-2.0-pro-exp-02-05
|
Teks, Gambar, Video, Audio, PDF | Teks | Kualitas model terkuat, terutama untuk kode & pengetahuan dunia; konteks panjang 2 juta. | Coba Gemini 2.0 Pro |
Gemini 2.0 Flash-Lite
gemini-2.0-flash-lite-preview-02-05
|
Teks, Gambar, Video, Audio, PDF | Teks | Penawaran hemat biaya kami untuk mendukung throughput tinggi. | Coba Gemini 2.0 Flash-Lite |
Flash Thinking Gemini 2.0
gemini-2.0-flash-thinking-exp-01-21
|
Teks, Gambar | Teks | Memberikan kemampuan penalaran yang lebih kuat dan menyertakan proses pemikiran dalam respons. | Coba Gemini 2.0 Flash Thinking |
Gemini 1.5 Flash
gemini-1.5-flash
|
Teks, Kode, Gambar, Audio, Video, Video dengan Audio, PDF | Teks | Memberikan kecepatan dan efisiensi untuk aplikasi berkualitas tinggi, bervolume besar, dan hemat biaya. | Coba Gemini 1.5 Flash |
Gemini 1.5 Pro
gemini-1.5-pro
|
Teks, Kode, Gambar, Audio, Video, Video dengan Audio, PDF | Teks | Mendukung perintah teks atau chat untuk respons teks atau kode. Mendukung pemahaman konteks panjang hingga batas token input maksimum. |
Coba Gemini 1.5 Pro |
Gemini 1.0 Pro
gemini-1.0-pro
|
Teks | Teks | Model berperforma terbaik untuk berbagai tugas hanya teks. | Coba Gemini 1.0 Pro |
Gemini 1.0 Pro Vision
gemini-1.0-pro-vision
|
Teks, Gambar, Audio, Video, Video dengan Audio, PDF | Teks | Model pemahaman gambar dan video berperforma terbaik untuk menangani berbagai aplikasi. | Coba Gemini 1.0 Pro Vision |
Informasi berikut memberikan detail untuk setiap model Gemini.
Gemini 2.0 Flash
Generasi berikutnya dari model Gemini Flash kami. Gemini 2.0 Flash memberikan kecepatan yang lebih tinggi dibandingkan model 1.5 kami dan mendukung berbagai fitur yang diperluas seperti streaming dua arah dengan Multimodal Live API, pembuatan respons multimodal, dan penggunaan alat bawaan.
Kemampuan
Kemampuan | Ketersediaan |
---|---|
Perujukan dengan Google Penelusuran | |
Eksekusi kode | |
Penyesuaian | |
Petunjuk sistem | Lihat Menggunakan petunjuk sistem. |
Pembuatan Terkontrol | |
Throughput yang Disediakan | Lihat Model yang didukung. |
Spesifikasi
Spesifikasi | Nilai |
---|---|
Token input maks | 1.048.576 |
Token output maks | 8.192 |
Data pelatihan | Hingga Juni 2024 |
Gemini 2.0 Pro
Gemini 2.0 Pro adalah model terkuat kami untuk coding dan pengetahuan dunia serta memiliki jendela konteks panjang 2 juta. Gemini 2.0 Pro tersedia sebagai model eksperimental di Vertex AI dan merupakan jalur upgrade untuk pengguna 1.5 Pro yang menginginkan kualitas yang lebih baik, atau yang sangat tertarik dengan konteks dan kode yang panjang.
Kemampuan
Kemampuan | Ketersediaan |
---|---|
Perujukan dengan Google Penelusuran | |
Eksekusi kode | |
Penyesuaian | |
Petunjuk sistem | Lihat Menggunakan petunjuk sistem. |
Dukungan JSON | |
Throughput yang Disediakan | Lihat Model yang didukung. |
Spesifikasi
Spesifikasi | Nilai |
---|---|
Token input maks | 2.097.152 |
Token output maks | 8.192 |
Data pelatihan | Hingga Juni 2024 |
Gemini 2.0 Flash-Lite
Gemini 2.0 Flash-Lite adalah model Flash tercepat dan paling hemat biaya. Ini adalah jalur upgrade untuk pengguna 1.5 Flash yang menginginkan kualitas yang lebih baik dengan harga dan kecepatan yang sama.
Kemampuan
Kemampuan | Ketersediaan |
---|---|
Perujukan dengan Google Penelusuran | |
Eksekusi kode | |
Penyesuaian | |
Petunjuk sistem | Lihat Menggunakan petunjuk sistem. |
Dukungan JSON | |
Throughput yang Disediakan | Lihat Model yang didukung. |
Spesifikasi
Spesifikasi | Nilai |
---|---|
Token input maks | 1.048.576 |
Token output maks | 8.192 |
Data pelatihan | Hingga Juni 2024 |
Pemikiran Flash Gemini 2.0
Gemini 2.0 Flash Thinking adalah model komputasi waktu pengujian eksperimental yang dilatih untuk menghasilkan "proses berpikir" yang dilakukan model sebagai bagian dari responsnya. Akibatnya, Pemikiran Flash mampu memiliki kemampuan penalaran yang lebih kuat dalam responsnya daripada model Gemini 2.0 Flash dasar. Untuk mengetahui informasi selengkapnya, lihat dokumentasi Pemikiran Cepat Gemini 2.0
Kemampuan
Kemampuan | Ketersediaan |
---|---|
Grounding | |
Penyesuaian | |
Petunjuk sistem | Lihat Menggunakan petunjuk sistem. |
Dukungan JSON | |
Throughput yang Disediakan | Lihat Model yang didukung. |
Spesifikasi
Spesifikasi | Nilai |
---|---|
Token input maks | 1.048.576 |
Token output maks | 65,536 |
Data pelatihan | Hingga Mei 2024 |
Gemini 1.5 Flash
Model multimodal yang dirancang untuk aplikasi hemat biaya dan bervolume tinggi, serta memberikan kecepatan dan efisiensi untuk membuat aplikasi yang cepat dan berbiaya lebih rendah tanpa mengorbankan kualitas.
Kemampuan
Kemampuan | Ketersediaan |
---|---|
Grounding | Hanya input teks |
Penyesuaian | |
Petunjuk sistem | Lihat Menggunakan petunjuk sistem. |
Pembuatan Terkontrol | |
Throughput yang Disediakan | Lihat Model yang didukung. |
Spesifikasi
Spesifikasi | Nilai |
---|---|
Token input maks | 1.048.576 |
Token output maks | 8.192 |
Ukuran gambar mentah maksimum | 20 MB |
Ukuran gambar berenkode base64 maksimum | 7 MB |
Gambar maksimum per perintah | 3.000 |
Durasi maksimal video | 1 jam |
Video maksimum per perintah | 10 |
Durasi audio maks | sekitar 8,4 jam |
Audio maksimum per perintah | 1 |
Ukuran PDF maksimum | 30 MB |
Data pelatihan | Hingga Mei 2024 |
Gemini 1.5 Pro
Model multimodal yang mendukung penambahan file gambar, audio, video, dan PDF dalam perintah teks atau chat untuk menghasilkan respons teks atau kode. Model ini mendukung pemahaman konteks panjang hingga batas token input maksimum.
Kemampuan
Kemampuan | Ketersediaan |
---|---|
Grounding | Ya (khusus input teks) |
Penyesuaian | |
Petunjuk sistem | Ya. Lihat Menggunakan petunjuk sistem. |
Dukungan JSON | |
Throughput yang Disediakan | Ya. Lihat Model yang didukung. |
Spesifikasi
Spesifikasi | Nilai |
---|---|
Token input maks | 2.097.152 |
Token output maks | 8.192 |
Gambar maksimum per perintah | 3.000 |
Durasi video maksimum (khusus frame) | sekitar satu jam |
Durasi video maksimum (frame dan audio) | sekitar 45 menit |
Video maksimum per perintah | 10 |
Durasi audio maks | sekitar 8,4 jam |
Audio maksimum per perintah | 1 |
Ukuran PDF maksimum | 30 MB |
Data pelatihan | Hingga Mei 2024 |
Gemini 1.0 Pro
Model berperforma terbaik dengan fitur untuk berbagai tugas hanya teks. Model ini hanya mendukung teks sebagai input.
Kemampuan
Kemampuan | Ketersediaan |
---|---|
Grounding | Ya (khusus input teks) |
Penyesuaian | Ya. Penyesuaian yang diawasi didukung oleh gemini-1.0-pro-002. |
Petunjuk sistem | Ya. Didukung oleh gemini-1.0-pro-002. Lihat Menggunakan petunjuk sistem. |
Dukungan JSON | |
Throughput yang Disediakan | Ya. Lihat Model yang didukung. |
Spesifikasi
Spesifikasi | Nilai |
---|---|
Token input maks | 32.760 |
Token output maks | 8.192 |
Data pelatihan | Hingga Februari 2023 |
Gemini 1.0 Pro Vision
Model pemahaman gambar dan video berperforma terbaik untuk menangani berbagai aplikasi. Gemini 1.0 Pro Vision mendukung teks, gambar, dan video sebagai input.
Kemampuan
Kemampuan | Ketersediaan |
---|---|
Grounding | |
Penyesuaian | |
Petunjuk sistem | |
Dukungan JSON | |
Throughput yang Disediakan | Ya. Lihat Model yang didukung. |
Spesifikasi
Spesifikasi | Nilai |
---|---|
Token input maks | 16.384 |
Token output maks | 2.048 |
Gambar maksimum per perintah | 16 |
Durasi maksimal video | 2 menit |
Video maksimum per perintah | 1 |
Data pelatihan | Hingga Februari 2023 |
Gemini 1.0 Ultra
Model teks tercanggih Google, yang dioptimalkan untuk tugas rumit, termasuk petunjuk, kode, dan penalaran. Gemini 1.0 Ultra hanya mendukung teks sebagai input.
Kemampuan
Kemampuan | Ketersediaan |
---|---|
Grounding | |
Penyesuaian | |
Petunjuk sistem | |
Dukungan JSON | |
Throughput yang Disediakan | Ya. Lihat Model yang didukung. |
Spesifikasi
Spesifikasi | Nilai |
---|---|
Token input maks | 8.192 |
Token output maks | 2.048 |
Gemini 1.0 Ultra Vision
Model visi multimodal Google yang paling andal, dioptimalkan untuk mendukung input teks, gambar, dan video gabungan.
Kemampuan
Kemampuan | Ketersediaan |
---|---|
Grounding | |
Penyesuaian | |
Petunjuk sistem | |
Dukungan JSON | |
Throughput yang Disediakan | Lihat Model yang didukung. |
Spesifikasi
Spesifikasi | Nilai |
---|---|
Token input maks | 8.192 |
Token output maks | 2.048 |
Dukungan bahasa Gemini
Semua model Gemini dapat memahami dan merespons dalam bahasa berikut:
Arab (ar), Bengali (bn), Bulgaria (bg), China aksara sederhana dan tradisional (zh), Kroasia (hr), Ceko (cs), Denmark (da), Belanda (nl), Inggris (en), Estonia (et), Finlandia (fi), Prancis (fr), Jerman (de), Yunani (el), Ibrani (iw), Hindi (hi), Hungaria (hu), Indonesia (id), Italia (it), Jepang (ja), Korea (ko), Latvia (lv), Lituania (lt), Norwegia (no), Polandia (pl), Portugis (pt), Rumania (ro), Rusia (ru), Serbia (sr), Slovakia (sk), Slovenia (sl), Spanyol (es), Swahili (sw), Swedia (sv), Thailand (th), Turkiye (tr), Ukraina (uk), Vietnam (vi)
Model Gemini 1.5 Pro dan Gemini 1.5 Flash dapat memahami dan merespons dalam bahasa tambahan berikut:
Afrikaans (af), Amharik (am), Assam (as), Azerbaijan (az), Belarus (be), Bosnia (bs), Katalan (ca), Cebuano (ceb), Korsika (co), Welsh (cy), Dhivehi (dv), Esperanto (eo), Basque (eu), Persia (fa), Filipina (Tagalog) (fil), Frisia (fy), Irlandia (ga), Gaelik Skotlandia (gd), Galisia (gl), Gujarat (gu), Hausa (ha), Hawaii (haw), Hmong (hmn), Kreol Haiti (ht), Armenia (hy), Igbo (ig), Islandia (is), Jawa (jv), Georgia (ka), Kazakh (kk), Khmer (km), Kannada (kn), Krio (kri), Kurdi (ku), Kirgiz (ky), Latin (la), Luksemburg (lb), Laos (lo), Malagasy (mg), Maori (mi), Makedonia (mk), Malayalam (ml), Mongolia (mn), Meiteilon (Manipuri) (mni-Mtei), Marathi (mr), Melayu (ms), Malta (mt), Myanmar (Burma) (my), Nepal (ne), Nyanja (Chichewa) (ny), Odia (Oriya) (or), Punjabi (pa), Pashto (ps), Sindhi (sd), Sinhala (Sinhalese) (si), Samoa (sm), Shona (sn), Somalia (so), Albania (sq), Sesotho (st), Sunda (su), Tamil (ta), Telugu (te), Tajik (tg), Uyghur (ug), Urdu (ur), Uzbek (uz), Xhosa (xh), Yiddish (yi), Yoruba (yo), Zulu (zu)
Model Gemma
Tabel berikut merangkum model Gemma.
Model | Input | Output | Kasus penggunaan | Mencoba model |
---|---|---|---|---|
Gemma Detail model |
Teks | Teks | Model teks terbuka berukuran kecil dan ringan yang mendukung pembuatan, peringkasan, dan ekstraksi teks. Dapat di-deploy di lingkungan dengan resource terbatas. | Coba Gemma |
CodeGemma Detail model |
Teks, Kode, PDF | Teks | Kumpulan model kode terbuka yang ringan dan dibuat di atas Gemma. Paling cocok untuk pembuatan dan penyelesaian kode. | Coba CodeGemma |
PaliGemma Detail model |
Teks, Gambar | Teks | Model bahasa-visio (VLM) yang ringan. Paling cocok untuk tugas pemberian teks pada gambar serta tugas pertanyaan dan jawaban visual. | Coba PaliGemma |
Dukungan bahasa Gemma
Gemma hanya mendukung bahasa Inggris.
Model penyematan
Tabel berikut meringkas model yang tersedia di Embeddings API.
Nama model | Deskripsi | Spesifikasi | Mencoba model |
---|---|---|---|
Embedding untuk teks ( textembedding-gecko@001, )Detail model |
Menampilkan embedding untuk input teks bahasa Inggris.
Mendukung penyesuaian yang diawasi model Embedding untuk teks, hanya bahasa Inggris. |
Input token maksimum: 3.072 (textembedding-gecko@001 ).Lainnya: 2.048. Dimensi penyematan: text-embedding-004 : <=768. Lainnya: 768. |
Mencoba Embedding untuk teks |
Embedding untuk teks multibahasa ( textembedding-gecko-multilingual@001 ,
text-multilingual-embedding-002 )Detail model |
Menampilkan embedding untuk input teks dari lebih dari 100 bahasa
Mendukung penyesuaian yang diawasi model text-multilingual-embedding-002 . Mendukung 100 bahasa. |
Input token maksimum: 2.048. Dimensi penyematan: text-multilingual-embedding-002 : <=768. Lainnya: 768. |
Mencoba Penyematan untuk teks multibahasa |
Embedding untuk multimodal(multimodalembedding) Detail model |
Menampilkan embedding untuk input teks, gambar, dan video, untuk membandingkan konten di berbagai model. Mengonversi teks, gambar, dan video menjadi ruang vektor yang sama. Video hanya mendukung 1.408 dimensi. Khusus bahasa Inggris |
Input token maksimum: 32. Ukuran gambar maksimum: 20 MB. Durasi video maks.: Dua menit. Dimensi penyematan: 128, 256, 512, atau 1408 untuk input teks+gambar, 1408 untuk input video. |
Mencoba Embedding untuk multimodal |
Dukungan bahasa penyematan
Model penyematan multibahasa teks mendukung bahasa berikut:
Afrikaans, Albania, Amharik, Arab, Armenia, Azerbaijan, Basque,
Belarusia, Bengali, Bulgaria, Burma, Katalan, Cebuano, Chichewa, Cina,
Korsika, Ceko, Denmark, Belanda, Inggris, Esperanto, Estonia, Filipina,
Finlandia, Prancis, Galicia, Georgia, Jerman, Yunani, Gujarati,
Kreol Haiti, Hausa, Hawaii, Ibrani, Hindi, Hmong, Hungaria,
Islandia, Igbo, Indonesia, Irlandia, Italia, Jepang, Jawa, Kannada,
Kazakh, Khmer, Korea, Kurdi, Kirgiz, Laos, Latin, Latvia, Lituania,
Luksemburg, Makedonia, Malagasi, Melayu, Malayalam, Malta, Maori,
Marathi, Mongolia, Nepal, Norwegia, Pashto, Persia, Polandia,
Portugis, Punjabi, Rumania, Rusia, Samoa, Gaelik Skotlandia,
Serbia, Shona, Sindhi, Sinhala, Slovakia, Slovenia, Somalia, Sotho,
Spanyol, Sunda, Swahili, Swedia, Tajik, Tamil, Telugu, Thailand,
Turki, Ukraina, Urdu, Uzbek, Vietnam, Welsh, Frisia Barat,
Xhosa, Yiddish, Yoruba, Zulu.
Model Imagen
Tabel berikut merangkum model yang tersedia di Imagen API:
Model | Input | Output | Kasus penggunaan | Mencoba model |
---|---|---|---|---|
Imagen 3 ( imagen-3.0-generate-001 ,
imagen-3.0-fast-generate-001 )Imagen 2 ( imagegeneration@006 ,
imagegeneration@005 )Imagen ( imagegeneration@002 )Detail model |
Teks | Gambar | Model ini mendukung pembuatan dan pengeditan gambar untuk membuat gambar berkualitas tinggi dalam hitungan detik. Hal ini mencakup pembuatan gambar menggunakan zero-shot learning. | Mencoba Imagen untuk pembuatan gambar |
Imagen 3 (Pengeditan dan penyesuaian) ( imagen-3.0-capability-001 )Imagen 2 (Pengeditan) ( imagegeneration@006 )Imagen (Pengeditan) imagegeneration@002 )Detail model |
Teks dan gambar | Gambar | Model ini mendukung pengeditan gambar dan pembuatan gambar kustom (beberapa gambar)
untuk membuat gambar berkualitas tinggi dalam hitungan detik.
Fitur pengeditan mendukung inpainting (penghapusan atau penyematan objek), outpainting, dan pengeditan gambar produk. Penyesuaian mendukung pembelajaran beberapa tahap, sehingga Anda dapat memberikan gambar referensi untuk memandu pembuatan gambar output. Model ini mendukung jenis penyesuaian berikut: subjek (produk, orang, dan hewan peliharaan), gaya, penyesuaian terkontrol (coretan atau tepi canny), dan penyesuaian petunjuk (transfer gaya). |
Coba Imagen untuk pengeditan dan penyesuaian |
Dukungan bahasa Imagen 3
Imagen 3 mendukung bahasa berikut:
Inggris, China, Hindi, Jepang, Korea, Portugis, dan Spanyol.
Model penyelesaian kode
Tabel berikut meringkas model yang tersedia di Codey API:
Model | Input | Output | Kasus penggunaan | Mencoba model |
---|---|---|---|---|
Codey for Code Completion ( code-gecko ) Detail model |
Kode dalam bahasa yang didukung | Kode dalam bahasa yang didukung | Model yang disesuaikan untuk menyarankan penyelesaian kode berdasarkan konteks dalam kode yang ditulis. | Coba Codey untuk Penyelesaian Kode |
Dukungan bahasa model penyelesaian kode
Model Penyelesaian kode mendukung bahasa Inggris.
Model MedLM
Tabel berikut meringkas model yang tersedia di MedLM API:
Nama model | Deskripsi | Spesifikasi | Mencoba model |
---|---|---|---|
MedLM-medium (medlm-medium )Detail model |
Rangkaian model dan API yang disesuaikan secara medis dan sesuai dengan HIPAA yang didukung
oleh Google Research. Model ini membantu praktisi layanan kesehatan dengan tugas pertanyaan dan jawaban medis, serta tugas ringkasan untuk dokumen layanan kesehatan dan medis. Memberikan throughput yang lebih baik dan menyertakan data yang lebih baru daripada model medlm-large . |
Token maksimum (input + output): 32.768. Token output maksimum: 8.192. |
Coba MedLM-medium |
MedLM-large (medlm-large )Detail model |
Rangkaian model dan API yang disesuaikan secara medis dan sesuai dengan HIPAA yang didukung
oleh Google Research. Model ini membantu praktisi layanan kesehatan dengan tugas pertanyaan dan jawaban medis, serta tugas ringkasan untuk dokumen layanan kesehatan dan medis. |
Token input maksimum: 8.192. Token output maksimum: 1.024. |
Coba MedLM-large |
Dukungan Throughput yang Disediakan MedLM
MedLM-medium dan MedLM-large mendukung Provisioned Throughput. Lihat Model yang didukung.
Dukungan bahasa MedLM
Model MedLM mendukung bahasa Inggris.
Lokasi
Untuk mengetahui daftar lokasi tempat model ini tersedia, lihat Lokasi AI Generatif di Vertex AI.
Versi model
Untuk mempelajari versi model, lihat Versi model.
Mempelajari semua model di Model Garden
Model Garden adalah platform yang membantu Anda menemukan, menguji, menyesuaikan, dan men-deploy model & aset OSS tertentu serta eksklusif Google. Untuk mempelajari model dan API AI generatif yang tersedia di Vertex AI, buka Model Garden di Konsol Google Cloud.
Untuk mempelajari lebih lanjut Model Garden, termasuk model dan kemampuan yang tersedia, lihat Mempelajari model AI di Model Garden.
Langkah berikutnya
- Coba tutorial panduan memulai menggunakan Vertex AI Studio atau Vertex AI API.
- Pelajari cara menguji perintah teks.
- Pelajari cara menguji prompt chat.
- Pelajari model terlatih di Model Garden.
- Pelajari cara menyesuaikan model dasar.
- Pelajari praktik terbaik responsible AI dan filter keamanan Vertex AI.
- Pelajari cara mengontrol akses ke model tertentu di Model Garden dengan menggunakan kebijakan organisasi Model Garden.