Layanan evaluasi Gen AI di Vertex AI memungkinkan Anda mengevaluasi model atau aplikasi generatif dan membandingkan hasil evaluasi dengan penilaian Anda sendiri, menggunakan kriteria evaluasi Anda sendiri.
Meskipun papan peringkat dan laporan menawarkan insight tentang performa model secara keseluruhan, keduanya tidak mengungkapkan cara model menangani kebutuhan spesifik Anda. Layanan evaluasi AI Generatif membantu Anda menentukan kriteria evaluasi Anda sendiri, sehingga memastikan pemahaman yang jelas tentang seberapa baik model dan aplikasi AI generatif sesuai dengan kasus penggunaan unik Anda.
Evaluasi penting pada setiap langkah proses pengembangan AI Generatif Anda, termasuk pemilihan model, rekayasa perintah, dan penyesuaian model. Mengevaluasi AI Generatif terintegrasi dalam Vertex AI untuk membantu Anda meluncurkan dan menggunakan kembali evaluasi sesuai kebutuhan.
Kemampuan layanan evaluasi AI generatif
Layanan evaluasi AI Generatif dapat membantu Anda melakukan tugas berikut:
Pemilihan model: Pilih model terlatih terbaik untuk tugas Anda berdasarkan hasil benchmark dan performanya pada data tertentu.
Setelan pembuatan: Sesuaikan parameter model (seperti suhu) untuk mengoptimalkan output sesuai kebutuhan Anda.
Rekayasa perintah: Buat perintah dan template perintah yang efektif untuk memandu model ke perilaku dan respons yang Anda inginkan.
Meningkatkan dan mengamankan penyesuaian: Sesuaikan model untuk meningkatkan performa untuk kasus penggunaan Anda, sekaligus menghindari bias atau perilaku yang tidak diinginkan.
Pengoptimalan RAG: Pilih arsitektur Retrieval Augmented Generation (RAG) yang paling efektif untuk meningkatkan performa aplikasi Anda.
Migrasi: Terus-menerus menilai dan meningkatkan performa solusi AI Anda dengan bermigrasi ke model yang lebih baru jika model tersebut memberikan keunggulan yang jelas untuk kasus penggunaan tertentu Anda.
Terjemahan (pratinjau): Menilai kualitas terjemahan model Anda.
Proses evaluasi
Layanan evaluasi Gen AI memungkinkan Anda mengevaluasi model atau aplikasi Gen AI berdasarkan kriteria evaluasi dengan mengikuti langkah-langkah berikut:
-
Pelajari cara menyesuaikan metrik berbasis model dengan kriteria bisnis Anda.
Mengevaluasi satu model (pointwise) atau menentukan pemenang saat membandingkan 2 model (pairwise).
Sertakan metrik berbasis komputasi untuk mendapatkan insight tambahan.
-
- Berikan set data yang mencerminkan kasus penggunaan tertentu Anda.
-
Mulai dari awal, gunakan template, atau sesuaikan contoh yang ada.
Tentukan model kandidat dan buat
EvalTask
untuk menggunakan kembali logika evaluasi Anda melalui Vertex AI.
Notebook untuk kasus penggunaan evaluasi
Tabel berikut mencantumkan notebook Vertex AI SDK untuk Python untuk berbagai kasus penggunaan evaluasi AI generatif:
Kasus penggunaan | Deskripsi | Link ke notebook |
---|---|---|
Mengevaluasi model | Panduan memulai: Pengantar SDK layanan evaluasi Gen AI. | Memulai SDK layanan evaluasi AI Generatif |
Evaluasi dan pilih model dasar pihak pertama (1P) untuk tugas Anda. | Mengevaluasi dan memilih model dasar pihak pertama (1P) untuk tugas Anda | |
Mengevaluasi dan memilih setelan model Gen AI: Menyesuaikan temperatur, batas token output, setelan keamanan, dan konfigurasi pembuatan model lainnya dari model Gemini pada tugas ringkasan dan membandingkan hasil evaluasi dari setelan model yang berbeda pada beberapa metrik. |
Membandingkan berbagai setelan parameter model untuk Gemini | |
Mengevaluasi model pihak ketiga (3P) di Model Garden Vertex AI. Notebook ini memberikan panduan komprehensif untuk mengevaluasi model Gemini Google dan model bahasa pihak ketiga menggunakan SDK layanan evaluasi AI Generatif. Pelajari cara menilai dan membandingkan model dari berbagai sumber, termasuk model terbuka dan tertutup, endpoint model, dan library klien pihak ketiga menggunakan berbagai metrik dan teknik evaluasi. Dapatkan pengalaman praktis dalam melakukan eksperimen terkontrol dan menganalisis performa model di berbagai tugas. |
Menggunakan SDK layanan evaluasi AI Generatif untuk Mengevaluasi Model di Vertex AI Studio, Model Garden, dan Model Registry | |
Bermigrasi dari model PaLM ke Gemini dengan SDK layanan evaluasi AI Generatif. Notebook ini memandu Anda mengevaluasi model dasar PaLM dan Gemini menggunakan beberapa metrik evaluasi untuk mendukung keputusan terkait migrasi dari satu model ke model lainnya. Kami memvisualisasikan metrik ini untuk mendapatkan insight tentang kelebihan dan kekurangan setiap model, sehingga membantu Anda membuat keputusan yang tepat tentang model mana yang paling sesuai dengan persyaratan spesifik kasus penggunaan Anda. |
Membandingkan dan bermigrasi dari model PaLM ke Gemini | |
Mengevaluasi model terjemahan. Notebook ini menunjukkan cara menggunakan Vertex AI SDK untuk layanan evaluasi Gen AI guna mengukur kualitas terjemahan respons model bahasa besar (LLM) menggunakan BLEU, MetricX, dan COMET. |
Mengevaluasi model terjemahan | |
Mengevaluasi template perintah | Rekayasa perintah dan evaluasi perintah dengan SDK layanan evaluasi AI Generatif. | Mengevaluasi dan Mengoptimalkan Desain Template Perintah untuk Hasil yang Lebih Baik |
Mengevaluasi aplikasi AI Generatif | Mengevaluasi penggunaan alat model Gemini dan kemampuan panggilan fungsi. | Mengevaluasi Penggunaan Alat Model Gemini |
Evaluasi jawaban yang dihasilkan dari Retrieval-Augmented Generation (RAG) untuk tugas menjawab pertanyaan dengan SDK layanan evaluasi AI Generatif. | Mengevaluasi Jawaban yang Dibuat dari Retrieval-Augmented Generation (RAG) | |
Mengevaluasi chatbot LangChain dengan layanan evaluasi AI Generatif Vertex AI. Notebook ini menunjukkan cara mengevaluasi chatbot percakapan LangChain menggunakan SDK layanan evaluasi Gen AI Vertex AI. Panduan ini mencakup persiapan data, penyiapan rantai LangChain, pembuatan metrik evaluasi kustom, dan analisis hasil. Tutorial ini menggunakan chatbot saran resep sebagai contoh dan menunjukkan cara meningkatkan performanya dengan melakukan iterasi pada desain perintah. |
Mengevaluasi LangChain | |
Penyesuaian metrik | Sesuaikan metrik berbasis model dan evaluasi model AI generatif sesuai dengan kriteria spesifik Anda menggunakan fitur berikut:
|
Menyesuaikan Metrik Berbasis Model untuk mengevaluasi model AI Generatif |
Evaluasi model AI generatif dengan metrik kustom yang ditentukan secara lokal, dan bawa model hakim Anda sendiri untuk melakukan evaluasi metrik berbasis model. | Bring-Your-Own-Autorater menggunakan Metrik Kustom | |
Tentukan fungsi metrik kustom berbasis komputasi Anda sendiri, dan gunakan untuk evaluasi dengan SDK layanan evaluasi AI Generatif. | Membawa Metrik Kustom berbasis komputasi Anda sendiri | |
Topik lainnya | Panduan Migrasi Pratinjau ke GA SDK layanan evaluasi Gen AI. Tutorial ini memandu Anda melalui proses migrasi dari versi Pratinjau ke versi GA terbaru Vertex AI SDK untuk Python untuk layanan evaluasi Gen AI. Panduan ini juga menunjukkan cara menggunakan SDK versi GA untuk mengevaluasi Retrieval-Augmented Generation (RAG) dan membandingkan dua model menggunakan evaluasi berpasangan. |
Panduan Migrasi Pratinjau ke GA untuk SDK layanan evaluasi Gen AI |
Model dan bahasa yang didukung
Layanan evaluasi AI Generatif Vertex AI mendukung model dasar Google, model pihak ketiga, dan model terbuka. Anda dapat memberikan prediksi yang telah dibuat sebelumnya secara langsung, atau membuat respons model kandidat secara otomatis dengan cara berikut:
Membuat respons secara otomatis untuk model dasar Google (seperti Gemini 1.5 Pro) dan model apa pun yang di-deploy di Vertex AI Model Registry.
Berintegrasi dengan API pembuatan teks SDK dari pihak ketiga dan model terbuka lainnya.
Gabungkan endpoint model dari penyedia lain menggunakan Vertex AI SDK.
Untuk metrik berbasis model Gemini, layanan evaluasi AI Generatif mendukung semua bahasa input yang didukung oleh Gemini 1.5 Pro. Namun, kualitas evaluasi untuk input non-Inggris mungkin tidak setinggi kualitas untuk input berbahasa Inggris.
Layanan evaluasi AI Generatif mendukung bahasa berikut untuk metrik terjemahan berbasis model:
MetricX
Bahasa yang didukung untuk MetricX: Afrikaans, Albania, Amharik, Arab, Armenia, Azerbaijan, Basque, Belarus, Bengali, Bulgaria, Burma, Katalan, Cebuano, Chichewa, China, Korsika, Ceko, Denmark, Belanda, Inggris, Esperanto, Estonia, Filipina, Finlandia, Prancis, Galicia, Georgia, Jerman, Yunani, Gujarati, Kreol Haiti, Hausa, Hawaii, Ibrani, Hindi, Hmong, Hungaria, Islandia, Igbo, Indonesia, Irlandia, Italia, Jepang, Jawa, Kannada, Kazakh, Khmer, Korea, Kurdi, Kirgiz, Laos, Latin, Latvia, Lituania, Luksemburg, Makedonia, Malagasi, Melayu, Malayalam, Malta, Maori, Marathi, Mongolia, Nepal, Norwegia, Pashto, Persia, Polandia, Portugis, Punjabi, Rumania, Rusia, Samoa, Gaelik Skotlandia, Serbia, Shona, Sindhi, Sinhala, Slovakia, Slovenia, Somalia, Sotho, Spanyol, Sunda, Swahili, Swedia, Tajik, Tamil, Telugu, Thailand, Turki, Ukraina, Urdu, Uzbek, Vietnam, Welsh, Frisia Barat, Xhosa, Yiddish, Yoruba, Zulu.
COMET
Bahasa yang didukung untuk COMET: Afrikaans, Albania, Amharik, Arab, Armenia, Assam, Azerbaijan, Basque, Belarus, Bengali, Bengali Romanized, Bosnia, Breton, Bulgaria, Burma, Burma, Katalan, China (Sederhana), China (Tradisional), Kroasia, Ceko, Denmark, Belanda, Inggris, Esperanto, Estonia, Filipina, Finlandia, Prancis, Galicia, Georgia, Jerman, Yunani, Gujarati, Hausa, Ibrani, Hindi, Hindi Romanized, Hungaria, Islandia, Indonesia, Irlandia, Italia, Jepang, Jawa, Kannada, Kazakh, Khmer, Korea, Kurdi (Kurmanji), Kirgiz, Laos, Latin, Latvia, Lituania, Makedonia, Malagasi, Melayu, Malayalam, Marathi, Mongolia, Nepal, Norwegia, Oriya, Oromo, Pashto, Persia, Polandia, Portugis, Punjabi, Rumania, Rusia, Sanskerta, Skotlandia, Gaelik, Serbia, Sindhi, Sinhala, Slovakia, Slovenia, Somalia, Spanyol, Sunda, Swahili, Swedia, Tamil, Tamil Romanized, Telugu, Telugu Romanized, Thai, Turki, Ukraina, Urdu, Urdu Romanized, Uyghur, Uzbek, Vietnam, Welsh, Barat, Frisia, Xhosa, Yiddish.
Langkah selanjutnya
Coba panduan memulai evaluasi.
Pelajari cara menyesuaikan model dasar.