Ringkasan layanan evaluasi AI Generatif

Layanan evaluasi Gen AI di Vertex AI memungkinkan Anda mengevaluasi model atau aplikasi generatif dan membandingkan hasil evaluasi dengan penilaian Anda sendiri, menggunakan kriteria evaluasi Anda sendiri.

Meskipun papan peringkat dan laporan menawarkan insight tentang performa model secara keseluruhan, keduanya tidak mengungkapkan cara model menangani kebutuhan spesifik Anda. Layanan evaluasi AI Generatif membantu Anda menentukan kriteria evaluasi Anda sendiri, sehingga memastikan pemahaman yang jelas tentang seberapa baik model dan aplikasi AI generatif sesuai dengan kasus penggunaan unik Anda.

Evaluasi penting pada setiap langkah proses pengembangan AI Generatif Anda, termasuk pemilihan model, rekayasa perintah, dan penyesuaian model. Mengevaluasi AI Generatif terintegrasi dalam Vertex AI untuk membantu Anda meluncurkan dan menggunakan kembali evaluasi sesuai kebutuhan.

Kemampuan layanan evaluasi AI generatif

Layanan evaluasi AI Generatif dapat membantu Anda melakukan tugas berikut:

  • Pemilihan model: Pilih model terlatih terbaik untuk tugas Anda berdasarkan hasil benchmark dan performanya pada data tertentu.

  • Setelan pembuatan: Sesuaikan parameter model (seperti suhu) untuk mengoptimalkan output sesuai kebutuhan Anda.

  • Rekayasa perintah: Buat perintah dan template perintah yang efektif untuk memandu model ke perilaku dan respons yang Anda inginkan.

  • Meningkatkan dan mengamankan penyesuaian: Sesuaikan model untuk meningkatkan performa untuk kasus penggunaan Anda, sekaligus menghindari bias atau perilaku yang tidak diinginkan.

  • Pengoptimalan RAG: Pilih arsitektur Retrieval Augmented Generation (RAG) yang paling efektif untuk meningkatkan performa aplikasi Anda.

  • Migrasi: Terus-menerus menilai dan meningkatkan performa solusi AI Anda dengan bermigrasi ke model yang lebih baru jika model tersebut memberikan keunggulan yang jelas untuk kasus penggunaan tertentu Anda.

  • Terjemahan (pratinjau): Menilai kualitas terjemahan model Anda.

Proses evaluasi

Layanan evaluasi AI Generatif memungkinkan Anda mengevaluasi model atau aplikasi AI Generatif berdasarkan kriteria evaluasi dengan mengikuti langkah-langkah berikut:

  1. Menentukan metrik evaluasi:

    • Pelajari cara menyesuaikan metrik berbasis model dengan kriteria bisnis Anda.

    • Mengevaluasi satu model (pointwise) atau menentukan pemenang saat membandingkan 2 model (pairwise).

    • Menyertakan metrik berbasis komputasi untuk insight tambahan.

  2. Siapkan set data evaluasi.

    • Berikan set data yang mencerminkan kasus penggunaan tertentu Anda.
  3. Jalankan evaluasi.

    • Mulai dari awal, gunakan template, atau sesuaikan contoh yang ada.

    • Tentukan model kandidat dan buat EvalTask untuk menggunakan kembali logika evaluasi Anda melalui Vertex AI.

  4. Lihat dan interpretasikan hasil evaluasi Anda.

Notebook untuk kasus penggunaan evaluasi

Tabel berikut mencantumkan notebook Vertex AI SDK untuk Python untuk berbagai kasus penggunaan evaluasi AI generatif:

Kasus penggunaan Deskripsi Link ke notebook
Mengevaluasi model Panduan memulai: Pengantar SDK layanan evaluasi Gen AI. Memulai SDK layanan evaluasi AI Generatif
Evaluasi dan pilih model dasar pihak pertama (1P) untuk tugas Anda. Mengevaluasi dan memilih model dasar pihak pertama (1P) untuk tugas Anda
Mengevaluasi dan memilih setelan model Gen AI:

Menyesuaikan temperatur, batas token output, setelan keamanan, dan konfigurasi pembuatan model lainnya dari model Gemini pada tugas ringkasan dan membandingkan hasil evaluasi dari setelan model yang berbeda pada beberapa metrik.
Membandingkan berbagai setelan parameter model untuk Gemini
Mengevaluasi model pihak ketiga (3P) di Model Garden Vertex AI.

Notebook ini memberikan panduan komprehensif untuk mengevaluasi model Gemini Google dan model bahasa pihak ketiga menggunakan SDK layanan evaluasi AI Generatif. Pelajari cara menilai dan membandingkan model dari berbagai sumber, termasuk model terbuka dan tertutup, endpoint model, dan library klien pihak ketiga menggunakan berbagai metrik dan teknik evaluasi. Dapatkan pengalaman praktis dalam melakukan eksperimen terkontrol dan menganalisis performa model di berbagai tugas.
Menggunakan SDK layanan evaluasi AI Generatif untuk Mengevaluasi Model di Vertex AI Studio, Model Garden, dan Model Registry
Bermigrasi dari model PaLM ke Gemini dengan SDK layanan evaluasi AI Generatif.

Notebook ini memandu Anda mengevaluasi model dasar PaLM dan Gemini menggunakan beberapa metrik evaluasi untuk mendukung keputusan terkait migrasi dari satu model ke model lainnya. Kami memvisualisasikan metrik ini untuk mendapatkan insight tentang kelebihan dan kekurangan setiap model, sehingga membantu Anda membuat keputusan yang tepat tentang model mana yang paling sesuai dengan persyaratan spesifik kasus penggunaan Anda.
Membandingkan dan bermigrasi dari model PaLM ke Gemini
Mengevaluasi model terjemahan.

Notebook ini menunjukkan cara menggunakan Vertex AI SDK untuk layanan evaluasi Gen AI guna mengukur kualitas terjemahan respons model bahasa besar (LLM) menggunakan BLEU, MetricX, dan COMET.
Mengevaluasi model terjemahan
Mengevaluasi template perintah Rekayasa perintah dan evaluasi perintah dengan SDK layanan evaluasi AI Generatif. Mengevaluasi dan Mengoptimalkan Desain Template Perintah untuk Hasil yang Lebih Baik
Mengevaluasi aplikasi AI Generatif Mengevaluasi penggunaan alat model Gemini dan kemampuan panggilan fungsi. Mengevaluasi Penggunaan Alat Model Gemini
Evaluasi jawaban yang dihasilkan dari Retrieval-Augmented Generation (RAG) untuk tugas menjawab pertanyaan dengan SDK layanan evaluasi AI Generatif. Mengevaluasi Jawaban yang Dibuat dari Retrieval-Augmented Generation (RAG)
Mengevaluasi chatbot LangChain dengan layanan evaluasi AI Generatif Vertex AI.

Notebook ini menunjukkan cara mengevaluasi chatbot percakapan LangChain menggunakan SDK layanan evaluasi Gen AI Vertex AI. Panduan ini mencakup persiapan data, penyiapan rantai LangChain, pembuatan metrik evaluasi kustom, dan analisis hasil. Tutorial ini menggunakan chatbot saran resep sebagai contoh dan menunjukkan cara meningkatkan performanya dengan melakukan iterasi pada desain perintah.
Mengevaluasi LangChain
Penyesuaian metrik Sesuaikan metrik berbasis model dan evaluasi model AI generatif sesuai dengan kriteria spesifik Anda menggunakan fitur berikut:

  • Penyesuaian dengan template: Gunakan kolom standar untuk membantu menentukan metrik berbasis model titik per titik dan berpasangan.
  • Penyesuaian penuh: Dapatkan kontrol penuh atas desain metrik berbasis model pointwise dan berpasangan.
Menyesuaikan Metrik Berbasis Model untuk mengevaluasi model AI Generatif
Evaluasi model AI generatif dengan metrik kustom yang ditentukan secara lokal, dan bawa model juri Anda sendiri untuk melakukan evaluasi metrik berbasis model. Bring-Your-Own-Autorater menggunakan Metrik Kustom
Tentukan fungsi metrik kustom berbasis komputasi Anda sendiri, dan gunakan untuk evaluasi dengan SDK layanan evaluasi AI Generatif. Membawa Metrik Kustom berbasis komputasi Anda sendiri
Topik lainnya Panduan Migrasi Pratinjau ke GA untuk SDK layanan evaluasi Gen AI.

Tutorial ini memandu Anda melalui proses migrasi dari versi Pratinjau ke versi GA terbaru Vertex AI SDK untuk Python untuk layanan evaluasi Gen AI. Panduan ini juga menunjukkan cara menggunakan SDK versi GA untuk mengevaluasi Retrieval-Augmented Generation (RAG) dan membandingkan dua model menggunakan evaluasi berpasangan.
Panduan Migrasi Pratinjau ke GA untuk SDK layanan evaluasi Gen AI

Model dan bahasa yang didukung

Layanan evaluasi AI Generatif Vertex AI mendukung model dasar Google, model pihak ketiga, dan model terbuka. Anda dapat memberikan prediksi yang telah dibuat sebelumnya secara langsung, atau membuat respons model kandidat secara otomatis dengan cara berikut:

  • Membuat respons secara otomatis untuk model dasar Google (seperti Gemini 1.5 Pro) dan model apa pun yang di-deploy di Vertex AI Model Registry.

  • Berintegrasi dengan API pembuatan teks SDK dari pihak ketiga dan model terbuka lainnya.

  • Gabungkan endpoint model dari penyedia lain menggunakan Vertex AI SDK.

Untuk metrik berbasis model Gemini, layanan evaluasi AI Generatif mendukung semua bahasa input yang didukung oleh Gemini 1.5 Pro. Namun, kualitas evaluasi untuk input non-bahasa Inggris mungkin tidak setinggi kualitas untuk input bahasa Inggris.

Layanan evaluasi AI Generatif mendukung bahasa berikut untuk metrik terjemahan berbasis model:

MetricX

Bahasa yang didukung untuk MetricX: Afrikaans, Albania, Amharik, Arab, Armenia, Azerbaijan, Basque, Belarus, Bengali, Bulgaria, Burma, Katalan, Cebuano, Chichewa, China, Korsika, Ceko, Denmark, Belanda, Inggris, Esperanto, Estonia, Filipina, Finlandia, Prancis, Galicia, Georgia, Jerman, Yunani, Gujarati, Kreol Haiti, Hausa, Hawaii, Ibrani, Hindi, Hmong, Hungaria, Islandia, Igbo, Indonesia, Irlandia, Italia, Jepang, Jawa, Kannada, Kazakh, Khmer, Korea, Kurdi, Kirgiz, Laos, Latin, Latvia, Lituania, Luksemburg, Makedonia, Malagasi, Melayu, Malayalam, Malta, Maori, Marathi, Mongolia, Nepal, Norwegia, Pashto, Persia, Polandia, Portugis, Punjabi, Rumania, Rusia, Samoa, Gaelik Skotlandia, Serbia, Shona, Sindhi, Sinhala, Slovakia, Slovenia, Somalia, Sotho, Spanyol, Sunda, Swahili, Swedia, Tajik, Tamil, Telugu, Thailand, Turki, Ukraina, Urdu, Uzbek, Vietnam, Welsh, Frisia Barat, Xhosa, Yiddish, Yoruba, Zulu.

COMET

Bahasa yang didukung untuk COMET: Afrikaans, Albania, Amharik, Arab, Armenia, Assam, Azerbaijan, Basque, Belarus, Bengali, Bengali Romanized, Bosnia, Breton, Bulgaria, Burma, Burma, Katalan, China (Sederhana), China (Tradisional), Kroasia, Ceko, Denmark, Belanda, Inggris, Esperanto, Estonia, Filipina, Finlandia, Prancis, Galicia, Georgia, Jerman, Yunani, Gujarati, Hausa, Ibrani, Hindi, Hindi Romanized, Hungaria, Islandia, Indonesia, Irlandia, Italia, Jepang, Jawa, Kannada, Kazakh, Khmer, Korea, Kurdi (Kurmanji), Kirgiz, Laos, Latin, Latvia, Lituania, Makedonia, Malagasi, Melayu, Malayalam, Marathi, Mongolia, Nepali, Norwegia, Oriya, Oromo, Pashto, Persia, Polandia, Portugis, Punjabi, Rumania, Rusia, Sanskerta, Skotlandia, Gaelik, Serbia, Sindhi, Sinhala, Slovakia, Slovenia, Somalia, Spanyol, Sunda, Swahili, Swedia, Tamil, Tamil Romanized, Telugu, Telugu Romanized, Thai, Turki, Ukraina, Urdu, Urdu Romanized, Uyghur, Uzbek, Vietnam, Welsh, Barat, Frisia, Xhosa, Yiddish.

Langkah selanjutnya