Gemma adalah serangkaian model kecerdasan buatan (AI) generatif yang ringan. Model Gemma tersedia untuk dijalankan di aplikasi Anda dan di hardware, perangkat seluler, atau layanan yang dihosting. Anda juga dapat menyesuaikan model ini menggunakan teknik penyesuaian agar unggul dalam melakukan tugas yang penting bagi Anda dan pengguna Anda. Model Gemma didasarkan pada model Gemini dan ditujukan agar komunitas pengembangan AI dapat memperluas dan melangkah lebih jauh.
Anda dapat menggunakan model Gemma untuk kasus penggunaan pembuatan kode. Anda juga dapat menyesuaikan beberapa model Gemma untuk meningkatkan performanya dalam tugas tertentu. Model Gemma yang disesuaikan dapat membantu menjadikan solusi AI generatif Anda lebih bertarget dan efisien.
Model Gemma berikut tersedia untuk digunakan dengan Vertex AI. Untuk mempelajari lebih lanjut dan menguji model Gemma, lihat kartu model Model Garden mereka.
Nama model | Kasus penggunaan | Dapat disesuaikan | Kartu model Model Garden |
---|---|---|---|
Gemma | Paling cocok untuk pembuatan teks, perangkuman, dan ekstraksi. | Buka kartu model Gemma | |
CodeGemma | Paling cocok untuk pembuatan dan penyelesaian kode. | Buka kartu model CodeGemma |
Berikut adalah beberapa opsi untuk menggunakan Gemma:
Menggunakan Gemma dengan Vertex AI
Vertex AI menawarkan platform terkelola untuk membangun dan menskalakan project machine learning dengan cepat tanpa memerlukan keahlian MLOps internal. Anda dapat menggunakan Vertex AI sebagai aplikasi downstream yang menyajikan model Gemma. Misalnya, Anda dapat memindahkan bobot dari implementasi Keras Gemma. Selanjutnya, Anda dapat menggunakan Vertex AI untuk menyalurkan versi Gemma tersebut untuk mendapatkan prediksi. Sebaiknya gunakan Vertex AI jika Anda menginginkan kemampuan MLOps yang menyeluruh, fitur ML yang bernilai tambah, dan pengalaman serverless untuk pengembangan yang disederhanakan.
Untuk mulai menggunakan Gemma, lihat notebook berikut:
Sesuaikan Gemma menggunakan PEFT, lalu deploy ke Vertex AI dari Vertex
Sempurnakan Gemma menggunakan PEFT, lalu deploy ke Vertex AI dari Huggingface
Sesuaikan Gemma menggunakan KerasNLP, lalu deploy ke Vertex AI
Menggunakan Gemma di produk Google Cloud lainnya
Anda dapat menggunakan Gemma dengan produk Google Cloud lainnya, seperti Google Kubernetes Engine dan Dataflow.
Menggunakan Gemma dengan GKE
Google Kubernetes Engine (GKE) adalah solusi Google Cloud untuk Kubernetes terkelola yang memberikan skalabilitas, keamanan, ketahanan, dan efektivitas biaya. Kami merekomendasikan opsi ini jika Anda sudah memiliki investasi Kubernetes, organisasi Anda memiliki keahlian MLOps internal, atau jika Anda memerlukan kontrol terperinci atas beban kerja AI/ML yang kompleks dengan persyaratan keamanan, pipeline data, dan pengelolaan resource yang unik. Untuk mempelajari lebih lanjut, lihat tutorial berikut dalam dokumentasi GKE:
- Melayani Gemma dengan vLLM
- Melayani Gemma dengan TGI
- Melayani Gemma dengan Triton dan TensorRT-LLM
- Melayani Gemma dengan JetStream
- Menyajikan Gemma dengan Saxml
Menggunakan Gemma dengan Dataflow
Anda dapat menggunakan model Gemma dengan Dataflow untuk analisis sentimen. Gunakan Dataflow untuk menjalankan pipeline inferensi yang menggunakan model Gemma. Untuk mempelajari lebih lanjut, lihat Menjalankan pipeline inferensi dengan model terbuka Gemma.
Menggunakan Gemma dengan Colab
Anda dapat menggunakan Gemma dengan Colaboratory untuk membuat solusi Gemma. Di Colab, Anda dapat menggunakan Gemma dengan opsi framework seperti PyTorch dan JAX. Untuk mempelajari lebih lanjut, lihat:
- Mulai menggunakan Gemma menggunakan Keras.
- Mulai Gemma menggunakan PyTorch.
- Penyesuaian dasar dengan Gemma menggunakan Keras.
- Penyesuaian terdistribusi dengan Gemma menggunakan Keras.
Ukuran dan kemampuan model Gemma
Model Gemma tersedia dalam beberapa ukuran sehingga Anda dapat membangun solusi AI generatif berdasarkan resource komputasi yang tersedia, kemampuan yang Anda butuhkan, dan tempat Anda ingin menjalankannya. Setiap model tersedia dalam versi yang disesuaikan dan versi yang tidak di-tuning:
Dilatih - Versi model ini tidak dilatih pada tugas atau petunjuk tertentu di luar set pelatihan data inti Gemma. Sebaiknya jangan gunakan model ini tanpa melakukan penyesuaian.
Petunjuk disesuaikan - Versi model ini dilatih dengan interaksi bahasa manusia agar dapat berpartisipasi dalam percakapan, mirip dengan bot chat sederhana.
Jika Anda harus memutuskan antara Gemma 2B dan Gemma 7B, pertimbangkan Gemma 2B. Ukuran parameter Gemma 2B yang lebih rendah menandakan bahwa Gemma 2B memiliki persyaratan resource yang lebih rendah dan fleksibilitas deployment yang lebih besar dibandingkan Gemma 7B.
Nama model | Ukuran parameter | Input | Output | Versi yang disesuaikan | Platform yang ditargetkan |
---|---|---|---|---|---|
Gemma 2 M | 2,2 miliar | Text | Text |
|
Perangkat seluler dan laptop |
Gemma 7B | 7 miliar | Text | Text |
|
Komputer desktop dan server kecil |
CodeGemma 2B | 2 miliar | Text | Text |
|
Komputer desktop dan server kecil |
CodeGemma 7B | 7 miliar | Text | Text |
|
Komputer desktop dan server kecil |
Gemma telah diuji menggunakan hardware TPU v5e yang dibangun khusus dari Google dan hardware GPU L4(standar G2), A100(standar A2), dan H100(standar A3) NVIDIA.