HuggingFace menyediakan model terlatih, skrip penyesuaian, dan API pengembangan yang mempermudah proses pembuatan dan penemuan LLM. Model Garden dapat menayangkan model yang didukung Text Embedding Inference, Regular Pytorch Inference, dan Text Generation Inference di HuggingFace.
Opsi deployment untuk model Hugging Face
Anda dapat men-deploy model Hugging Face yang didukung di Vertex AI atau Google Kubernetes Engine (GKE). Opsi deployment yang Anda pilih dapat bergantung pada model yang Anda gunakan dan seberapa besar kontrol yang Anda inginkan atas workload Anda.
Men-deploy di Vertex AI
Vertex AI menawarkan platform terkelola untuk membuat dan menskalakan project machine learning tanpa keahlian MLOps internal. Anda dapat menggunakan Vertex AI sebagai aplikasi downstream yang menayangkan model Hugging Face. Sebaiknya gunakan Vertex AI jika Anda menginginkan kemampuan MLOps menyeluruh, fitur ML nilai tambah, dan pengalaman tanpa server untuk pengembangan yang disederhanakan.
Untuk men-deploy model Hugging Face yang didukung di Vertex AI, buka Model Garden.
Buka bagian Model open source di Hugging Face, lalu klik Tampilkan selengkapnya.
Temukan dan pilih model yang akan di-deploy.
Opsional: Untuk Lingkungan deployment, pilih Vertex AI.
Opsional: Tentukan detail deployment.
Klik Deploy.
Untuk memulai, lihat contoh berikut:
- Beberapa model memiliki kartu model mendetail dan setelan deployment diverifikasi oleh Google, seperti google/gemma-7b-it, meta-llama/Llama-2-7b-chat-hf, mistralai/Mistral-7B-v0.1, BAAI/bge-m3, intfloat/multilingual-e5-large-instruct, stabilityai/stable-diffusion-2-1, dan HuggingFaceFW/fineweb-edu-classifier.
- Beberapa model memiliki setelan deployment yang diverifikasi oleh Google, tetapi tidak memiliki kartu model yang mendetail, seperti NousResearch/Genstruct-7B.
- Beberapa model memiliki setelan deployment yang dibuat secara otomatis, seperti ai4bharat/Airavata.
- Beberapa model telah otomatis membuat setelan deployment yang didasarkan pada metadata model, seperti beberapa model trending terbaru dalam pembuatan teks, penyematan teks, dan pembuatan teks ke gambar.
Men-deploy di GKE
Google Kubernetes Engine (GKE) adalah solusi Google Cloud untuk Kubernetes terkelola yang memberikan skalabilitas, keamanan, ketahanan, dan efektivitas biaya. Sebaiknya gunakan opsi ini jika Anda sudah memiliki investasi Kubernetes, organisasi Anda memiliki keahlian MLOps internal, atau jika Anda memerlukan kontrol terperinci atas beban kerja AI/ML yang kompleks dengan persyaratan keamanan, pipeline data, dan pengelolaan resource yang unik.
Untuk men-deploy model Hugging Face yang didukung di GKE, buka Model Garden.
Buka bagian Model open source di Hugging Face, lalu klik Tampilkan selengkapnya.
Temukan dan pilih model yang akan di-deploy.
Untuk Deployment environment, pilih GKE.
Ikuti petunjuk deployment.
Untuk memulai, lihat contoh berikut:
- Beberapa model memiliki kartu model mendetail dan setelan deployment terverifikasi, seperti google/gemma-7b-it, meta-llama/Llama-2-7b-chat-hf, dan mistralai/Mistral-7B-v0.1).
- Beberapa model telah memverifikasi setelan deployment, tetapi tidak memiliki kartu model yang mendetail, seperti NousResearch/Genstruct-7B.