HuggingFace fornisce modelli preaddestrati, script di ottimizzazione e API di sviluppo che semplificano il processo di creazione e scoperta degli LLM. Model Garden supporta inferenza per l'incorporamento del testo e Normal Pytorch Inference supporta i modelli più diffusi in Huggingface e tutti i modelli supportati da inferenza della generazione di testo in HuggingFace.
Opzioni di relative al deployment
Per eseguire il deployment di un modello Hugging Face supportato, vai a Model Garden e fai clic su Deploy from Hugging Face.
Esegui il deployment in Vertex AI
Vertex AI offre una piattaforma gestita per la creazione e la scalabilità per i progetti di machine learning senza esperienza MLOps interna. Puoi utilizzare la modalità Vertex AI come applicazione downstream che gestisce Modelli di Hugging Face. È consigliabile utilizzare Vertex AI se vuoi funzionalità MLOps end-to-end, ML a valore aggiunto e un'esperienza serverless per uno sviluppo semplificato.
Per iniziare, guarda i seguenti esempi:
- Alcuni modelli hanno schede di modelli dettagliate e impostazioni di deployment verificate, ad esempio google/gemma-7b-it, meta-llama/Llama-2-7b-chat-hf, mistralai/Mistral-7B-v0.1, BAAI/bge-m3, intfloat/multilingual-e5-large-instructweb/12-Face-instructifier12-Human-1-Fusionstabilityai/stable-diffusion-2-1HuggingFaceFW/fineweb-edu-classifier
- Alcuni modelli hanno impostazioni di deployment verificate, ma non schede dettagliate dei modelli, ad esempio NousResearch/Genstruct-7B.
- Alcuni modelli hanno impostazioni di deployment non verificate che sono state calcolate automaticamente, ad esempio ai4bharat/Airavata.
Esegui il deployment in GKE
Google Kubernetes Engine (GKE) è la soluzione Google Cloud per Kubernetes gestito che offre scalabilità, sicurezza, resilienza e costi efficace. Ti consigliamo questa opzione se hai degli asset Kubernetes esistenti, investimenti, la tua organizzazione dispone di competenze MLOps interne o se hai bisogno un controllo granulare sui carichi di lavoro di AI/ML complessi con sicurezza, dati pipeline e requisiti di gestione delle risorse.
Per iniziare, guarda i seguenti esempi:
- Alcuni modelli hanno schede dettagliate e impostazioni di deployment verificate, ad esempio google/gemma-7b-it, meta-llama/Llama-2-7b-chat-hf e mistralai/Mistral-7B-v0.1.
- Alcuni modelli hanno impostazioni di deployment verificate, ma non schede dettagliate dei modelli, ad esempio NousResearch/Genstruct-7B.