HuggingFace fornisce modelli preaddestrati, script di ottimizzazione e API di sviluppo che semplificano il processo di creazione e scoperta degli LLM. Model Garden può pubblicare i modelli supportati in HuggingFace di Inferenza di incorporamento di testo, Inferenza di PyTorch standard e Inferenza di generazione di testo.
Opzioni di deployment per i modelli Hugging Face
Puoi eseguire il deployment dei modelli Hugging Face supportati in Vertex AI oppure Google Kubernetes Engine (GKE). L'opzione di deployment che scegli può dipendere dal modello in uso e dal livello di controllo che vuoi avere sui carichi di lavoro.
Esegui il deployment in Vertex AI
Vertex AI offre una piattaforma gestita per la creazione e la scalabilità dei progetti di machine learning senza competenze MLOps interne. Puoi utilizzare la modalità Vertex AI come applicazione downstream che gestisce Modelli di Hugging Face. Ti consigliamo di utilizzare Vertex AI se vuoi funzionalità MLOps end-to-end, ML a valore aggiunto e un'esperienza serverless per uno sviluppo semplificato.
Per eseguire il deployment di un modello Hugging Face supportato in Vertex AI, vai a Model Garden.
Vai alla sezione Modelli open source su Hugging Face e fai clic su Mostra altro.
Trova e seleziona un modello da implementare.
(Facoltativo) Per Ambiente di deployment, seleziona Vertex AI.
(Facoltativo) Specifica i dettagli del deployment.
Fai clic su Esegui il deployment.
Per iniziare, consulta i seguenti esempi:
- Alcuni modelli hanno schede dettagliate e le impostazioni di implementazione sono verificate da Google, ad esempio google/gemma-7b-it, meta-llama/Llama-2-7b-chat-hf, mistralai/Mistral-7B-v0.1, BAAI/bge-m3, intfloat/multilingual-e5-large-instruct, stabilityai/stable-diffusion-2-1 e HuggingFaceFW/fineweb-edu-classifier.
- Per alcuni modelli le impostazioni di implementazione sono state verificate da Google, ma non sono presenti schede modello dettagliate, ad esempio NousResearch/Genstruct-7B.
- Per alcuni modelli, le impostazioni di deployment vengono generate automaticamente, ad esempio ai4bharat/Airavata.
- Per alcuni modelli sono state generate automaticamente impostazioni di deployment basate sui metadati del modello, ad esempio alcuni dei modelli di tendenza più recenti per la generazione di testo, l'incorporamento di testo e la generazione di testo in immagini.
Esegui il deployment in GKE
Google Kubernetes Engine (GKE) è la soluzione Google Cloud per Kubernetes gestito che offre scalabilità, sicurezza, resilienza e costi efficace. Ti consigliamo questa opzione se hai già investimenti in Kubernetes, la tua organizzazione dispone di competenze MLOps interne o se hai bisogno di un controllo granulare su carichi di lavoro di IA/ML complessi con requisiti unici di sicurezza, pipeline di dati e gestione delle risorse.
Per eseguire il deployment di un modello Hugging Face supportato in GKE, vai a Model Garden.
Vai alla sezione Modelli open source su Hugging Face e fai clic su Mostra altro.
Trova e seleziona un modello di cui eseguire il deployment.
Per Ambiente di deployment, seleziona GKE.
Segui le istruzioni di implementazione.
Per iniziare, consulta i seguenti esempi:
- Alcuni modelli hanno schede dettagliate dei modelli e impostazioni di deployment verificate, ad esempio google/gemma-7b-it, meta-llama/Llama-2-7b-chat-hf e mistralai/Mistral-7B-v0.1.
- Alcuni modelli hanno impostazioni di deployment verificate, ma non schede dettagliate dei modelli, ad esempio NousResearch/Genstruct-7B.