HuggingFace fornisce modelli preaddestrati, script di ottimizzazione fine e API di sviluppo che semplificano il processo di creazione e scoperta degli LLM. Model Garden può pubblicare i modelli supportati in HuggingFace di Iperduzione di embedding di testo, Iperduzione di PyTorch standard e Iperduzione di generazione di testo.
Opzioni di deployment per i modelli Hugging Face
Puoi eseguire il deployment dei modelli Hugging Face supportati in Vertex AI o Google Kubernetes Engine (GKE). L'opzione di deployment che scegli può dipendere dal modello in uso e dal livello di controllo che vuoi avere sui tuoi workload.
Esegui il deployment in Vertex AI
Vertex AI offre una piattaforma gestita per la creazione e la scalabilità dei progetti di machine learning senza competenze MLOps interne. Puoi utilizzare Vertex AI come applicazione a valle che pubblica i modelli Hugging Face. Ti consigliamo di utilizzare Vertex AI se vuoi funzionalità MLOps end-to-end, funzionalità di ML con valore aggiunto e un'esperienza serverless per lo sviluppo semplificato.
Per eseguire il deployment di un modello Hugging Face supportato in Vertex AI, vai a Model Garden.
Vai alla sezione Modelli open source su Hugging Face e fai clic su Mostra altro.
Trova e seleziona un modello da implementare.
(Facoltativo) Per l'ambiente di deployment, seleziona Vertex AI.
(Facoltativo) Specifica i dettagli del deployment.
Fai clic su Esegui il deployment.
Per iniziare, consulta i seguenti esempi:
- Alcuni modelli hanno schede dettagliate e le impostazioni di implementazione sono verificate da Google, ad esempio google/gemma-7b-it, meta-llama/Llama-2-7b-chat-hf, mistralai/Mistral-7B-v0.1, BAAI/bge-m3, intfloat/multilingual-e5-large-instruct, stabilityai/stable-diffusion-2-1 e HuggingFaceFW/fineweb-edu-classifier.
- Per alcuni modelli le impostazioni di implementazione sono state verificate da Google, ma non sono presenti schede modello dettagliate, ad esempio NousResearch/Genstruct-7B.
- Per alcuni modelli, le impostazioni di deployment vengono generate automaticamente, ad esempio ai4bharat/Airavata.
- Per alcuni modelli sono state generate automaticamente impostazioni di deployment basate sui metadati del modello, ad esempio alcuni dei modelli di tendenza più recenti per la generazione di testo, l'incorporamento di testo e la generazione di testo in immagini.
Esegui il deployment in GKE
Google Kubernetes Engine (GKE) è la soluzione Google Cloud per Kubernetes gestito che offre scalabilità, sicurezza, resilienza ed economicità. Ti consigliamo questa opzione se hai già investimenti in Kubernetes, la tua organizzazione dispone di competenze MLOps interne o se hai bisogno di un controllo granulare su carichi di lavoro di AI/ML complessi con requisiti unici di sicurezza, pipeline di dati e gestione delle risorse.
Per eseguire il deployment di un modello Hugging Face supportato in GKE, vai a Model Garden.
Vai alla sezione Modelli open source su Hugging Face e fai clic su Mostra altro.
Trova e seleziona un modello da implementare.
Per Ambiente di deployment, seleziona GKE.
Segui le istruzioni di implementazione.
Per iniziare, consulta i seguenti esempi:
- Alcuni modelli hanno schede dettagliate e impostazioni di deployment verificate, ad esempio google/gemma-7b-it, meta-llama/Llama-2-7b-chat-hf e mistralai/Mistral-7B-v0.1.
- Alcuni modelli hanno impostazioni di deployment verificate, ma non schede dei modelli dettagliate, ad esempio NousResearch/Genstruct-7B.