Utilizzare i modelli Hugging Face

Hugging Face fornisce modelli preaddestrati, script di ottimizzazione e API di sviluppo che semplificano il processo di creazione e rilevamento dei modelli LLM. Model Garden può erogare modelli di text embedding, da testo a immagine, generazione di testo e da testo in immagine a testo in HuggingFace.

Opzioni di deployment per i modelli Hugging Face

Puoi eseguire il deployment dei modelli Hugging Face supportati in Vertex AI o Google Kubernetes Engine (GKE). L'opzione di deployment che scegli può dipendere dal modello che utilizzi e dal livello di controllo che vuoi avere sui tuoi workload.

Esegui il deployment in Vertex AI

Vertex AI offre una piattaforma gestita per la creazione e lo scaling di progetti di machine learning senza competenze MLOps interne. Puoi utilizzare Vertex AI come applicazione downstream che pubblica i modelli Hugging Face. Ti consigliamo di utilizzare Vertex AI se vuoi funzionalità MLOps end-to-end, funzionalità ML a valore aggiunto e un'esperienza serverless per uno sviluppo semplificato.

  1. Per eseguire il deployment di un modello Hugging Face supportato in Vertex AI, vai a Model Garden.

    Vai a Model Garden

  2. Vai alla sezione Apri i modelli su Hugging Face e fai clic su Mostra altro.

  3. Trova e seleziona un modello di cui eseguire il deployment.

  4. (Facoltativo) Per Ambiente di deployment, seleziona Vertex AI.

  5. (Facoltativo) Specifica i dettagli del deployment.

  6. Fai clic su Esegui il deployment.

Per iniziare, consulta i seguenti esempi:

Esegui il deployment in GKE

Google Kubernetes Engine (GKE) è la Google Cloud soluzione per Kubernetes gestito che offre scalabilità, sicurezza, resilienza ed efficacia in termini di costi. Ti consigliamo questa opzione se hai investimenti Kubernetes esistenti, la tua organizzazione dispone di competenze MLOps interne o se hai bisogno di un controllo granulare su carichi di lavoro AI/ML complessi con requisiti unici di sicurezza, pipeline di dati e gestione delle risorse.

  1. Per eseguire il deployment di un modello Hugging Face supportato in GKE, vai a Model Garden.

    Vai a Model Garden

  2. Vai alla sezione Apri i modelli su Hugging Face e fai clic su Mostra altro.

  3. Trova e seleziona un modello di cui eseguire il deployment.

  4. Per Ambiente di deployment, seleziona GKE.

  5. Segui le istruzioni di deployment.

Per iniziare, consulta i seguenti esempi:

Che cosa significa "Supportato da Vertex AI"?

Aggiungiamo automaticamente i modelli Hugging Face più recenti e popolari a Model Garden. Questo processo include la generazione automatica di una configurazione di deployment per ogni modello.

Per rispondere alle preoccupazioni relative a vulnerabilità e codici dannosi, utilizziamo lo scanner di malware di Hugging Face per valutare quotidianamente la sicurezza dei file all'interno di ogni repository di modelli di Hugging Face. Se un repository di modelli viene segnalato come contenente malware, rimuoviamo immediatamente il modello dalla pagina della galleria di Hugging Face.

Anche se un modello è designato come supportato da Vertex AI, ciò significa che è stato testato ed è implementabile su Vertex AI, ma non garantiamo l'assenza di vulnerabilità o codice dannoso. Ti consigliamo di eseguire le tue verifiche di sicurezza prima di eseguire il deployment di qualsiasi modello nel tuo ambiente di produzione.

Ottimizzare le configurazioni di deployment per casi d'uso specifici

La configurazione di deployment predefinita fornita con l'opzione di deployment con un clic non può soddisfare tutti i requisiti data la vasta gamma di casi d'uso e le diverse priorità con latenza, velocità effettiva, costi e precisione.

Pertanto, puoi inizialmente sperimentare la distribuzione con un clic per stabilire una base di riferimento, quindi perfezionare le configurazioni di distribuzione utilizzando il notebook Colab (vLLM, TGI, TEI, inferenza HF pytorch) o l'SDK Python. Questo approccio iterativo ti consente di personalizzare l'implementazione in base alle tue esigenze specifiche per ottenere il miglior rendimento possibile per la tua applicazione specifica.

Cosa devi fare se il modello che ti interessa non è elencato in Model Garden

Se stai cercando un modello specifico che non è elencato in Model Garden, il modello non è supportato da Vertex AI. Le sezioni seguenti descrivono il ragionamento e cosa puoi fare.

Perché il modello non è elencato?

Di seguito sono riportati i motivi per cui un modello potrebbe non essere presente in Model Garden:

  • Non è un modello di tendenza: spesso diamo la priorità ai modelli molto popolari e che suscitano un forte interesse nella community.
  • Non è ancora compatibile: il modello potrebbe non funzionare con un contenitore di pubblicazione supportato. Ad esempio, il container vLLM per i modelli text-generation e image-text-to-text.
  • Attività della pipeline non supportate: il modello ha un'attività che al momento non supportiamo completamente. Supportiamo le seguenti attività: text-generation, text2text-generation, text-to-image, feature-extraction, sentence-similarity, e image-text-to-text.

Quali sono le opzioni a tua disposizione?

Puoi comunque lavorare con i modelli disponibili in Model Garden:

  • Esegui il deployment autonomamente utilizzando il notebook Colab: abbiamo i seguenti Notebooks Colab: (vLLM, TGI, TEI, inferenza HF pytorch), che offrono la flessibilità di eseguire il deployment di modelli con configurazioni personalizzate. In questo modo hai il controllo completo della procedura.
  • Invia una richiesta di funzionalità: collabora con il tuo tecnico del servizio di assistenza dell'assistenza e invia una richiesta di funzionalità tramite Model Garden o consulta Assistenza Vertex Generative AI per ulteriore aiuto.
  • Tieni d'occhio gli aggiornamenti: aggiungiamo regolarmente nuovi modelli a Model Garden. Il modello che stai cercando potrebbe diventare disponibile in futuro, quindi controlla periodicamente.