HuggingFace bietet vortrainierte Modelle, Scripts zur Feinabstimmung und Entwicklungs-APIs, die das Erstellen und Entdecken von LLMs erleichtern. Model Garden kann Modelle in Hugging Face ausliefern, die von der Texteinbettung-, der regulären Pytorch-Inferenz und der Textgenerierung-Inferenz unterstützt werden.
Bereitstellungsoptionen für Hugging Face-Modelle
Sie können unterstützte Hugging Face-Modelle in Vertex AI oder in der Google Kubernetes Engine (GKE) bereitstellen. Die von Ihnen gewählte Bereitstellungsoption kann vom verwendeten Modell und von der gewünschten Kontrolle über Ihre Arbeitslasten abhängen.
In Vertex AI bereitstellen
Vertex AI bietet eine verwaltete Plattform zum Erstellen und Skalieren von ML-Projekten, ohne dass interne MLOps-Kenntnisse erforderlich sind. Sie können Vertex AI als nachgelagerte Anwendung verwenden, die Hugging Face-Modelle bereitstellt. Wir empfehlen die Verwendung von Vertex AI, wenn Sie End-to-End-MLOps-Funktionen, Mehrwert-ML-Features und eine serverlose Umgebung für eine optimierte Entwicklung wünschen.
Wenn Sie ein unterstütztes Hugging Face-Modell in Vertex AI bereitstellen möchten, rufen Sie Model Garden auf.
Klicken Sie im Bereich Open-Source-Modelle bei Hugging Face auf Mehr anzeigen.
Suchen Sie nach einem Modell, das Sie bereitstellen möchten, und wählen Sie es aus.
Optional: Wählen Sie für die Bereitstellungsumgebung die Option Vertex AI aus.
Optional: Geben Sie die Bereitstellungsdetails an.
Klicken Sie auf Bereitstellen.
Sehen Sie sich zum Einstieg die folgenden Beispiele an:
- Einige Modelle haben detaillierte Modellkarten und die Bereitstellungseinstellungen werden von Google überprüft, z. B. google/gemma-7b-it, meta-llama/Llama-2-7b-chat-hf, mistralai/Mistral-7B-v0.1, BAAI/bge-m3, intfloat/multilingual-e5-large-instruct, stabilityai/stable-diffusion-2-1 und HuggingFaceFW/fineweb-edu-classifier.
- Bei einigen Modellen wurden die Bereitstellungseinstellungen von Google überprüft, es gibt jedoch keine detaillierten Modellkarten, z. B. NousResearch/Genstruct-7B.
- Für einige Modelle werden Bereitstellungseinstellungen automatisch generiert, z. B. für ai4bharat/Airavata.
- Für einige Modelle werden automatisch Bereitstellungseinstellungen generiert, die auf Modellmetadaten basieren. Dazu gehören einige der neuesten angesagten Modelle für die Textgenerierung, die Texteinbettung und die Bildgenerierung aus Text.
In GKE bereitstellen
Google Kubernetes Engine (GKE) ist die Google Cloud-Lösung für verwaltete Kubernetes, die Skalierbarkeit, Sicherheit, Robustheit und Kosteneffizienz bietet. Wir empfehlen diese Option, wenn Sie bereits Kubernetes-Investitionen haben, Ihre Organisation über interne MLOps-Kenntnisse verfügt oder wenn Sie eine detaillierte Kontrolle über komplexe KI/ML-Arbeitslasten mit besonderer Sicherheit, Datenpipeline und Ressourcen benötigen Managementanforderungen.
Wenn Sie ein unterstütztes Hugging Face-Modell in GKE bereitstellen möchten, rufen Sie Model Garden auf.
Klicken Sie im Bereich Open-Source-Modelle bei Hugging Face auf Mehr anzeigen.
Suchen Sie nach einem Modell, das Sie bereitstellen möchten, und wählen Sie es aus.
Wählen Sie als Bereitstellungsumgebung GKE aus.
Folgen Sie der Anleitung zur Bereitstellung.
Sehen Sie sich zum Einstieg die folgenden Beispiele an:
- Einige Modelle haben detaillierte Modellkarten und überprüfte Bereitstellungseinstellungen, z. B. google/gemma-7b-it, meta-llama/Llama-2-7b-chat-hf und mistralai/Mistral-7B-v0.1.
- Einige Modelle haben verifizierte Bereitstellungseinstellungen, aber keine detaillierten Modellkarten wie NousResearch/Genstruct-7B.