HuggingFace には、事前トレーニング済みモデル、ファインチューニング スクリプト、開発 API が用意されており、LLM の作成と検出が容易になります。Model Garden は、HuggingFace でサポートされているテキスト エンベディング推論、通常の Pytorch 推論、テキスト生成推論モデルをサービングできます。
Hugging Face モデルのデプロイ オプション
サポートされている Hugging Face モデルは、Vertex AI または Google Kubernetes Engine(GKE)にデプロイできます。選択するデプロイ オプションは、使用しているモデルと、ワークロードをどの程度制御するかによって異なります。
Vertex AI にデプロイする
Vertex AI は、社内の MLOps の専門知識がなくても、ML プロジェクトを構築してスケーリングできるマネージド プラットフォームを提供します。Vertex AI は、Hugging Face モデルを提供するダウンストリーム アプリケーションとして使用できます。エンドツーエンドの MLOps 機能、付加価値のある ML 機能、開発の合理化に役立つサーバーレス エクスペリエンスが必要な場合は、Vertex AI を使用することをおすすめします。
Vertex AI でサポートされている Hugging Face モデルをデプロイするには、Model Garden に移動します。
[Hugging Face のオープンソース モデル] セクションに移動し、[もっと見る] をクリックします。
デプロイするモデルを見つけて選択します。
省略可: [デプロイ環境] で [Vertex AI] を選択します。
省略可: デプロイの詳細を指定します。
[デプロイ] をクリックします。
使用を開始するには、次の例をご覧ください。
- モデルの中には、詳細なモデルカードと Google による検証済みのデプロイ設定を持つものもあります(google/gemma-7b-it、meta-llama/Llama-2-7b-chat-hf、mistralai/Mistral-7B-v0.1、BAAI/bge-m3、intfloat/multilingual-e5-large-instruct、stabilityai/stable-diffusion-2-1、HuggingFaceFW/fineweb-edu-classifier など)。
- デプロイ設定は Google によって検証されているものの、詳細なモデルカードがないモデルもあります(NousResearch/Genstruct-7B など)。
- ai4bharat/Airavata のように、デプロイ設定が自動生成されるモデルもあります。
- テキスト生成、テキスト エンベディング、テキストから画像の生成などの最新のトレンドモデルなど、一部のモデルには、モデルのメタデータに基づいて自動生成されるデプロイ設定があります。
GKE にデプロイする
Google Kubernetes Engine(GKE)は、拡張性、セキュリティ、復元力、費用対効果に優れたマネージド Kubernetes 向けの Google Cloud ソリューションです。既存の Kubernetes への投資があり、組織内に独自の MLOps 専門知識が存在しているか、独自のセキュリティ、データ パイプライン、リソース管理要件に従って複雑な AI / ML ワークロードをきめ細かく制御する必要がある場合は、このオプションをおすすめします。
GKE でサポートされている Hugging Face モデルをデプロイするには、Model Garden に移動します。
[Hugging Face のオープンソース モデル] セクションに移動し、[もっと見る] をクリックします。
デプロイするモデルを見つけて選択します。
[デプロイ環境] で [GKE] を選択します。
デプロイ手順に沿って操作します。
使用を開始するには、次の例をご覧ください。
- モデルの中には、詳細なモデルカードと検証済みのデプロイ設定を持つものもあります(google/gemma-7b-it、meta-llama/Llama-2-7b-chat-hf、mistralai/Mistral-7B-v0.1 など)。
- デプロイ設定は検証されているものの、詳細なモデルカード(NousResearch/Genstruct-7B など)がないモデルもあります。