Hugging Face モデルを使用する

Hugging Face には、事前トレーニング済みモデル、ファインチューニングスクリプト、開発 API が用意されており、LLM の作成と検出が容易になります。Model Garden では、Hugging Face の Text Embeddings、Text To Image、Text Generation、Image Text To Text モデルをサービングできます。

Hugging Face モデルのデプロイオプション

サポートされている Hugging Face モデルは、Vertex AI または Google Kubernetes Engine（GKE）にデプロイできます。選択するデプロイオプションは、使用しているモデルと、ワークロードをどの程度制御するかによって異なります。

Vertex AI にデプロイする

Vertex AI は、社内の MLOps の専門知識がなくても、ML プロジェクトを構築してスケーリングできるマネージドプラットフォームを提供します。Vertex AI は、Hugging Face モデルを提供するダウンストリームアプリケーションとして使用できます。エンドツーエンドの MLOps 機能、付加価値のある ML 機能、開発の合理化に役立つサーバーレスエクスペリエンスが必要な場合は、Vertex AI を使用することをおすすめします。

Vertex AI でサポートされている Hugging Face モデルをデプロイするには、Model Garden に移動します。

[Model Garden] に移動
[Hugging Face 上のオープンソースモデル] セクションに移動し、[もっと見る] をクリックします。
デプロイするモデルを見つけて選択します。
省略可: [デプロイ環境] で [Vertex AI] を選択します。
省略可: デプロイの詳細を指定します。
[デプロイ] をクリックします。

使用を開始するには、次の例をご覧ください。

モデルの中には、詳細なモデルカードがあり、デプロイ設定が Google によって検証されているものもあります（google/gemma-3-27b-it、meta-llama/Llama-4-Scout-17B-16E-Instruct、Qwen/QwQ-32B、BAAI/bge-m3、intfloat/multilingual-e5-large-instruct、black-forest-labs/FLUX.1-dev、HuggingFaceFW/fineweb-edu-classifier など）。
デプロイ設定は Google によって検証されているものの、詳細なモデルカードがないモデルもあります（NousResearch/Genstruct-7B など）。
デプロイ設定が自動生成されるモデルもあります。
テキスト生成、テキストエンベディング、テキストから画像の生成、画像テキストからテキストへの変換といった最新のトレンドモデルなど、一部のモデルには、モデルのメタデータに基づいて自動生成されるデプロイ設定があります。

GKE にデプロイする

Google Kubernetes Engine（GKE）は、拡張性、セキュリティ、復元力、費用対効果に優れたマネージド Kubernetes 向けの Google Cloud ソリューションです。既存の Kubernetes への投資があり、組織内に独自の MLOps 専門知識が存在しているか、独自のセキュリティ、データパイプライン、リソース管理要件に従って複雑な AI / ML ワークロードをきめ細かく制御する必要がある場合は、このオプションをおすすめします。

GKE でサポートされている Hugging Face モデルをデプロイするには、Model Garden に移動します。

[Model Garden] に移動
[Hugging Face 上のオープンソースモデル] セクションに移動し、[もっと見る] をクリックします。
デプロイするモデルを見つけて選択します。
[デプロイ環境] で [GKE] を選択します。
デプロイ手順に沿って操作します。

使用を開始するには、次の例をご覧ください。

モデルの中には、詳細なモデルカードと検証済みのデプロイ設定を持つものもあります（google/gemma-3-27b-it、meta-llama/Llama-4-Scout-17B-16E-Instruct、Qwen/QwQ-32B など）。
デプロイ設定は検証されているものの、詳細なモデルカード（NousResearch/Genstruct-7B など）がないモデルもあります。

「Vertex AI でサポートされている」とは

最新かつ最も人気のある Hugging Face モデルが Model Garden に自動的に追加されます。このプロセスには、各モデルのデプロイ構成の自動生成が含まれます。

脆弱性や悪意のあるコードに関する懸念に対処するため、Hugging Face Malware Scanner を使用して、各 Hugging Face モデルリポジトリ内のファイルの安全性を毎日評価しています。モデルリポジトリにマルウェアが含まれているとフラグが設定された場合、モデルは Hugging Face ギャラリーページから直ちに削除されます。

モデルが Vertex AI でサポートされるよう指定されている場合、テストが実施され、Vertex AI にデプロイ可能であることが証明されますが、脆弱性や悪意のあるコードがないことを保証するものではありません。本番環境にモデルをデプロイする前に、独自のセキュリティ検証を行うことをおすすめします。

特定のユースケースに合わせてデプロイ構成を調整する

ワンクリックデプロイオプションで提供されるデフォルトのデプロイ構成は、ユースケースの多様性と、レイテンシ、スループット、費用、精度に関する優先度の違いを考慮すると、すべての要件を満たすことはできません。

そのため、最初にワンクリックデプロイを試してベースラインを確立し、次に Colab ノートブック（vLLM、TGI、TEI、HF pytorch 推論）または Python SDK を使用してデプロイ構成を微調整できます。この反復的なアプローチにより、特定のアプリケーションで可能な限り最高のパフォーマンスを実現できるよう、デプロイを正確なニーズに合わせて調整できます。

目的のモデルが Model Garden にリストされていない場合の対応

Model Garden に記載されていない特定のモデルをお探しの場合は、そのモデルは Vertex AI でサポートされていません。以降のセクションでは、その理由と対処方法について説明します。

モデルがリストに表示されない理由

モデルが Model Garden にない理由としては、次のことが考えられます。

上位のトレンドモデルではない: Google は、広く人気があり、コミュニティの関心が高いモデルを優先することがよくあります。
まだ互換性がない: モデルがサポートされているサービングコンテナで動作しない可能性があります。たとえば、text-generation モデルと image-text-to-text モデルの vLLM コンテナなどです。
サポートされていないパイプラインタスク: モデルに、現時点で完全にサポートされていないタスクが含まれています。サポートされているタスクは、text-generation、text2text-generation、text-to-image、feature-extraction、sentence-similarity、image-text-to-text です。

選択肢

Model Garden で利用可能なモデルは引き続き使用できます。

Colab ノートブックを使用して自分でデプロイする: Colab ノートブックには vLLM、TGI、TEI、HF pytorch 推論があります。これにより、カスタム構成でモデルを柔軟にデプロイできます。これにより、プロセスを完全に制御できます。
機能リクエストを送信する: サポートエンジニアと協力して、Model Garden から機能リクエストを送信します。または、Vertex Generative AI のサポートを参照してください。
最新情報を確認する: Model Garden には新しいモデルが定期的に追加されます。お探しのモデルは今後利用可能になる可能性がありますので、定期的にご確認ください。