Hugging Face TGI を使用して Cloud Run GPU で LLM 推論を実行する

次の例は、Llama 3 を使用して大規模言語モデル（LLM）をデプロイして提供するツールキットである Hugging Face Text Generation Inference（TGI）ツールキットを実行するバックエンドサービスを実行する方法を示しています。

特に記載のない限り、このページのコンテンツはクリエイティブ・コモンズの表示 4.0 ライセンスにより使用許諾されます。コードサンプルは Apache 2.0 ライセンスにより使用許諾されます。詳しくは、Google Developers サイトのポリシーをご覧ください。Java は Oracle および関連会社の登録商標です。

最終更新日 2025-10-19 UTC。