跳至主要內容
Google Cloud
說明文件 技術領域
  • AI 和機器學習
  • 應用程式開發
  • 應用程式託管
  • 運算
  • 資料分析和管道
  • 資料庫
  • 分散式混合雲與多雲端
  • 生成式 AI
  • 產業解決方案
  • 網路
  • 觀測能力與監控
  • 安全性
  • Storage
跨產品工具
  • 存取權和資源管理
  • 費用和用量管理
  • Google Cloud SDK、語言、架構和工具
  • 基礎架構即程式碼
  • 遷移
相關網站
  • Google Cloud 首頁
  • 免費試用與免費方案
  • Architecture Center
  • 網誌
  • 聯絡銷售人員
  • Google Cloud Developer Center
  • Google 開發人員中心
  • Google Cloud Marketplace
  • Google Cloud Marketplace 說明文件
  • Google Cloud Skills Boost
  • Google Cloud 解決方案中心
  • Google Cloud 支援
  • Google Cloud Tech YouTube 頻道
/
  • English
  • Deutsch
  • Español
  • Español – América Latina
  • Français
  • Indonesia
  • Italiano
  • Português
  • Português – Brasil
  • 中文 – 简体
  • 中文 – 繁體
  • 日本語
  • 한국어
控制台 登入
  • Cloud Run
指南 參考資料 範例 資源
聯絡我們 免費試用
Google Cloud
  • 說明文件
    • 指南
    • 參考資料
    • 範例
    • 資源
  • 技術領域
    • 更多
  • 跨產品工具
    • 更多
  • 相關網站
    • 更多
  • 控制台
  • 聯絡我們
  • 免費試用
  • Discover
  • 產品總覽
  • Cloud Run 資源模型
  • 容器執行階段合約
  • 我的應用程式是否適合 Cloud Run 服務?
  • 何時應部署函式?
  • 開始使用
  • 總覽
  • 部署範例網路服務
    • 部署範例容器
    • 建立範本存放區,並從 Git 存放區部署
    • 從原始碼部署 Hello World 服務
      • Go
      • Node.js
      • Python
        • Flask
        • FastAPI
        • Gradio
        • Streamlit
      • Java
      • Kotlin
      • C#
      • C++
      • PHP
      • Ruby
      • 其他
      • 架構
        • 總覽
        • Angular SSR
        • Next.js
        • Nuxt.js
        • SvelteKit
  • 部署範例工作站集區容器
  • 執行範例工作
    • 執行工作
    • 從原始碼執行工作
      • Go
      • Node.js
      • Python
      • Java
      • Shell
  • 部署範例函式
    • 使用控制台部署函式
    • 使用 gcloud 部署函式
  • 開發
  • 設定環境
  • 規劃及準備服務
    • 開發服務
    • 將程式碼容器化
    • 連線至 Google Cloud 服務
    • 在容器中安裝系統套件
    • 在容器中執行 gcloud 指令
  • AI 代理
    • 託管 AI 代理
    • 託管 A2A 代理
      • 主機 A2A 代理程式總覽
      • 部署 A2A 代理程式
      • 測試及監控 A2A 代理程式部署作業
    • 工具
      • 瀏覽器和作業系統自動化
      • 執行程式碼
  • MCP 伺服器
    • 託管 MCP 伺服器
    • 建構及部署遠端 MCP 伺服器
  • 規劃及準備函式
    • 總覽
    • 比較 Cloud Run 函式
    • 編寫 Cloud Run 函式
    • 執行階段
      • 總覽
      • Node.js
        • 總覽
        • Node.js 依附元件
      • Python
        • 總覽
        • Python 依附元件
      • Go
        • 總覽
        • Go 依附元件
      • Java
        • 總覽
        • Java 依附元件
      • .NET
      • Ruby
      • PHP
    • 在本機開發函式
    • 函式觸發條件
    • 教學課程
      • 建立可傳回 BigQuery 結果的函式
      • 建立傳回 Spanner 結果的函式
      • 與 Cloud 資料庫整合
      • 程式碼研究室
  • 建置與測試
    • 將來源建構至容器
    • 將函式建構至容器
    • 本機測試
  • 處理 HTTP 要求
  • 部署服務
    • 部署容器映像檔
    • 從 Git 持續部署
    • 透過原始碼部署
    • 部署函式
  • 提供網路流量
    • 對應自訂網域
    • 透過 CDN 提供靜態資產
    • 提供來自多個區域的流量
    • 啟用工作階段相依性
    • 使用 Nginx 進行前端 Proxy
  • 管理服務
    • 查看、複製或刪除服務
    • 查看或刪除修訂版本
    • 流量遷移、漸進式推出、復原
  • 設定服務
    • 總覽
    • 容量
      • 記憶體上限
      • CPU 上限
      • GPU
        • GPU 設定
        • GPU 效能最佳做法
        • 使用 Ollama 在 Cloud Run GPU 上執行 LLM 推論
        • 在 Cloud Run 執行 Gemma 3 模型
        • 使用 vLLM 在 Cloud Run GPU 上執行 LLM 推論
        • 在 Cloud Run 上執行 OpenCV,並使用 GPU 加速
        • 使用 Hugging Face Transformers.js 在 Cloud Run GPU 上執行 LLM 推論
        • 使用 Hugging Face TGI 在 Cloud Run GPU 上執行 LLM 推論
      • 要求逾時
      • 並行要求數量上限
        • 關於每個執行個體的並行要求數量上限
        • 設定並行要求數量上限
      • 計費方式
      • 依據推薦功能調整服務設定
    • 環境
      • 容器通訊埠和進入點
      • 環境變數
      • 磁碟區掛接
        • Cloud Storage 磁碟區
        • NFS 磁碟區
        • 記憶體內磁碟區
      • 執行環境
        • 總覽
        • 選取執行環境
      • 容器健康狀態檢查
      • HTTP/2 要求
      • 密鑰
      • 服務身分
    • 縮放
      • 服務的執行個體自動調度資源簡介
      • 執行個體數量上限
        • 服務的執行個體數量上限
        • 設定執行個體數量上限
      • 執行個體數量下限
      • 手動調整資源配置
    • 中繼資料
      • 說明
      • 標籤
      • 標記
    • 來源部署設定
      • 支援的語言執行階段和基礎映像檔
      • 設定自動更新基本映像檔
      • 建構環境變數
      • 建構作業服務帳戶
      • 建構工作站集區
  • 叫用及觸發服務
    • 透過 HTTPS 要求叫用
    • 託管 Webhook 目標
    • 透過 WebSocket 串流
      • 總覽
      • 建構 WebSocket 即時通訊服務教學課程
    • 以非同步方式叫用
      • 依排程叫用服務
      • 建立工作流程
        • 在工作流程中叫用服務
        • 連結 Cloud Functions 和 Cloud Run 教學課程中的一系列服務
      • 執行非同步工作
      • 透過 Pub/Sub 推送訂閱項目呼叫服務
        • 透過 Pub/Sub 觸發服務
        • 將圖片處理功能整合至 Pub/Sub 範例教學課程
    • 透過事件觸發
      • 使用 Eventarc 建立觸發條件
      • Pub/Sub 觸發條件
        • 建立 Pub/Sub EventArc 觸發條件
        • 使用 Eventarc 從 Pub/Sub 觸發函式
        • 透過已路由的記錄項目觸發函式
      • Cloud Storage 觸發條件
        • 使用 Cloud Storage 建立觸發條件
        • 使用 Eventarc 從 Cloud Storage 觸發服務
        • 使用 Eventarc 從 Cloud Storage 觸發函式
      • Firestore 觸發條件
        • 使用 Firestore 建立觸發條件
        • 透過 Firestore 資料庫中的事件觸發函式
    • 使用 gRPC 連線至其他服務
  • 最佳做法
    • 服務的一般開發提示
    • 最佳化 Java 服務
    • 將 Python 服務最佳化
    • 最佳化 Node.js 服務
    • 負載測試最佳做法
    • 瞭解可用區備援機制
    • 函式最佳做法
      • 總覽
      • 啟用事件導向函式的重試功能
  • 執行工作任務直到完成
  • 建立工作
  • 執行工作
    • 執行工作
    • 執行已排定的工作
    • 在 VPC SC 範圍內執行排定工作
    • 從 Workflows 執行工作
  • 設定工作
    • 容器進入點
    • CPU 上限
    • 記憶體上限
    • GPU
      • GPU 設定
      • GPU 最佳做法
      • 使用 Cloud Run 工作,透過 GPU 微調 LLM
      • 使用 Cloud Run 工作,透過 GPU 執行批次推論
      • 使用 FFmpeg 進行 GPU 加速影片轉碼
    • 環境變數
    • 容器健康狀態檢查
    • 磁碟區掛接
      • Cloud Storage 磁碟區
      • NFS 磁碟區
      • 記憶體內磁碟區
      • 其他網路檔案系統
    • 標籤
    • 重試次數上限
    • 平行處理工作數量
    • 密鑰
    • 服務身分
    • 任務逾時時間
    • 標記
  • 管理工作機會
    • 查看或刪除工作
    • 查看或停止工作執行作業
  • 最佳做法
  • 持續執行背景工作
  • 部署工作站集區
    • 部署工作站集區
    • 透過原始碼部署工作站集區
  • 管理工作站集區
    • 查看或刪除工作站集區
    • 查看或刪除 worker 集區修訂版本
  • 設定工作站集區
    • 容量
      • 記憶體上限
      • CPU 上限
      • GPU
        • GPU 設定
        • GPU 最佳做法
    • 環境
      • 容器和進入點
      • 環境變數
      • 磁碟區掛接
        • Cloud Storage 磁碟區
        • NFS 磁碟區
        • 記憶體內磁碟區
        • 其他網路檔案系統
      • 容器健康狀態檢查
      • 密鑰
      • 服務身分
    • 執行個體數量
    • 中繼資料
      • 說明
      • 標籤
      • 標記
  • 根據外部指標調度資源
    • Kafka 自動調整規模
    • 使用 worker 集區代管 GitHub 執行器
  • 設定網路
  • Cloud Run 網路的最佳做法
  • 設定私人網路
  • 將流量傳送至虛擬私有雲網路
    • 總覽
    • 直接虛擬私有雲輸出
    • 雙堆疊服務和工作
    • 將標準虛擬私有雲連接器遷移至直接虛擬私有雲輸出
    • 虛擬私有雲連接器
  • 將流量傳送至共用虛擬私有雲網路
    • 總覽
    • 直接虛擬私有雲輸出
    • 將共用虛擬私有雲連接器遷移至直接虛擬私有雲 egress
    • 服務專案中的連接器
    • 主專案中的連接器
  • 靜態外寄 IP 位址
  • 網路安全
    • 限制輸入 (服務)
    • 使用 VPC Service Controls (VPC SC)
  • Cloud Service Mesh
  • 安全
  • 安全性設計總覽
  • 驗證要求
    • 總覽
    • 允許公開存取
    • 自訂目標對象
    • 驗證開發人員
    • 服務對服務
    • 驗證使用者
    • 使用者驗證教學課程
  • 保護資源
    • 使用 IAM 控管存取權
    • 為 Cloud Run 設定 IAP
    • 服務身分簡介
    • 使用 Cloud Armor 保護服務
    • 使用二進位授權
    • 使用 Cloud Run Threat Detection
    • 使用客戶自行管理的加密金鑰
    • 管理專案的自訂限制
    • 查看軟體供應鏈安全性洞察
    • 保護 Cloud Run 服務教學課程
  • 監控及記錄
  • 監控與記錄簡介
  • 查看內建指標
  • 寫入 Prometheus 指標
  • 寫入 OpenTelemetry 指標
  • 記錄及查看記錄
  • 稽核記錄功能
  • 錯誤報告
  • 使用服務的分散式追蹤記錄
  • 遷移
  • 現有的網路服務
  • 從 App Engine
  • 從 Cloud Run 函式 (第 1 代)
  • 從 AWS Lambda
  • 來源為 Heroku
  • 從 Cloud Foundry 遷移
    • 遷移作業總覽
    • 選擇符合 OCI 規範的策略
    • 遷移至 OCI 容器
    • 遷移設定
    • 遷移範例:Spring Music
  • 從 VMWare Tanzu
  • 來源為使用 Migrate to Containers 的 VM
  • 從 Kubernetes
  • GKE
  • 疑難排解
  • 簡介
  • 排解錯誤
  • 本機疑難排解教學課程
  • 已知問題
  • 範例
  • 所有 Cloud Run 程式碼範例
  • 所有 Cloud Run 函式程式碼範例
  • 所有產品的程式碼範例
  • AI 和機器學習
  • 應用程式開發
  • 應用程式託管
  • 運算
  • 資料分析和管道
  • 資料庫
  • 分散式混合雲與多雲端
  • 生成式 AI
  • 產業解決方案
  • 網路
  • 觀測能力與監控
  • 安全性
  • Storage
  • 存取權和資源管理
  • 費用和用量管理
  • Google Cloud SDK、語言、架構和工具
  • 基礎架構即程式碼
  • 遷移
  • Google Cloud 首頁
  • 免費試用與免費方案
  • Architecture Center
  • 網誌
  • 聯絡銷售人員
  • Google Cloud Developer Center
  • Google 開發人員中心
  • Google Cloud Marketplace
  • Google Cloud Marketplace 說明文件
  • Google Cloud Skills Boost
  • Google Cloud 解決方案中心
  • Google Cloud 支援
  • Google Cloud Tech YouTube 頻道
本頁面由 Cloud Translation API 翻譯而成。
  • 首頁
  • Documentation
  • Application hosting
  • Cloud Run
  • 指南

使用 vLLM 在 Cloud Run GPU 上執行大型語言模型推論

下列程式碼研究室說明如何執行後端服務,以便執行 vLLM (這是用於實際運作系統的推論引擎),以及 Google 的 Gemma 2 (這是 20 億個參數指令調整模型)。

如要查看完整程式碼研究室,請參閱使用 vLLM 在 Cloud Run GPU 上執行 LLM 推論。

除非另有註明,否則本頁面中的內容是採用創用 CC 姓名標示 4.0 授權,程式碼範例則為阿帕契 2.0 授權。詳情請參閱《Google Developers 網站政策》。Java 是 Oracle 和/或其關聯企業的註冊商標。

上次更新時間:2025-10-19 (世界標準時間)。

  • 選用 Google 的理由

    • 選擇 Google Cloud
    • 信任與安全性
    • 新型基礎架構雲端
    • 多雲端
    • 全球基礎架構
    • 客戶與個案研究
    • 分析師報告
    • 白皮書
  • 產品與定價

    • 查看所有產品/服務
    • 查看所有解決方案
    • Google Cloud for Startups
    • Google Cloud Marketplace
    • Google Cloud 定價
    • 與銷售人員聯絡
  • 支援服務

    • Community forums
    • 支援服務
    • 版本資訊
    • 系統狀態
  • 實用資源

    • GitHub
    • 開始使用 Google Cloud
    • Google Cloud 說明文件
    • 程式碼範例
    • 雲端架構中心
    • 訓練與認證
    • 開發人員中心
  • 互動交流

    • 網誌
    • 活動
    • X (Twitter)
    • Google Cloud 的 YouTube 頻道
    • Google Cloud Tech 的 YouTube 頻道
    • 成為合作夥伴
    • Google Cloud Affiliate Program
    • 新聞中心
  • 關於 Google
  • 隱私權
  • 網站條款
  • Google Cloud 服務條款
  • Manage cookies
  • 我們的第三個十年氣候計畫:加入我們
  • 訂閱 Google Cloud 電子報 訂閱
  • English
  • Deutsch
  • Español
  • Español – América Latina
  • Français
  • Indonesia
  • Italiano
  • Português
  • Português – Brasil
  • 中文 – 简体
  • 中文 – 繁體
  • 日本語
  • 한국어