在 Cloud Run 中自動執行瀏覽器和 OS 作業

在 Cloud Run 容器中建構自動化工具或執行完整的桌面作業系統 (OS),讓 AI 代理程式瀏覽網路並擷取資訊,以及透過滑鼠點擊和鍵盤輸入自動執行動作。

在 Cloud Run 上建構瀏覽器工具

如要在 Cloud Run 上建構瀏覽器工具,請使用下列其中一種方法:

如要讓 AI 代理瀏覽網頁,請在 Cloud Run 容器中安裝 Chromium,並授予代理存取 Chromium 的必要權限。Cloud Run 提供內建串流支援,可將串流瀏覽器資料傳回給代理程式或使用者。

無頭 Chrome

使用無頭 Chrome 以程式輔助方式自動執行常見的瀏覽器工作。您可以在下列用途中使用無頭 Chrome:

  • 大規模網頁資料擷取
  • 表單提交
  • UI 測試
  • 建立網頁的 PDF 或螢幕截圖

使用下列程式庫實作無頭 Chrome:

  • PuppeteerPlaywright 等高階 API 程式庫:使用這些程式庫控制瀏覽器,向瀏覽器提供造訪網站的指令、擷取內容,並將內容傳遞至 AI 模型,以進行摘要或擷取結構化資料。

  • Chrome 開發人員工具通訊協定:提供 Chrome 開發人員工具使用的穩定版 API。這個 API 會以程式輔助方式公開所有瀏覽器功能。代理程式會控制滑鼠點擊等動作,並以螢幕截圖的形式,以文字或像素資料擷取結果。

透過虛擬網路運算 (VNC) 串流技術傳輸的桌面作業系統

在 Cloud Run 容器中實作完整的桌面作業系統,以執行複雜程序,例如:

  • 自動上傳或下載檔案
  • 與瀏覽器擴充功能或其他電腦應用程式互動
  • 測試涉及拖曳和其他複雜滑鼠動作的複雜使用者歷程

這種方法可讓您在 Cloud Run 上執行完整的桌面作業系統,並透過 Websocket 回傳結果。

在桌上型電腦上安裝標準 Chromium 瀏覽器時,代理程式會像人類一樣與作業系統互動,然後擷取桌上型電腦的像素設定。