Cloud Run でのブラウザと OS の自動化

Cloud Run コンテナで自動化ツールを構築するか、完全なデスクトップ オペレーティング システム(OS)を実行して、AI エージェントがウェブをブラウジングして情報を抽出し、マウスのクリックとキーボード入力でアクションを自動化できるようにします。

Cloud Run でブラウザ ツールを構築する

Cloud Run でブラウザツールをビルドするには、次のいずれかの方法を使用します。

AI エージェントがウェブをナビゲートできるようにするには、Cloud Run コンテナに Chromium をインストールし、エージェントが Chromium にアクセスするために必要な権限を付与します。Cloud Run には、ブラウザデータをエージェントまたはエンドユーザーにストリーミングする組み込みのストリーミング サポートが用意されています。

ヘッドレス Chrome

ヘッドレス Chrome を使用して、一般的なブラウザタスクをプログラムで自動化します。ヘッドレス Chrome は、次のようなユースケースで使用できます。

  • 大規模なウェブ スクレイピングとデータ抽出
  • フォームの送信数
  • UI テスト
  • ウェブページの PDF またはスクリーンショットを作成する

次のライブラリを使用してヘッドレス Chrome を実装します。

  • PuppeteerPlaywright などの高レベルの API ライブラリ: これらのライブラリを使用してブラウザを制御し、ウェブサイトにアクセスしてコンテンツを抽出し、要約や構造化データの抽出のために AI モデルに渡すようブラウザに指示します。

  • Chrome DevTool プロトコル: Chrome DevTools で使用される安定した API を提供します。この API は、すべてのブラウザ機能をプログラムで公開します。エージェントは、マウスのクリックなどのアクションを制御し、結果をテキストまたはピクセルデータとしてスクリーンショットの形式で取得します。

仮想ネットワーク コンピューティング(VNC)ストリーミングを備えたデスクトップ OS

次のような複雑なプロセスでは、Cloud Run コンテナに完全なデスクトップ OS を実装します。

  • ファイルのアップロードまたはダウンロードを自動化する
  • ブラウザの拡張機能や他のデスクトップ アプリケーションを操作する
  • ドラッグ&ドロップや複雑なマウス操作を伴う複雑なユーザー ジャーニーをテストする

このアプローチでは、Cloud Run で完全なデスクトップ OS を実行し、Websocket を介して結果をストリーミングできます。

このデスクトップに標準の Chromium ブラウザをインストールすると、エージェントは人間と同じように OS とやり取りし、デスクトップのピクセル構成を取得します。