Cloud Run コンテナで自動化ツールを構築するか、完全なデスクトップ オペレーティング システム(OS)を実行して、AI エージェントがウェブをブラウジングして情報を抽出し、マウスのクリックとキーボード入力でアクションを自動化できるようにします。
Cloud Run でブラウザ ツールを構築する
Cloud Run でブラウザツールをビルドするには、次のいずれかの方法を使用します。
- 効率的で大規模なタスクのためのヘッドレス ブラウザ
- 人間とコンピュータの相互作用を必要とする複雑なシナリオ向けの完全なデスクトップ OS
AI エージェントがウェブをナビゲートできるようにするには、Cloud Run コンテナに Chromium をインストールし、エージェントが Chromium にアクセスするために必要な権限を付与します。Cloud Run には、ブラウザデータをエージェントまたはエンドユーザーにストリーミングする組み込みのストリーミング サポートが用意されています。
ヘッドレス Chrome
ヘッドレス Chrome を使用して、一般的なブラウザタスクをプログラムで自動化します。ヘッドレス Chrome は、次のようなユースケースで使用できます。
- 大規模なウェブ スクレイピングとデータ抽出
- フォームの送信数
- UI テスト
- ウェブページの PDF またはスクリーンショットを作成する
次のライブラリを使用してヘッドレス Chrome を実装します。
Puppeteer や Playwright などの高レベルの API ライブラリ: これらのライブラリを使用してブラウザを制御し、ウェブサイトにアクセスしてコンテンツを抽出し、要約や構造化データの抽出のために AI モデルに渡すようブラウザに指示します。
Chrome DevTool プロトコル: Chrome DevTools で使用される安定した API を提供します。この API は、すべてのブラウザ機能をプログラムで公開します。エージェントは、マウスのクリックなどのアクションを制御し、結果をテキストまたはピクセルデータとしてスクリーンショットの形式で取得します。
仮想ネットワーク コンピューティング(VNC)ストリーミングを備えたデスクトップ OS
次のような複雑なプロセスでは、Cloud Run コンテナに完全なデスクトップ OS を実装します。
- ファイルのアップロードまたはダウンロードを自動化する
- ブラウザの拡張機能や他のデスクトップ アプリケーションを操作する
- ドラッグ&ドロップや複雑なマウス操作を伴う複雑なユーザー ジャーニーをテストする
このアプローチでは、Cloud Run で完全なデスクトップ OS を実行し、Websocket を介して結果をストリーミングできます。
このデスクトップに標準の Chromium ブラウザをインストールすると、エージェントは人間と同じように OS とやり取りし、デスクトップのピクセル構成を取得します。