Jina AI が Cloud Run GPU を使用して 1,000 億トークンのウェブ グラウンディング システムを構築した方法
Han Xiao
CEO, Jina AI
Yunong Xiao
Director of Engineering, Google Cloud
【Next Tokyo ’25】
【Next Tokyo】120 以上のセッションをアーカイブ公開中。話題の Gemini、生成 AI、AI エージェントなどの Google Cloud のアップデートや顧客事例をチェックしましょう。
視聴はこちら※この投稿は米国時間 2025 年 7 月 12 日に、Google Cloud blog に投稿されたものの抄訳です。
編集者注: Jina AI Reader は、URL やローカル ファイルから取得した未加工のウェブ コンテンツを、クリーンで構造化された LLM フレンドリーな形式に変換する専用ツールです。この投稿では、Han Xiao 氏が、Cloud Run を活用して、経済的に持続可能な、安全で信頼性の高い、大規模にスケーリング可能なウェブ スクレイピング システムを構築する方法について詳しく説明します。この投稿では、現在 1 日あたり 1,000 億トークンを処理しているウェブ グラウンディング システム Jina Reader の背後にある、共同イノベーション、技術的課題、画期的な成果について説明します。
2024 年 4 月にリリースされた Jina Reader は、1 日あたり 1,000 万件以上のリクエストと 1,000 億トークンを処理する爆発的な成長を遂げ、信頼性が高く LLM に適したウェブ コンテンツに対する大きな需要があることを裏付けました。Jina Reader は単なるスクレイパーではありません。AI システムがウェブ コンテンツを消費する方法について、未加工のノイズの多いウェブページをクリーンで構造化された Markdown に変換するという異なるアプローチを採用しています。
ウェブデータを処理する AI システムの主な課題は、「ウェブ グラウンディング問題」です。現代のウェブサイトは、コンテンツ、広告、トラッキング スクリプト、動的な JavaScript が混在しており、ノイズ対信号比が圧倒的に高くなっています。従来のスクレイパーでは、この複雑さに対応できず、動的なシングルページ アプリケーションで失敗したり、LLM で使用できない根拠のないデータを生成したりすることがよくあります。Jina Reader の画期的な ReaderLM-v2 は、15 億のパラメータを持つ専用の言語モデルです。数百万のドキュメントでトレーニングされ、単純なルールを超えてウェブ構造を理解し、コンテンツをインテリジェントに抽出します。


図 1: Jina Reader: 高度なブラウザ自動化システム
Cloud Run: Jina Reader のスケーリングを支えるエンジン
Jina Reader は、ウェブスクレイピング ワークロードに固有のバースト性と予測不可能性に直面していました。従来の仮想マシン設定では、高額なオーバープロビジョニングか、負荷がかかった状態での重大な障害のどちらかしかありませんでした。Google Cloud Run は不可欠なソリューションとなり、Jina Reader は安全で信頼性が高く、大規模にスケーラブルで経済的に実行可能なウェブ スクレイピング システムを構築できるようになりました。
-
ウェブ グラウンディング アプリ(ウェブコンテンツをスクレイピングしてクリーンアップするブラウザ自動化システム)は、Cloud Run(CPU)でホストされています。完全な Chrome ブラウザ インスタンスを実行します。
-
ReaderLM-v2 は、サーバーレス GPU を使用して Cloud Run で実行される、HTML から Markdown への変換専用の 15 億パラメータの言語モデルです。
Cloud Run は、いくつかの重大な問題を直接解決しました。
- 最適化されたパフォーマンス: Jina Reader と Google Cloud エンジニアリングの緊密な連携は不可欠でした。ブラウザの自動化のためのコンテナ ライフサイクル管理を共同で最適化し、プリウォーミング、イメージの最適化、インテリジェントなリソース割り当てにより、起動時間を 10 秒以上から 2 秒未満に短縮しました。ReaderLM-v2 では、Google のチームがカスタム コンテナ構成の作成を支援し、15 億パラメータのモデルを Cloud Run GPU で効率的に実行できるようにしました。Cloud Run GPU のオンデマンド スケーリングと高速起動機能は、モデルのパフォーマンスを最適化するうえで非常に重要であり、1 日あたり 1,000 億トークンを処理する能力に直接影響しました。


図 2: Cloud Run GPU を使用したオンデマンド AI 推論(ReaderLM-v2 モデルをホスト)
-
真のゼロへのスケーリングのサーバーレス: Cloud Run の完全な Chrome ブラウザ インスタンスを実行する機能により、費用対効果の高い運用が可能になりました。リクエストごとに、独自のヘッドレス Chrome を備えた分離されたコンテナが生成されます。重要なのは、リクエストが完了するとこれらのコンテナが消滅することです。この一時的な性質は、信頼できないウェブ コンテンツを処理し、セキュリティ リスクとメモリリークを軽減するために不可欠です。
-
グローバルなマルチリージョン デプロイ: Cloud Run はグローバルに展開されているため、ユーザーと対象ウェブサイトの両方の近くでリクエストを処理できます。これにより、地理的制限のあるコンテンツに対しても、レイテンシを大幅に最小限に抑え、成功率を高めることができます。
-
大規模かつ自動のスケーリング: トラフィックのピーク時には、プラットフォームが数個から 1,000 個以上のコンテナ インスタンスにシームレスにスケールし、手動での介入なしにウェブ スクレイピングの予測不可能な性質に対応します。
-
経済的実現可能性: Cloud Run の従量課金制モデルにより、Jina Reader はエンドユーザーに十分な無料枠を提供しながら、月間使用量が大幅に増えても収益性を維持できます。この料金の柔軟性が、幅広い導入の基本となりました。
-
レジリエンスと運用上の卓越性: 最近発生した継続的な DDoS 攻撃の際、Cloud Run のサーバーレス アーキテクチャは非常に貴重であることが証明されました。インテリジェントなレート制限によって悪意のあるトラフィックがフィルタリングされる一方で、大規模な負荷(1 分あたり 100,000 件を超えるリクエスト)を吸収するためにスケールアップされました。重要なのは、ゼロへのスケーリング機能により、攻撃が収まるとすぐに費用が通常に戻ったことです。このシステムは 99.9% を超える稼働率を維持しています。
まとめ
Google Cloud Run で Jina Reader を構築したことで、AI 機能とクラウドネイティブ アーキテクチャが補完関係にあることが証明されました。Cloud Run の独自の機能(サーバーレス GPU、コンテナの分離、グローバルなデプロイ、ゼロへのスケーリングの経済性)により、このアーキテクチャが実現しました。Google との緊密なパートナーシップは、AI ファーストのシステムと最新のクラウド インフラストラクチャの緊密な統合により、これまで不可能と考えられていた機能を実現できることを示しています。これにより、毎日 1,000 億トークンを処理できるようになりました。
Cloud Run GPU について詳しくは、プロダクト ページをご覧ください。Cloud Run で大規模言語モデルをホストする方法については、こちらの動画をご覧ください。
ー Han Xiao 氏 、Jina AI CEO
ー Google Cloud、エンジニアリング担当ディレクター、Yunong Xiao