ジャンプ スタート ソリューションの開発秘話: 生成 AI によるドキュメントの要約
Google Cloud Japan Team
※この投稿は米国時間 2023 年 10 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。
Google Cloud Next で、Google はジャンプ スタート ソリューション(JSS)を発表しました。各ジャンプ スタート ソリューションは、Google Cloud をより早く利用できるようにする、デプロイが簡単なアーキテクチャとアプリケーションです。これらの事前構築済みソリューションにはインタラクティブなチュートリアルとガイドも用意されていて、使われているプロダクトの詳細を理解し、ユースケースに合わせてソリューションを変更する方法を学ぶことができます。
ジャンプ スタート ソリューションの一つである、生成 AI によるドキュメントの要約について詳しく見ていきましょう。エンジニアリング チームの Yvonne Li が質問に答え、設計に影響を与えた要素、直面した課題、このソリューションを変更したいと考えている人へのアドバイスについて考察を語っています。
[インタビュアー] ジャンプ スタート ソリューションは、どのようなユースケースや問題に対応できますか?
[Yvonne] このジャンプ スタート ソリューションで支援することを目指した典型的なシナリオをご紹介しましょう。
多くの大企業で、無数のドキュメントが PDF として保存されています。従業員がデータを探す必要があるときはいつも、ファイルを目視で確認しなければなりません。このプロセスは、従業員にとってはストレスと時間のかかるプロセスであり、会社にとっては費用のかかるプロセスです。
生成 AI によるドキュメントの要約では、Vertex AI の生成 AI 大規模言語モデル(LLM)を活用して、オンデマンドでドキュメントを処理、要約します。
[インタビュアー] この JSS をデプロイすると、何を知り、何ができるようになるのですか?
[Yvonne] 生成 AI によるドキュメントの要約ソリューションをデプロイすると、次のことが可能になります。
- 生成 AI によるドキュメントの要約アプリケーションの仕組みを理解する。
- ドキュメントの要約プロセスをオーケストレーションするアプリケーションをデプロイする。
- PDF のアップロードでパイプラインをトリガーし、生成された要約を表示する。
[インタビュアー] このアーキテクチャ、フレームワーク、言語を選んだのはなぜですか?
[Yvonne] Vertex AI PaLM API を選んだのは、ユーザーからのアドホックな送信を受け入れて要約するという、今回のユースケースに対応していたからです。
このジャンプ スタート ソリューションでは、プロセス ランナーとして Cloud Run ではなく Cloud Functions を選択しました。その理由をいくつかご紹介します。
- シンプルさ: Cloud Functions は Cloud Run サービスよりも記述が簡単です。ビジネス ロジックを記述するだけです。Cloud Functions はウェブ リクエストなども処理するため、開発者はジャンプ スタート ソリューションをより簡単に利用できます。
- 費用: 多くのリソースを必要としないワークロードの場合、Cloud Functions は Cloud Run よりも費用対効果が高くなります。これは、Cloud Run が秒単位で課金されるのに対し、Cloud Functions はリクエスト単位で課金されるためです。
言語については、データ サイエンティストや ML 担当者の間で一般的に使われている Python を選びました。Python SDK のおかげで、PaLMのAPI との連携がとても容易になりました。
[インタビュアー] 興味深い課題はありましたか?どのように克服しましたか?
[Yvonne] 多種多様な入力内容を扱う、ドキュメントの前処理で課題にぶつかりました。光学式文字認識(OCR)スキャン後の情報を直接 LLM に渡しても有益な結果が得られないため、データ クリーニングは悩みの種であり、懸念事項となっています。
現在のソリューションでは、入力ファイルは研究論文に似ていると仮定しています。内容にはさまざまなセクションがあり、意図的なヒューリスティック手法を使用してそれらのセクションを抽出し、前処理を行っています。
[インタビュアー] このソリューションを本番環境に導入するとしたら、何を変更し、何を追加したいですか?
[Yvonne] PaLM 2 にデータを取り込む前のデータ準備プロセスを変更すると思います。現時点では、入力 PDF は研究論文に似ていると仮定し、データのサブセクションは手作業でクリーニングして要約や結論などにしています。しかし、実際のシナリオでは、特定のデータニーズに合わせてこのプロセスを適応させる必要があるかもしれません。
フォームなど、より一貫性を持って構造化された入力 PDF には、Document AI を使うほうがよいでしょう。
[インタビュアー] どのような嬉しい驚きがありましたか?
[Yvonne] このジャンプ スタート ソリューションの費用(PaLM モデルの呼び出しを含む)は、アプリケーションの機能とその実行に必要なリソースを考慮すれば手頃な金額です。ただし、このアプリケーションの費用は、入力 PDF ファイルのサイズによって変わることに注意してください。
[インタビュアー] もっと詳しく知りたい方におすすめの参考情報はありますか?
[Yvonne] 生成 AI についてさらに詳しく学びたい方は、Generative AI for Developers Learning Path をご確認ください。
生成 AI によるドキュメント要約のジャンプ スタート ソリューションを試すには、ソリューション カタログからデプロイしてください。ガイドを読んだり、GitHub でコードを確認したりすることもできます。
- DevRel - ML エンジニア Yvonne Li



