業務ドメインに特化した事前学習モデルを適用することで、高精度で運用性の高い書類検索を実現
数百ギガ単位の学習データを元にした、事前学習モデルを構築するために Cloud TPU を採用
Cloud TPU の処理能力を活かして 100 回以上に及ぶモデル構築を行い、AI 導入の有効性を検証
株式会社NTTデータでは、官公庁の業務における AI 活用推進の一環として、書類の分類付与および検索システムに機械学習を導入する PoC(概念実証)を実施。検証用の機械学習プラットフォームとして、高性能 AI アクセラレータである Google Cloud TPU を採用しました。
NTTグループ傘下のシステム インテグレーターとして、さまざまな業種や分野に対する IT システムの導入や活用を手掛ける株式会社NTTデータ(以下、NTTデータ)。公共機関の IT システム開発でも多くの実績を持つ同社では、官公庁における業務改善に向けた取り組みの一環として、AI を活用して書類の分類や検索業務を効率化する PoC(概念実証) を実施し、そのための機械学習プラットフォームとして Google Cloud TPU を採用しました。PoC を実施した同社の担当者 2 名、そして株式会社NTTデータグループ(以下、NTTデータグループ)の担当者 1 名に話を伺いました。
NTTデータでは、長年にわたって公共機関の IT システムの開発や DX(デジタル トランスフォーメーション)をサポートしており、AI などの最新技術を活用した業務改善の実現にも積極的に取り組んできました。同社はその一環として、官公庁が取り扱う書類の分類と検索に機械学習を活用し、業務効率化を目指す PoC を実施しました。
今回 PoC の対象となったのは、企業や個人から官公庁に提出される申請書類に対して、分類情報を付与するための検証業務と、過去の書類を検索して類似のケースを調査できるようにする検証業務です。このプロジェクトの実施に至った経緯を、同社の公共統括本部 第一公共事業本部 パブリックサービスデザイン事業部 企画統括部 営業担当 課長の桂 康文氏は、次のように説明します。
「PoC を手掛けたお客さまとは、以前から AI を活用するさまざまな取り組みを行ってきました。そもそも官公庁などが取り扱う申請書類は年間で数十万件に及ぶため、分類付与や内容の検証作業には長い時間がかかります。現状、お客さまの業務はシステム化がされていますが、特に過去の書類申請内容などは、適切な検索を行うだけでも大変なのが実情です。しかし近年は、自然言語処理技術が加速度的に発展してきました。このような傾向を踏まえて再調査した結果、機械学習を用いた自然言語処理は分類付与や類似書類の検索システムと特に親和性が高いと判断し、検証を行うプロジェクトが発足されました。」
公共・社会基盤事業推進部 プロジェクト推進統括部 技術戦略担当 主任の甲野 慎太郎氏は、機械学習が有効だと判断した理由を、技術的な観点から語っています。
「ひとくちに申請書類と言っても、官公庁で扱う申請には多種多様な分野があり、含まれている情報の内容や特性はそれぞれ異なります。従来、このようなデータを AI で処理する場合、ルールベースの検索エンジンで精度を上げようとすると、専門分野ごとに非常に細かく個別ルールを実装する必要がありました。これに対して機械学習は、データさえそろっていれば自動的に事前学習を行い、実態に基づいた処理を構築していくことが可能です。機械学習の分野では、大量のテキストデータで事前学習が可能な BERT(Google が 2018 年に公開した Transformer アーキテクチャに基づいた、文脈理解に優れた自然言語処理モデル)が登場したことも、画期的なブレークスルーとなりました。」
ひとくちに申請書類と言っても、官公庁で扱う申請には多種多様な分野があり、含まれている情報の内容や特性はそれぞれ異なります。従来、このようなデータを AI で処理する場合、ルールベースの検索エンジンで精度を上げようとすると、専門分野ごとに非常に細かく個別ルールを実装する必要がありました。これに対して機械学習は、データさえそろっていれば自動的に事前学習を行い、実態に基づいた処理を構築していくことが可能です。機械学習の分野では、大量のテキストデータで事前学習が可能な BERT(Google が 2018 年に公開した Transformer アーキテクチャに基づいた、文脈理解に優れた自然言語処理モデル)が登場したことも、画期的なブレークスルーとなりました。
甲野 慎太郎 氏
株式会社NTTデータ 公共・社会基盤事業推進部 プロジェクト推進統括部 技術戦略担当 主任
ただし、NTTデータグループ 技術革新統括本部 システム技術本部 データ&インテリジェンス技術部の小池 大地氏によれば、今回のプロジェクトで事前学習モデルを構築する際には、いくつか考慮しなければならない要件がありました。
「1 つ目の特性は、テキストデータが中心であるにもかかわらず、データ量が膨大なことです。今回は数百ギガ単位のデータを使って事前学習モデルを構築しましたが、これは自然言語処理の一般的なケースと比較しても、データ量がかなり上回っていました。2 つ目の特性は専門用語の多さです。対象となる書類には、専門用語や一般的ではない言葉の使い方が頻出するだけでなく、文章の構成にも独特の傾向があり、既存の汎用的な事前学習モデルは有効性が低いことが想定されました。そのため我々は、ドメイン(業務領域)に特化した事前学習モデルを、新たに構築することを選択しました。」
今回のプロジェクトでは、単年度で検証を終え、納品を完了させることも求められていました。これらの条件を満たすべく桂氏が採用したのが、大規模な AI モデルの学習ならびに推論モデルの構築のために最適化された AI アクセラレータ、Google Cloud TPU でした。
「事前学習に必要なデータ量が膨大な場合は、1 回の学習を終えるだけでも長い時間がかかります。しかもドメインに特化した学習を行って高精度なモデルを構築し、実際の分類付与と類似検索で精度を確保していくには、仮説検証を繰り返し行うことが必要になります。初期段階の検証では複数のソリューションを検討しましたが、 Cloud TPU を利用した事前学習では、一般的なプロセッサよりも 20 倍近い速さで学習を完了できました。この時点で、我々にとっては Cloud TPU が唯一の選択肢になりました。」(桂氏)
検証用モデルの構築では、まず提供された膨大なデータを分析し、データの選別方法と学習モデルの作成方法を決定。そのうえで約 1 か月かけて複数種類の事前学習モデルを構築し、続く約 2 か月間で、官公庁で行われている実際のタスクに即した評価が行われました。さらに残りの数か月間で、改善と検証が幾度となく実施されています。
一連のプロセスでは、Google Cloud の Professional Services Organization (PSO) のサポートも活用されています。これもプロジェクトをスムーズに進めていく追い風になりました。
「我が社で Cloud TPU を本格的に使うのは初めてでしたが、問題が発生した場合でも PSO チームから丁寧にアドバイスをいただき、1 つずつクリアしながら前に進むことができました。PSO にはその他にも、公式ドキュメントを補完する詳細な情報を提供いただき、質疑応答と勉強会の機会も頻繁に設けていただきましたので本当に助かりました。このような PSO の手厚いサポートも、PoC が成功を収めた要因になりました。」(甲野氏)
事前学習に必要なデータ量が膨大な場合は、1 回の学習を終えるだけでも長い時間がかかります。しかもドメインに特化した学習を行って高精度なモデルを構築し、実際の分類付与と類似検索で精度を確保していくには、仮説検証を繰り返し行うことが必要になります。初期段階の検証では複数のソリューションを検討しましたが、 Cloud TPU を利用した事前学習では、一般的なプロセッサよりも 20 倍近い速さで学習を完了できました。この時点で、我々にとっては Cloud TPU が唯一の選択肢になりました。
桂 康文 氏
株式会社NTTデータ 公共統括本部 第一公共事業本部 パブリックサービスデザイン事業部 企画統括部 営業担当 課長
こうして PoC は予定の期間内に順調に終了。甲野氏と小池氏は、プロジェクトの成果に強い手応えを感じたと話します。
「今回の PoC では、最終的に大きく分けて 6 種類の事前学習モデルを構築することができました。これらの学習モデルを構築するまでには、モデルごとにトライアル アンド エラーを何度も繰り返しましたので、モデルを構築した回数は合計で 100 回以上になりました。先ほども述べたように、Cloud TPU の処理能力がなければ、指定された期間内に検証を終えることはできなかったでしょう。我々にとっては 、当初の目的をしっかり達成できただけでなく、TPU を活用して機械学習のモデルを構築していく新たな知見を得られた点も、非常に有意な成果となりました。」(甲野氏)
「精度面に関しては、ドメインごとに個別に用意したデータを学習させたモデルを構築することにより、おおむね期待通りの成果が得られることを確認できました。その一方では、ハイパーパラメータを調整することで、さらに精度を高められそうなモデルがあること、あるいは既存の事前学習モデルをファイン チューニングする程度で十分ならば、Cloud GPU でも対応できるケースがありそうなことも把握できました。要件に応じて Cloud TPU と GPU をうまく使い分ければ、システムをオンプレミスで運用していく場合にも、精度を確保していけると思います。」(小池氏)
プロジェクト リーダーを務めた桂氏は、ドメイン特化の事前学習モデルという発想が、生成 AI の今後の発展においても鍵を握ると指摘。PoC で得られた知見を、今後の事業に幅広く活用していきたいと締めくくりました。
「このプロジェクトを進めている最中に、LLM(大規模言語モデル)をベースとした生成 AI が話題となりました。現在の生成 AI は、LLM のサイズを大きくしていく方向で精度の向上を図っていますが、官公庁が実際の業務で扱う場合には、そのような汎用的なモデルはオーバー スペックになったり、逆に専門的な情報や機密性の高い情報が反映できなかったりするケースが出てくることも想定されます。それを考えれば、やはり各ドメインで利用しやすいモデルやシステムを作っていくことが、生成 AI の活用でも重要になるはずです。現にドメイン特化の事前学習モデルは、官公庁が書類を扱う業務に極めて有効であることが確認できましたので、このノウハウを関連する分野にどんどん横展開していくつもりです。また、今回我々が実施したのはテキスト情報を対象とした検証でしたが、お客さまの間では、視覚情報などのテキスト以外の情報も AI で処理したいというニーズが高まってきています。そのようなマルチモーダルな方向性も含め、今後も Google Cloud が提供している AI 基盤を活用しながら、さまざまなサービスの実用化に、積極的にチャレンジしていければと考えています。」
精度面に関しては、ドメインごとに個別に用意したデータを学習させたモデルを構築することにより、おおむね期待通りの成果が得られることを確認できました。その一方では、ハイパーパラメータを調整することで、さらに精度を高められそうなモデルがあること、あるいは既存の事前学習モデルをファイン チューニングする程度で十分ならば、Cloud GPU でも対応できるケースがありそうなことも把握できました。要件に応じて Cloud TPU と GPU をうまく使い分ければ、システムをオンプレミスで運用していく場合にも、精度を確保していけると思います。
小池 大地 氏
株式会社NTTデータ 技術革新統括本部 システム技術本部 データ&インテリジェンス技術部
(事例制作: 2024 年 6 月)
1988 年 5 月設立。NTTグループの主要企業の 1 つで、IT システムの企画や設計、開発、維持運用、コンサルティングや先進技術の研究開発など、さまざまな業種や分野において多様な IT サービス事業を手掛けている。日本有数の傘下企業を持ち、主要顧客には官公庁や金融関連企業も多い。2023 年 7 月に持株会社に移行して商号が株式会社NTTデータグループとなり、国内事業を株式会社NTTデータが、海外事業を株式会社NTT DATA, Inc. が担当する現行体制がスタートした。
業種: テクノロジー
地域: 日本
利用しているサービス: Cloud TPU, Cloud GPU, Cloud Logging, Cloud Monitoring, AI Infrastructure Modernization