弁護士ドットコム株式会社:既存システムを変更することなく Google Cloud 機械学習を社内向け API として提供
Google Cloud Japan Team
「専門家をもっと身近に」という企業理念に基づいて、PC やスマートフォン、タブレットなど、あらゆるデバイスから利用者と専門家をつなぐポータルサイトを提供する弁護士ドットコム株式会社(以下、弁護士ドットコム)。2007 年より、サービスの提供を開始したインターネット法律相談サービス「みんなの法律相談」に AI Platform を採用。このプロジェクトについて、開発責任者および開発担当者 2 名に話を伺いました。
利用している Google Cloud サービス:AI Platform、Google Kubernetes Engine、BigQuery、Cloud Run
AI Platform の採用でコンテンツの品質チェックの作業負荷を大幅に軽減
弁護士ドットコムは、日本最大級の法律相談ポータルサイトを運営しています。登録弁護士数は、約 1 万 7,000 人。地域や得意分野、性別、年齢などの条件で、相談内容に最適な弁護士を検索できます。
その中の主要コンテンツの 1 つでもある「みんなの法律相談」は、無料で弁護士に相談できる公開型の法律相談サービスです。登録されるすべての法律相談とその回答内容を一般公開し、だれでも簡単に閲覧が可能。累計の相談件数は、約 90 万件に上ります。
みんなの法律相談には、1 か月に約 1 万件の法律相談が書き込まれます。匿名での投稿が可能で、他人に知られたくない悩みも相談しやすく、その内容は、離婚、男女問題、薬物、児童ポルノ、労働問題、副業問題など、多岐にわたります。同時に、センシティブな内容も多く含まれており、公開にあたっては、個人情報や相談内容そのものへの配慮は当然、たとえば医療関連の相談の中に含まれる「ヤブ医者」のような蔑称や差別用語、感情的な表現にいたるまで、カスタマー サポート担当者がチェックして、問題のない類義語に置き換えることが必要で、目視によるチェックは非常に負荷の高い作業となっていました。
そこで、この課題解決に向けて、AI Platform の採用を決定します。弁護士ドットコム本部 メディア開発部 部長の河原塚有希彦さんは、「人手をかければ品質は向上しますが、そこまで多くの人的リソースを割くことはできません。また外注もしていましたが、当然コストがかかります。そこで目視のチェックの前に、機械学習でチェックして、問題を発見しやすくすることで、チェック作業の負荷を軽減し、確認ミスや確認漏れなどのリスクを担保できると考えました」と話します。
機械学習の導入にあたり、Google Cloud を採用した理由を、弁護士ドットコムメディア開発部 開発チーム エンジニアの小宮山太樹さんは次のように話しています。「2017 年より、BigQuery にデータを蓄積、どのような利用者がアクセスし、どのように利用しているかといった傾向をアドホックに分析して、『みんなの法律相談』の改善につなげていました。すでに BigQuery に大量のデータが蓄積されていたので、Google Cloud Platform による連携がもっとも効果的と考えました。機械学習のモデル開発のための分散処理トレーニングやモデル管理など、強力な機能が搭載されていたことも決め手でした。」
Google Kubernetes Engine と Cloud Run で API にゆるく連携
AI Platform を採用したシステムは、2019 年 5 月末から開発を開始し、8 月初めに運用を開始。エンジニア 1 名とデータサイエンティスト 1名で、着手からプロトタイプまでに約 1 か月、プロトタイプからリリースまでに 1 か月半から 2 か月という短期間でシステムを開発しています。
「私たちにとって、現在のクラウドサービスから丸ごと Google Cloud に移行するのは、人的リソースやスケジュール、コストなどの面から現実的ではありませんでした。そこで、既存システムと機械学習を API 連携し、必要に応じて、必要な機能だけを社内向けサービスに提供するというアーキテクチャを採用することにしました。もともと BigQuery に蓄積してきたデータも有効に活用することができますし、結果的に短期間でのリリース実現にもつながりました。」(小宮山さん)
今回、開発したシステムは、AI Platform の上に、Google Kubernetes Engine(GKE)を活用した機械学習モデルを開発し、運用するための仕組みを構築。『みんなの法律相談』
に投稿される法律相談の内容を、独自の機械学習モデルによりテキスト解析し、不適切な表現や個人情報などをフィルタリングして、適切な言葉に書き換えてから公開することができます。
データサイエンス室の早川和希さんは、「機械学習を動かす部分だけ GKE を使い、そのほかの部分は Cloud Run でフルマネージドにすることで、必要なときだけノードを増やす運用にしています。役割を完全に分けて、極力マネージドで運用するアーキテクチャにより、運用の負荷も大幅に軽減することができました。GKE と Cloud Run を使い分けて、“API でゆるくつながるマイクロサービス”を実現することで、システム構築全体の負荷をを軽減しています」と話しています。
機械学習については、『みんなの法律相談』がもつ、90 万件以上の学習データの蓄積が大いに役立ち、約 8 割という高い精度で機械学習モデルを実現しています。投稿内容のチェックについては、機械学習による全面自動化とはせず、敢えて人間による目視とのダブルチェック体制とすることで、センシティブな内容への細やかな対応なども担保しつつ、チェックを行うスタッフの物理的、精神的作業負荷の大幅軽減にもつながっていると言います。また、これまで専任のスタッフがチェックをしていたために、ノウハウが属人化してしまうことも課題の 1 つでしたが、機械学習と目視のダブルチェックにより、別の担当者が、コンテンツ内容のチェックをすることになってもすぐにスコアを出すことも可能になり、ノウハウの過度な属人化を防ぐことにも役立っているとのことです。
河原塚さんは、「導入したばかりなので、工数面での効果は今後検証していくことになりますが、機械学習と人の目という異なる複数の視点でダブルチェックができていることは、コンテンツの精度と信頼の向上につながっていくと考えています」と話します。
さらに、アーキテクチャに関しては、ほかのシステムに汎用的に使えるようにも考えてあり、すでに、コンテンツのタグ付けの仕組みに横展開されています。「タグ付けは外注していましたが、機械学習によりタグ付けを自動化したことで、外注コストを削減できました。デザインパターンの共通化により、システム構築のノウハウも属人化しません。機械学習をはじめとする Google Cloud のサービスを、フットワーク軽くほかの案件に活用できるようになったので、今後は Google Cloud によるより一層のシナジー効果も期待できます。」(小宮山さん)
PoC(概念実証)で終わることが少なくないAI 系のプロジェクト、開発段階の工夫を早川さんは次のように語ります。「機械学習は確率モデルなので、95 %の確率でも 100 件に 5 件は間違えます。機械学習や AI には“完璧”という期待感があるので、利用者のその期待値をいかにコントロールできるかがポイントです。今回は、機械学習だけに頼るのではなく、最終チェックは目視にすることで、まず導入のハードルを下げています。そして、プロトタイプの段階から利用者に確認してもらい、本番運用時の理想と現実のギャップを少なくすることを心がけました。」(早川さん)
最後に、限られた時間とコスト、リソースの中で、実にスマートに AI 導入を実現させたその秘訣を河原塚さんに伺いました。「2 つのシステムを連携する場合、リアルタイムの連携や、API の連携など、かっこよく連携したいという思いが強くなりすぎ、必要以上に大きな絵を描きがちです。しかし、ムリしないことがシステム連携の成功につながると思います。今回、既存システムとは“ゆるくつながる”マイクロサービスによる非同期の連携になっています。この“ゆるくつながる”品質でいいという割り切りが、機械学習の導入プロジェクト成功における最大のポイントだと思っています。」
(写真左から)
・弁護士ドットコム本部 メディア開発部 部長 河原塚 有希彦 氏
・弁護士ドットコムメディア開発部 開発チーム エンジニア 小宮山 太樹 氏
・データサイエンス室 データサイエンティスト 早川 和希 氏
弁護士ドットコム株式会社
2005 年 7 月に設立され、法律相談ポータルサイト「弁護士ドットコム」の運営を開始。国内弁護士の 4 割以上が登録している。2013 年 12 月に東京証券取引所マザーズ市場に上場。現在、弁護士ドットコム、税理士ドットコム、クラウドサイン、BUSINESS LAWYERS の開発、運営などを事業として展開。既存事業との相乗効果を目的としたリーガルテック企業への出資も行っている。
その他の導入事例はこちらをご覧ください。