リクルートマーケティングパートナーズ:人気学習アプリ『スタディサプリENGLISH』のスピーキング評価に Speech-to-Text を応用

株式会社リクルートマーケティングパートナーズ について

結婚・出産育児情報を取り扱う「ゼクシィ」、自動車関連情報を取り扱う「カーセンサー」、まなびコンテンツ、高校生の進学情報サービスなどを展開する「スタディサプリ」など、リクルートグループの中でも、特にライフイベントにまつわる事業を展開。従業員数は 1,250 名(2020 年 6 月 1 日時点)

業種: 専門業, メディア、エンターテイメント
地域: 日本

貴社の課題を教えてください。私たちがお手伝いします。

お問い合わせ

英語学習アプリ『スタディサプリENGLISH』のリード&ルックアップというスピーキング評価は、Google Cloud の Speech-to-Text が学習者の発話内容をテキスト化。高い精度の音声認識 APIが客観的な学習評価を実現しています。

Google Cloud 導入の効果

  • Speech-to-Text は基本的な認識精度が高く、アプリによる発話内容評価機能をいち早く実現することができた
  • 開発過程で頻繁に行う認識精度の検証作業を Web ブラウザ上から簡単に行うことができた
  • ログの収集・分析などに Firebase を活用。分かりやすい GUI によって非エンジニア層でも使えるように

基本的な認識精度の高さでアプリによる発話内容評価機能を支える

スマートフォンで日々の学習や高度な受験対策が行えるアプリとして人気の「スタディサプリ」。その派生サービスである『スタディサプリENGLISH』は、受験生のみならず、社会人もターゲットにした英語学習特化型のサービスです。日常英会話からビジネス英語、TOEIC 対策などまで用途に合わせたコースを提供している同サービスが、2020 年 12 月にスピーキング トレーニング機能を刷新。そこに Google Cloud の Speech-to-Text API が使われていると聞き、お話を伺ってきました。

Speech-to-Text を利用して学習者の発話内容をテキスト化

「『スタディサプリENGLISH』では、会話力強化を目的としたビジネス英語コースと新日常英会話コースにおいて、リード&ルックアップというスピーキング トレーニングを提供しています。これはまず表示された英文を見ながら音読した後、続いて同じ意味の和文のみを見て再度英語で発話するというものです。しかしトレーニングのリリース時点では学習者の発話内容をアプリ側で評価する手段がなく、学習者は録音された自分の発話音声を聞き返して自己評価するというものになっていました。」

『スタディサプリENGLISH』の企画チームリーダーである富田さんは、アンケートなど、利用者の声を集めていく中でここに大きな改善の余地があると考えました。

「利用者へのインタビューなどを通して、自己評価することが非効率であること、また、自身の発音がネイティブに伝わるかがわからないという課題が明らかになりました。解決策を模索した結果、発話内容をテキスト化し、結果をアプリ側で評価してくれるような機能が必要だという結論に達しました。そして、こうした機能をいち早く提供するために、Google Cloud の提供している音声認識 API、Speech-to-Text を導入することにしました。」(富田さん)

「やはり決定打となったのは音声認識の精度です。今回の取り組みでは Speech-to-Text は頭 2 つくらい抜けていました。 Speech-to-Text の認識精度が定量的にも定性的にも優れていると判断し導入を決定しました。」

株式会社リクルートマーケティングパートナーズ データサイエンティスト 高山 智道 氏

数ある選択肢の中から Speech-to-Text を選んだ理由について、その技術検証を担当したデータ サイエンティストである高山さんは次のように説明してくださいました。

「やはり決定打となったのは音声認識の精度です。具体的には、「日本人の発音であっても、ネイティブ スピーカーが文脈から正しい単語として認識できるくらいの精度」なのですが、今回の取り組みでは Google Cloud の Speech-to-Text をはじめ、主要な音声認識 API は一通り試したのですが、Speech-to-Text はその点で頭 2 つくらい抜けていました。Speech-to-Text には Video というプレミアムなモデルがあるのですが、その精度がちょっと驚くくらい高かったんです。最後まで残ったもう 1 つの選択肢はカスタマイズ性において勝っていたのですが、検証の結果、そうして鍛えたモデルよりも Speech-to-Text の認識精度の方が定量的にも定性的にも優れていると判断し導入を決定しました。」(高山さん)

ただし、もちろん Speech-to-Text をそのまま使えるわけではなく、英会話学習ならではの工夫も必要だったと言います。

「Speech-to-Text は極めて精度が高いものの、同音異義語、たとえば will と we'll のような区別の難しい単語を意図通りに認識させるのには苦労しました。これは文脈を元に細かくルールを作っていく、問題になりそうな単語を見つけては辞書に登録していくという地道な対策で補正しています。あとは固有名詞ですね、日本の地名だったり、『KIMONO(着物)』や『UDON(うどん)』といった日本文化特有の単語は認識できない場合が多いので、辞書に登録したり、あるいはコンテンツ自体を修正することで誤認識を減らすようにしています。」(高山さん)

本プロジェクトでテクニカル PM として開発のとりまとめを行った松田さんは、こうした開発過程での検証について「かなり細かく、頻繁に検証を行う必要がありましたが面倒な手続きなどもさほど多くなく、とてもやりやすかった」と当時をふり返ります。

現在は、12 月の機能提供開始に向けて、最終的な機能の作り込みの最中。アプリによる発話内容評価を単純な正解 / 不正解とするのではなく、正解の度合いについて「Excellent」「Good」などという形でランク付けする仕組みなどに取り組んでいるそうです。

「リリース前の最終段階としては、プロジェクトチーム内の評価は上々。良い評価が出るまで何度でも試したくなるという声も多く、当初の目標が達成できるであろう手応えを感じています。」(富田さん)

recruitmp architecture
<図を拡大>

スピーキング以外の学習でも Google Cloud の活用を検討中

Speech-to-Text の効果的な導入によって求める精度を達成できた『スタディサプリENGLISH』のリード&ルックアップ トレーニング。もちろん、その実現には Speech-to-Text 以外の Google Cloud プロダクトも多数活用されています。

「具体的には Firebase を利用しています。アプリ上のクラッシュログを全て Firebase Crashlytics に集めて、エラー分析や障害検知などに使っているほか、簡易的なデータベースとしても活用。このアプリでは画面上に出すバナーやお知らせを切り換える処理が頻繁に発生するのですが、その都度リリースしていると負担が大きくなるので、データを Firebase 上に置いておいて、文字列を切り換えればバナーも切り替わるというような実装をしています。なお、Firebase 自体はリード&ルックアップ機能に先駆けて、数年前から利用中。GUI が使いやすく、システムに対する知見がないメンバーでも触れるというのが導入の理由です。」(松田さん)

さらに『スタディサプリENGLISH』を含む、スタディサプリのサービス基盤は他社クラウドプラットフォーム上に構築されているため、その役割分担をどう線引きするかというのも悩みどころだったそうです。

「リード&ルックアップ機能では、トレーニング履歴などをサービス基盤に保持しつつ、音声データは Cloud Storage に保存というように、役割分担を行なっています。その際、全ての処理を直列で実施してしまうと、速度的な遅延から学習体験を損なうことが考えられたため、「トレーニング履歴」と「音声データ」の保存は並列処理で実施しています。プラットフォームがまたがる処理にも関わらず、容易に組み込むことができたため、サービス向上に集中した磨き込みを検討することができました。結果、現時点では、機能そのものやサービス基盤との連携の部分で大きな問題も起こっておらず、想定通りに動いています。」(松田さん)

『スタディサプリENGLISH』の機能向上や、そのための Google Cloud 活用はまだ始まったばかり。今回の成功を踏まえ、さらなる応用を検討中とのことです。

「今回リリースするリード&ルックアップの新機能に限らず、その他のスピーキング トレーニングにおいても、Speech-to-Text を応用できると期待しています。具体的にはユーザーが自由に発話した内容をより多面的に評価できる仕組みを構想中です。」

株式会社リクルートマーケティングパートナーズ スタディサプリENGLISH 企画担当
富田 恭平 氏

「今回リリースするリード&ルックアップの新機能に限らず、その他のスピーキング トレーニングにおいても、Speech-to-Text を応用できると期待しています。具体的にはユーザーが自由に発話した内容をより多面的に評価できる仕組みを構想中です。音声認識技術や AI を活用していくことで、より本格的な対話トレーニングを実現し、オンライン英会話などでの実践に尻込みする方の背中を後押ししていくことが可能ではと考えています。」(富田さん)

「なお、スタディサプリ全体では、その他、BigQuery をデータ分析基盤として使用中。BigQuery に各種データを蓄積し、中間テーブルを作る際には Cloud Composer なども活用しています。また、レコメンデーション エンジンをのせるプラットフォームとして Google Cloud の AI プラットフォームをとても有望視しています。」(高山さん)

「サービスへの利用以外の観点では、社内プロセスの効率化みたいな部分で Google Cloud を使っていくということも考えています。例えば Google Apps Script を用いてサービスの連携をよりシームレスにするとか、社内の会議のデータなどを収集したり、それを見やすくカスタマイズしたりといったことに使っていきたいと思っています。」(松田さん)

インタビュイー

recruitmp interviewees photo
(写真左から)
・スタディサプリENGLISH 企画担当 富田 恭平 氏
・プロダクトマネージャー 松田 大輝 氏
・データサイエンティスト 高山 智道 氏

PDF のダウンロードはこちら

事例制作:2020

貴社の課題を教えてください。私たちがお手伝いします。

お問い合わせ

株式会社リクルートマーケティングパートナーズ について

結婚・出産育児情報を取り扱う「ゼクシィ」、自動車関連情報を取り扱う「カーセンサー」、まなびコンテンツ、高校生の進学情報サービスなどを展開する「スタディサプリ」など、リクルートグループの中でも、特にライフイベントにまつわる事業を展開。従業員数は 1,250 名(2020 年 6 月 1 日時点)

業種: 専門業, メディア、エンターテイメント
地域: 日本