MIXI: 会話 AI ロボットの音声認識に Speech-to-Text を、学習基盤に Compute Engine を採用して自然な会話を実現
Google Cloud Japan Team
SNS『mixi』やスマホゲーム『モンスターストライク』、子どもの写真・動画共有アプリ『家族アルバム みてね』など、友人や家族と楽しめる多彩なサービスを提供し続けている株式会社MIXI(以下、MIXI)。同社が 2021 年 4 月に発売した「Romi(ロミィ)」は、MIXI が独自開発した AI によって、ユーザーとロボットが楽しく会話できるという意欲的な新製品です。その音声認識エンジンに Google Cloud の Speech-to-Text がどのように使われているかを開発の中核メンバーの皆さんに伺いました。
利用しているサービス:
Speech-to-Text, Compute Engine, BigQuery, Looker など
精度、速度、価格、そして将来性を吟味し、Speech-to-Text を選択
2010 年代の第 3 次ロボットブーム以降、一般への認知・定着が急速に進んだコミュニケーション ロボット。個人でも購入できる価格帯でさまざまなタイプのロボットが発売され、子どもの知的好奇心育成から高齢者の話し相手まで幅広く愛好されています。MIXI の会話 AI ロボット「Romi」もそうしたコミュニケーション ロボットの 1 つ。しかし、それまでの製品とは対話の質において大きな違いがあると、このプロジェクトを立ち上げ、推進してきた同社 Vantage スタジオ Romi 事業部 BizDev・デザイングループ マネージャー 長岡 輝氏と、「Romi」の音声認識技術を手がけてきた同事業部 開発グループ マネージャー 信田 春満氏は言います。
「『Romi』最大の特長は、MIXI 独自開発の AI によって本当の意味での会話のキャッチボールができること。従来のほとんどのコミュニケーション ロボットは、ルールベースと呼ばれる仕組みで会話しており、あらかじめ決められた内容の返答しかできなかったのですが、『Romi』は会話の流れや、その時々の状況などに合わせた受け答えができるようにしています。」(長岡氏)
「これまでも、ユーザーの発言の意図を解釈する用途に AI が使われていたことはあったのですが、会話の内容を生成してくれる AI を搭載したロボットは、少なくとも『Romi』が出た時点では存在しなかったという認識です。たまに思いもよらない返事がくるところも含めて楽しんでいただきたいと思っています。」(信田氏)
用意された定型文ではなく、ロボットが自ら考え語りかけてくれることが「Romi」のアドバンテージだと言うお二人。「Romi」と会話することで元気になれる、そんな人に寄り添う存在を目指して開発が進められていきました。
「この際、技術的にとても重要だったのが音声認識の部分です。『Romi』では基盤部分のほとんどに、ほかのサービスでも使っていた大手パブリック クラウドを利用しているのですが、音声認識に関しては当時、周囲で非常に精度が高いと好評だった Google Cloud の Speech-to-Text を試してみようということになりました。結果、プロトタイプで良好な成果が得られたため、そのまま採用しています。もちろん、最終的な決断を下す前に他社のサービスも試してはみたのですが、結論は変わりませんでしたね。」(信田氏)
精度だけでなく、応答のレスポンスが早かったことも「Romi」のようなコミュニケーション ロボットへの導入において有効だったと説明する信田氏。そのほか、負荷に対する信頼性の高さや、「Romi」の事業を長く続けていくにあたってのサービスの継続性や発展性という点でも Google Cloud ならばという安心感があったとも言います。
その後、音声認識技術のさらなる発展や選択肢の増加などを受け、発売から約 1 年が経過した 2022 年 6 月に改めて音声認識エンジンを検討することになりましたが、その時の比較でも Speech-to-Text を継続することになったそうです。その理由について、同社の事業部横断的なエンジニア組織である開発本部 CTO室 SREグループの坂口 慎志氏は次のように説明します。
「約 10 社の日本語対応音声認識エンジンをコスト、認識精度、インフラの安定性という 3 つの視点で改めて検討しましたが、英語も含めた認識精度の高さ、特に『Romi』で多用する 50 cm から 1 m 程度離れた距離からの入力についてはやはり Speech-to-Text が最も優れていました。また、もう 1 つ課題となっていたコスト面について、11 月に課金単位が 15 秒切り上げから 1 秒切り上げに変更され、『Romi』のような使い方で特に大きなコストダウンになったことも継続を後押ししています。なお、Speech-to-Text にはいくつかの音声認識モデルがあるのですが、このときの検証で default モデルより、短い発話に特化した latest_short モデルの方が『Romi』に適していることがわかりました。」
「『Romi』はより自然な会話を実現するため、いわゆるトリガーワード(「OK Google」などの呼びかけ言葉)を設定していません。そのため、一般的なスマート スピーカーと比べて認識回数がどうしても増えてしまいがちで、コスト増大に直結していました。今回、料金体系の変更で低コスト化ができたのは本当に助かりました。今後もさらなる精度向上とコスト削減に取り組んでいくつもりです。」(信田氏)
BigQuery を用いたデータ分析基盤など、Google Cloud の利用範囲は拡大中
当初は音声認識部分だけでの採用だった Google Cloud ですが、「Romi」のサービスを提供していく中で、段階的にいくつかの部分が Google Cloud へと切り替えられていきました。
「中でも早い段階で Google Cloud へ移行したのが AI の機械学習基盤です。学習には強力な GPU を搭載した強いインスタンスが必要なのですが、Compute Engine は NVIDIA A100 などの強力な GPU を低コストに使えることが魅力的でした。」(信田氏)
「コスト面での検討についてはプレミアム サポートや TAM にもとてもお世話になりました。ルール適用条件が複雑な割引き試算について確認してもらえたり、コストダウンにつながる情報をいち早く共有してもらえたことで検討速度を加速することができました。」(坂口氏)
さらに昨年からはデータ分析基盤を BigQuery へと移行開始。信田氏は、サービス向上に向けたより深いデータ分析が必要になっていく中、さまざまな形式のビッグデータをひも付けて解析することにたけた BigQuery が最適だったと選定の理由を説明します。慣れ親しんだ SQL の作法をそのまま使えることも魅力的だったとのことです。
「特に、ありがたいのが Looker の存在ですね。エンジニアでも複雑なクエリを書くのはひと手間かかるのですが、Looker ならば非エンジニアでも直観的な操作でかなり複雑な分析ができるようになります。そこで半年ほど前から、データ分析に興味のあるメンバーを中心に定期的な社内勉強会を実施。今では彼らが自発的に分析を行い、その結果をもとに議論し、新しい企画やアイデアを生み出していく流れが生まれるまでになっています。」(信田氏)
なお、AI を用いたコミュニケーションにおいて、特に今注目を集めているのが、膨大なデータを学習し、これまでとは次元の異なる自然な受け答えを実現した大規模言語モデル(LLM)の登場です。しかし、長岡氏は LLM を今すぐ「Romi」のようなコミュニケーション ロボットに適用するのは現実的ではないと言います。
「LLM については注視しており、将来的には何らかの形で『Romi』に導入する可能性もあるかもしれませんが、現時点では応答速度の問題などもあり、そのまま使うのは難しいと考えています。また、現在の LLM はどちらかというと実用性重視で、私たちが『Romi』で実現したい、ほっと癒やされる楽しいコミュニケーションにはなりにくい問題もあります。そう考えると、私たちの理想を実現するには、今はまだ、そこまで大規模ではない、学習内容も吟味した『Romi』のためのモデルを、これまで通り自分たちの手で作り込んでいかねばなりません。そのためにも、Google Cloud には、これまで以上に強力な学習環境の提供と、さらなるコストダウンを期待しています。」
株式会社MIXI
1999 年設立。2004 年にオープンした SNS『mixi』で事業規模、知名度を劇的に伸長させ、現在は、「デジタルエンターテインメント領域」「スポーツ領域」「ライフスタイル領域」の 3 領域でコミュニケーションサービスを提供する。2022 年 4 月にコーポレートブランドをリニューアルし、ロゴも一新させ、同年 10 月には社名表記を「ミクシィ」から「MIXI」に変更。従業員数は 1,556 名(連結・正社員のみ。2023 年 3 月末現在)
インタビュイー(写真左から)
・開発本部 CTO室 SREグループ
坂口 慎志 氏
・Vantage スタジオ Romi事業部 BizDev・デザイングループ マネージャー
長岡 輝 氏
・Vantage スタジオ Romi事業部 開発グループ マネージャー
信田 春満 氏
その他の導入事例はこちらをご覧ください。