コンテンツに移動
AI & 機械学習

インサイトからロボットまで、未来に広がる Speech AI のユースケース

2022年4月28日
https://storage.googleapis.com/gweb-cloudblog-publish/images/AI_speech_1.max-2600x2600.jpg
Google Cloud Japan Team

※この投稿は米国時間 2022 年 4 月 20 日に、Google Cloud blog に投稿されたものの抄訳です。

Google が Google Cloud Speech-to-Text(STT)APIリリースしてから 5 年が経ち、これまでのお客様のさまざまな取り組みには感心させられるばかりです。音声操作アプリの実行から動画の字幕生成まで、STT API は毎月 10 億分を超える音声言語を処理しています。これは、普通の発話速度でオックスフォード英語大辞典をまるごと(現在使われなくなった語も含め)50 万回以上文字起こしするのに十分な処理量に相当します。

「人とコンピュータのインタラクションにおいて次に大きな破壊的革新をもたらすのが音声であることは疑いようがなく、Google の Cloud Speech API のような技術の重要性が日々高まっています。企業が変化の激しい消費者の行動やニーズに対応し続けるために、これは非常に重要な技術です。DeepMind と Google Brain の提携を通じて Google はこの分野に投資し続けて市場に新しい変革をもたらし、組織が消費者向けアプリケーションに音声コンポーネントを迅速かつ簡単に追加することを可能にしています」と、IDC の AI および自動化リサーチ プラクティス担当グループ バイス プレジデントの Ritu Jyoti 氏は述べています。

スマートフォンのアシスタントに指示を与えたり、ビデオ会議で発言者の声に合わせて表示されるテキストを見たりする身近なユースケースは、ほんの序章にすぎません。お客様はこのような AI 技術のより高度で創造性に富んだ使用法を日々生み出し続けています。音声言語の正確な理解と文字起こしを大規模に実行できるようになれば、他の多様な AI サービスやアプリケーションを重ね合わせ、このデータからより魅力的なエクスペリエンスを創出したり、さらに詳しい分析情報を引き出したりできるようになります。


この技術の未開の領域を切り開き、音声を武器にビジネスの可能性を広げる方法を探るために、Google Cloud のお客様による Speech API の画期的な使用例をいくつか見ていきましょう。よりよい販売体験の創出からユーザー フレンドリーなロボットの開発まで、ユースケースは多岐にわたります。

音声を分析情報と販売につなげる: InteractiveTel

自動車ディーラーにとって電話は、見込み顧客や売り上げにつながる可能性のある重要な情報源です。しかし、ディーラーは通話データを収集してそれに基づく行動をすることにこれまでずっと苦労しており、購入を検討している多くの顧客に対して、折り返し電話をかけることもないまま放置してしまうことすらありました。このような課題を AI で克服できることに気づいたのが、InteractiveTel の首脳陣です。InteractiveTel は、カスタマー サービスの向上と販売促進をサポートするクラウド ベースのテレフォニー アプリケーション プロバイダです。

音声データは、ディーラーにリアルタイムの分析情報を提供して、より建設的な会話と信頼性のあるフォローアップを可能にし、最終的にはより確実な売り上げにつなげるための機会となると、InteractiveTel は考えました。しかし、InteractiveTel が当初使用していた音声認識技術は、結果に一貫性がありませんでした。

そこで InteractiveTel は、STT API がリリースされた 2017 年にその最初のお客様のうちの 1 社となりました。同社の音声文字変換の精度はすぐに 30% 向上し、より高度で信頼性の高いサービスとしてかつてない成長を続けています。

InteractiveTel の共同創設者 Gary Graves 氏はこのように述べています。「我が社のプラットフォームの力を最もよく示す KPI は顧客維持率です。96% の維持率を誇っています。」

そして Graves 氏は、Google の Cloud Speech API がこの成功の核となっていると言います。「Cloud Speech API がなければ、InteractiveTel はごく平凡な企業です。最初の導入時に、Cloud Speech API を InteractiveTel の中核に組み込みました。すべての会話が API で文字起こしされ、ほぼリアルタイムでデータを生成することで、サービスを充実させる基盤が構築されました」と、Graves 氏は述べています。

たとえば、現在在庫がない自動車について問い合わせの電話があった場合、InteractiveTel は会話の進行と同時にディーラーにアラートを表示して、類似の自動車が近日入荷予定かどうかを知らせます。InteractiveTel プラットフォームでは、問い合わせてきた顧客がディーラーに予約歴があるかなど、これまでの対応歴もわかります。さらには、顧客と販売担当者の間で意見の相違があるため営業マネージャーが会話に参加する必要がある可能性があるといった事象を検知する感情分析も提供します。

Graves 氏は次のように述べています。「STT API はほとんど手がかかりません。会社の規模拡大に合わせて拡張し、成長のスピードに対応し、決してボトルネックを生じさせませんでした。

私はデータを重視する人間なので、導入時には当時提供されていたすべての製品をテストしました。その結果、Google が最もよいと判断しました。他のプロバイダが 6 か月おきに連絡してきますが、いつも『また 6 か月後に出直してください』と返します。それがもう何年も続いています。」  

子供の発育を支える友達ロボット: Embodied

InteractiveTel のプラットフォームはビジネス社会のトレンドへの対応力を発揮しますが、Embodied の Moxie ロボットは、病院から家庭まで、社会性と情動の学習(SEL)に効果を発揮する Speech AI の影響力を示しています。Moxie はあらかじめ定義されたプロンプトやレスポンスだけではなく、継続的な会話に対応できるように設計されているので、子供たちはまるで友達と話すように対話できます。たとえば、子供が「宇宙が好き」と言ったなら、Moxie は自動的に会話の内容に天文学に関する知識を織り交ぜ、子供が Moxie の Book Club の本を読んでいたら、的を射た質問で読後の感想を引き出すような会話を展開します。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Moxie_Embodied_Product_2_1.max-2200x2200_85RCwNk.jpg

Embodied の Moxie

Moxie は、すべての子供が楽しめる方法を通じて社会的、情動的、批判的思考のスキルを刺激し、社会的孤立や友達を作るのが困難な状況などの逆境に直面している子供に対して特に高い効果が期待できます。発達障害を持つ子供が Moxie と時間をすごした後で見せた社会性と情動の発達について、保護者の方々から希望に満ちたフィードバックも寄せられています。Moxie は対応する相手を判別でき、微妙な視線の動き、表情、ボディ ランゲージを織り交ぜて積極的に相手と関わり、子供との人間関係を築くことが可能な信用のできる生き生きとした AI フレンドとなることができます。

「Embodied はテクノロジーを使用して、親が子供を助けるための力になることを目指しています」と創設者兼 CEO の Paolo Pirjanian 氏は言います。元 NASA の科学者であり、前職では iRobot の CEO も務めた Pirjanian 氏は、インタラクティブ ロボット市場はまだ「始まったばかり」と評価しつつも、Moxie の高評価に大きな展望を見い出しています。「Moxie は子供が辛い気持ちを共有できる、批評や批判にさらされることのない空間を作り出し、友達や家族、周囲の世界との関わりを深める助けとなっています」と、Pirjanian 氏は述べています。

Moxie のマルチモーダル インタラクションと付随する保護者向けアプリは、多くの AI 技術によって実現されています。たとえば、子供のボディ ランゲージの解析は、コンピュータ ビジョン技術によってサポートされています。しかし、InteractiveTel と同様、インタラクションのスタート地点は Cloud Speech API です。最初に子供の発話を正確に理解できなければ、ロボットは状況に適したリソースを探り当てることもできません。

音声と CRM の出会い: HubSpot

HubSpot も、会話インテリジェンス プロダクトによって、発話から生成されるデータを使用して分析情報を導き出しています。Hubspot のお客様は、たとえば、AI を利用してミーティング中に自動的にメモを取り、音声データを CRM に接続してトレンドを測定したり、市場の変化を識別したり、コーチングの機会を探り出したりできます。

HubSpot は、会話インテリジェンスを提供するために、STT API 上に構築した複数モデルの独自のスタックを使用しています。HubSpot AI 部門のシニア プロダクト マネージャーである Ian Leaman 氏は次のように述べています。「文脈バイアス調整から発話者のタグ付けまで、HubSpot では STT API のさまざまな機能を活用しています。

最も優秀なワードエラー率を誇り、プラグ アンド プレイが可能でありつつ自由に調整して最適な構成を見つけることができ、顧客ベースのさまざまなセグメントに最適なモデルを探すことができました。おかげで HubSpot はお客様に満足のいくサポートを提供し、開発を高速化し、サポート言語を増やすことができました。」

会話で豊かになる AI エクスペリエンスとサービス

これらの事例が証明するように、音声 AI 技術はそれ自体強力な機能を備えていますが、多くの AI を組み合わせてこれまでにないエクスペリエンスを実現する、さらに高度で野心的な数々のユースケースのための重要なスタート地点ともなっています。今日目の当たりにするお客様事例の多くは、5 年前には実現可能というよりも理想であると思われていたはずです。また、今から 5 年後には、AI によって私たちの機械との関わり、あるいは人間同士の関わりでさえ大きく変化する様に引き続き驚かされるでしょう。Google Cloud の Speech API についての詳細は、こちらをクリックしてください。

- Google Cloud 音声担当プロダクト マネージャー Calum Barnes
投稿先