IVRy: 対話型音声 AI SaaS「アイブリー」に Gemini を導入し、次世代の音声認識精度と低レイテンシーの両立に成功

Google Cloud Japan Team
株式会社IVRy(以下、IVRy)は 2019 年に設立され、生成 AI を活用した対話型音声 AI SaaS「アイブリー」を提供しています。同社はより高精度な音声認識、高速なレスポンス、柔軟かつリーズナブルな運用を実現すべく、Gemini を運用基盤に導入し、顕著な成果を上げてきました。今回は開発をリードしてきた 2 名のエンジニアに Gemini の導入背景や効果、今後のビジョンについて伺いました。
利用しているサービス:
Gemini
利用しているソリューション:
生成 AI
生成 AI の登場が電話自動応答サービスに与えたインパクト
従来、オンプレミス型 IVR(音声自動応答システム)は、高額なサーバー機器の購入費や設置工事費などの初期投資に加え、システムの維持管理やアップデートにかかる人件費、定期的な機器リプレイス費用が発生するため、大企業向けに高額な予算で開発されていました。IVRy が 2020 年 6 月にリリースした「アイブリー」は、そのようなサービスをレストランや薬局などの小規模店舗も安価に利用できるものに一変させ、話題と注目を集めました。近年は、大企業のコールセンターや、全国にチェーン展開するブランドなどでも導入実績が増加。幅広い業種に対応できる汎用性、音声ガイダンスや対応ルールを簡単に設定できる利便性も評価され、2024 年初めには「電話 DX クラウド導入シェア」と「電話業務効率化クラウド導入シェア」で、それぞれ日本国内 1 位を獲得しています(※)。
※ 2024 年 2 月期 クラウド型 IVR システムにおける市場調査 調査機関: 日本マーケティングリサーチ機構 / 調査期間: 2024 年 1 月 16 日~2024 年 2 月 2 日
IVRy VP of AI Engineering の町田 雄一郎氏は、躍進の転機となったのが生成 AI の登場だったと振り返ります。


「レストラン予約の際には名前を伝える必要がありますので、ボタンプッシュによる従来型の IVR では、やはり無理が出てきます。いずれ音声でのやり取りが必要になるだろうと予想していましたが、当初は技術的に難しく『待ち』の状態が続いていました。しかし 2023 年、自然言語でやり取りできる LLM(大規模言語モデル)や生成 AI が登場しました。これなら新たなシステムを開発できると判断して、早速導入しました。」
Principal AI Engineer 花木 健太郎氏も、生成 AI 登場のインパクトを語ります。


「それまでの音声対話は、例えばレストランやホテルなど、クライアント(電話を受ける事業者)の業種ごとに専用システムを構築することが必要でした。しかし生成 AI を使えば、学習データなしでさまざまなドメインにサービスを横展開するためのモデルが設計できます。これは汎用性や事業性という観点から見ても、まさに革命的でした。」
高精度、高速処理、低コスト。Gemini が実現した次世代モデル
こうして同社は生成 AI を導入しましたが、町田氏や花木氏は、さらなる精度の向上を目指し、複数のモデルを検討し続けます。そして 2024 年に「アイブリー」の運用基盤を、Gemini に移行することを決定しました。
1 つ目の理由は精度の高さです。当時、音声入力に対応した LLM はほとんどありませんでした。しかし Gemini はマルチモーダル入力に対応しており、人名や商品名などの固有名詞の認識精度を大幅に向上させることができました。
「従来のシステムでは、まず音声を書き起こし、テキストを処理して返答を出力していました。しかし発音や表記が似ていたり、口ごもって聞き取りにくい人名の場合は書き起こしでエラーが起きやすく、出力結果も間違った内容になることがありました。Gemini は書き起こしを経由せず音声を直接処理できるので、最も発音が近い人名を出力できます。このため認識精度が大幅に向上しました。また、『はい』や『OK』などの肯定・否定表現はさまざまな場面で使われ、音節も短いために、従来の生成 AI では文脈の認識率が 85% にとどまっていました。しかし Gemini に移行した結果、これらの肯定・否定表現の認識精度も 97% まで上昇しました。」(花木氏)
2 つ目の理由は、処理速度の速い「軽いモデル」が充実していることです。「アイブリー」ではレスポンスと精度を向上させるため、「インテント(意図、目的)」の認識フローを細かく分岐させながら、複数の AI コンポーネントに処理を分散。レイテンシーを低く抑えつつ、日時などの必要情報を同時に抽出しています。Gemini はこの方式を推進するうえで最適なソリューションでした。
「生成 AI には、時間をかけて良い結果を出す長考モデルにフォーカスしているものもありますが、Google は Gemini Flash や Gemini Flash-Lite のように処理が速く、精度も高いモデルの開発にも注力している印象を受けます。2025 年 7 月にリリースされた Gemini 2.5 Flash-Lite はとりわけ処理が速く、非常に驚きました。音声対話ではレイテンシーが重要なので、軽いモデルはフィットしますし、エンドユーザー(店舗に電話をかける一般利用者)の利用体験向上も期待できます。」(花木氏)
Gemini の採用では、リーズナブルなコストも高く評価されました。
「『アイブリー』は基本プランが月額 3,980 円からとなっており、無料で試用もできます。良心的な価格設定を実現し、サービスを拡大するためには、レートリミット(API に送信できるリクエスト数の制限)や運用コストの問題をいかに乗り越えるかが重要です。Gemini はこの点でもすべての要件をクリアしていましたので、採用は自然な流れでした。」(町田氏)


もちろん IVRy は Gemini の性能をフルに引き出すために、独自の工夫も凝らしてきました。生成 AI にはハルシネーション(現実とは異なる情報)を出力してしまう危険が伴うこともあります。これを防ぐために、一旦構造化データを生成した後に処理を加え、自社のルールベースでエンドユーザーにデータを提供しています。Gemini の開発のしやすさとともに、このような「手堅いアプローチ(花木氏)」は信頼性や安心感の向上に貢献しました。
同社では安定運用のために、他サービスや別モデルへのフォールバック、別リージョンへの切り替えなど、万が一に備えたバックアップ体制も完備。また日常的なオペレーションでも、独自のテストを通して不断の品質向上に努めています。
「『アイブリー』の運用では、エンド ツー エンドのテストも実施しています。システムに対して仮想エージェントが電話をかけ、対話がちゃんと終了するかどうかを、100 パターン近くの会話をシミュレートして確認します。このテストは CI(継続的インテグレーション)に組み込まれており、不具合を未然に検知するだけでなく、新しい業種やユースケースへのスムーズな対応も可能にします。」(町田氏)
一方、営業担当やカスタマー サクセスも、きめ細かなサポートを提供しています。店舗側に FAQ などの情報があれば、その内容を Gemini に読み込ませてデータベースを構築する。既存の情報がない場合には 1 週間程度、音声データを蓄積して Gemini で解析するなど、対話の自動化と知識抽出の両方で Gemini が活用されています。町田氏や花木氏は Google Cloud と密にコミュニケーションを取り、新機能の迅速な導入や使い勝手の改善も図ってきました。
さらに精度と利用者体験を高め、社会課題の解決にも貢献
これらの地道な努力は、目覚ましい成果をもたらしています。2025 年 8 月時点では、「アイブリー」は累計 40,000 件以上のアカウントを発行し、累計着電数も 6,000 万件を超えています。2025 年 7 月には、レストラン予約検索サービスを提供する TableCheck との業務提携契約も締結。提携したレストランでは 24 時間 365 日の電話予約が可能となっており、予約のタスク完了率は約 8 割に到達しています。対応ドメインも増え続け、総務省が公表している「日本標準産業分類」では、中分類 99 業種のうち 96 業種で利用されています。
現在、日本では少子高齢化が急速に進行しており、介護・福祉、宿泊・飲食などをはじめ、あらゆる業種や企業で労働者の確保が急務になっています。その意味でも「アイブリー」のようなサービスは、重要な役割を担っていくことになるでしょう。社会的使命に応えるべく、花木氏と町田氏も、将来に向けたさらなる技術開発や利用者体験の向上を目指していました。
「精度向上に関しては、インテントの推定をマルチターンで行う機能も最近導入しました。これによってエンドユーザーの発言だけでは情報が足りない場合は、『今日ですか、明日ですか?』などと確認することが可能になりました。今後はお客様が特に設定をしなくても使えるような仕組みを構築する、あるいは、通常のビジネスフローにより深く組み込んでいただけるようにすることにより、業務効率化や生産性向上に貢献していくのが目標となります。」(花木氏)
「電話は今でも最も重要な連絡手段ですが、労働力不足のために電話を当たり前に取れない時代が訪れつつあります。このような状況を解決するためにも、回答の精度やレスポンスを高めて、利用を普及させていきたいですね。現在『アイブリー』は、回答のスキルという点では、アルバイトと正社員の中間レベル程度の対応ができるようになっています。Gemini を活用しながら利用体験を高め続け、いずれはベテラン社員、そして人間を超えるようなレベルにまで到達できればと考えています。」(町田氏)


株式会社IVRy
2019 年 3 月設立。対話型音声 AI SaaS「アイブリー」を開発。同システムでは 24 時間 365 日稼働する AI が電話応答を要約・分析し、FAQ 自動生成、意図分類、KPI モニタリング、営業支援システムや CRM、主要データ基盤との即時連携などを可能にしている。Gemini の採用を通じ高精度な音声認識と迅速な応答、幅広い業種への汎用性を実現。独自の技術や、オートコールと有人対応を組み合わせた運用により、継続的な業務改善とデータ ドリブンな意思決定を支援するプラットフォームとして、レストランなどの小規模事業者、大企業のコールセンターや全国にチェーン展開するブランドなどでの導入も増えている。
インタビュイー (写真左から)
・VP of AI Engineering 町田 雄一郎 氏
・Principal AI Engineer 花木 健太郎 氏
その他の導入事例はこちらをご覧ください。