AI & 機械学習

Cloud Speech-to-Text の新たな対応言語でも改良されたモデルと機能が利用可能に

2020年3月13日

Google Cloud Japan Team

※この投稿は米国時間 2020 年 3 月 6 日に、Google Cloud blog に投稿されたものの抄訳です。

通話分析や動画字幕の自動生成などのスピーチインターフェースは、人が周囲とやり取りする方法を変貌させ、新たなビジネス機会を創出しています。こうした変化の原動力となり、アイデアの実現を後押ししているのが音声認識技術です。

Google Cloud では、この素晴らしい技術をできる限り広範に利用できるものにするために日々尽力しています。Google Cloud のプロダクトや機能をより多くのお客様に提供し、世界中の企業で便利にご利用いただけるようにするため、このたび、新しい機能、モデル、言語を音声入力システムに導入いたしました。

Google Cloud Speech-to-Text は、ユーザーが送信した長尺、短尺の録音やストリーミングされた音声に含まれる発言を文字変換して返す API です。Google Cloud の業界をリードする音声認識の品質は高く評価されており、この技術により Contact Center AI や動画のテキスト化など、多種多様なソリューションが実現しています。

このたびのアップデートでは、新たな言語を 7 つ追加したほか、強化されたテレフォニーモデル（3 言語追加）、音声適応（68 言語追加）、話者ダイアライゼーション（10 言語追加）、句読点入力の自動化（18 言語追加）の提供を拡大しました。このアップデートにより、新たに 2 億人以上の人々が初めて音声テクノロジーを利用できるようになり、世界中で 30 億人以上の人々が新機能を活用して音声文字変換の精度を上げられるようになります。

より多くの言語で利用可能に

Cloud Speech-to-Text の提供開始以来、Google Cloud では高品質な音声認識をより多くの言語でご利用いただけるようにするため、継続して開発に取り組んできました。このたび、ビルマ語、エストニア語、ウズベク語、パンジャブ語、アルバニア語、マケドニア語、モンゴル語の 7 言語の追加により、幅広い機能に対応した言語が 64 言語から 71 言語（言語総数では 120 言語から 127 言語）に増えました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/7_new_languages.max-1000x1000.jpg

携帯型の音声翻訳機、ポケトークのメーカーであるソースネクスト社も、Google Cloud Speech-to-Text の幅広い対応言語がもたらすメリットを活かした企業の一つです。

ソースネクスト株式会社の執行役員で技術戦略室のスペシャリストを務める川竹一氏は、次のように述べています。「Google Cloud Speech-to-Text の充実した言語機能のおかげで、この製品を実現できました。非常に幅広い言語に対応しているので、お客様は世界のどこにいても高精度かつ信頼性の高い音声翻訳を利用でき、それがまた製品の品質向上につながっています。」

強化されたテレフォニーモデル

2018 年 4 月、Google は英語（米国）向けに強化されたテレフォニーモデルの提供を開始しました。このモデルは、電話やビデオ通話からの音質が良くない音声データをお使いのお客様に、最高品質の音声文字変換を提供するために開発されました。提供開始時点で、テレフォニーモデルはベースモデルと比較して 62% も高いパフォーマンスを示しており、現在では Contact Center AI によるコールセンターの顧客とエージェントのエクスペリエンス変革に役立っています。このたび、音声入力対応言語として新たに英語（英国）、ロシア語、スペイン語（米国）の 3 言語が追加されました。

https://storage.googleapis.com/gweb-cloudblog-publish/images/3_new_locales.max-1000x1000.jpg

これらの機能を最初に導入した企業の一つが、ロシアで多数の企業顧客が利用しているクラウド通信プラットフォームを提供している Voximplant です。同社は、非常に精度の高い新しいテレフォニーモデルをすぐに実現しました。

Voximplant の CEO である Alexey Aylarov 氏は、次のように述べています。「当社が Google Cloud と提携した理由は、Google の AI テクノロジーによって音声プラットフォームを革新したかったからです。低帯域幅の電話ネットワークからの音声を受信することが多いので、高度なテレフォニーモデルの導入は大きな転機となり、人同士や人と仮想エージェント間の会話で精度が改善しました。高品質モデルをより多くのユーザーと言語に提供するという Google Cloud の取り組みに満足しています。」

音声適応

音声適応は、Google が事前に構築した強力な音声モデルをリアルタイムでカスタマイズできる機能です。この機能を使用すれば、固有名詞や特定の商品名を認識させることも可能です。また、どのような情報がほしいかというヒントを API に与えることで、特定のユースケースに合わせて音声認識の品質を大幅に向上させることもできます。

https://storage.googleapis.com/gweb-cloudblog-publish/images/Speech_adaptation.max-1500x1500.jpg

このたび、このテクノロジーの最新ソリューションでもある、ブーストベースの音声適応機能が新たに 68 の言語 / 地域でご利用いただけるようになります。ブースティングによって、ユーザーは特に重要な単語に合わせて音声モデルをどのくらい調整するかを詳細に制御できます。また、よく使われる数値クラスが多数の新しい言語にさらに追加されます。各言語でサポートされるクラスについては、クラスのサポートに関するドキュメントをご覧ください。ブーストベースの音声適応機能は、68 の言語 / 地域で新たにご利用いただけるようになりました。

●フランス語

●ドイツ語

●スペイン語

●日本語

●北京語

●全リストを表示

話者ダイアライゼーション

ダイアライゼーションは、音声ファイル内で個々の単語や文章を異なる話者に自動的に紐付ける機能です。この機能を使用すると、ユーザーは何が話されただけではなく、誰が話したかも把握できます。これにより、音声や動画に字幕を簡単に追加するなど、さまざまなユースケースへの対応きるようになります。このたび、この機能を 10 言語 / 地域で新たにご利用いただけるようになりました。

●英語（英国）

●スペイン語

●日本語

●北京語

●全リストを表示

句読点入力の自動化

正確な音声文字変換には句読点が不可欠です。句読点を入力することで、ユーザーは両方の言語の音声翻訳の精度を向上させることができます。句読点入力の自動化機能では、ユーザーが発言内容をテキストにしたらどうなるかを予想して文字起こしが行われます。これにより、文字起こしが読みやすくなり、口述が簡単になります。新たに 18 の言語 / 地域がこの機能に対応しました。

●ドイツ語

●フランス語

●日本語

●スウェーデン語

●全リストを表示

これらの新しい言語と機能により、世界中の何十億人ものユーザーが、音声ベースのインターフェースと高品質の音声認識を利用できるようになります。音声入力によって口頭による情報の管理方法を刷新し、組織を変革したい場合は、今すぐプロダクトページをご覧になるか、お問い合わせください。

- By 音声部門プロダクトマネージャー Calum Barnes

投稿先