Cloud Speech-to-Text On Device

概要

Speech-to-Text On Device を使用すると、組み込みデバイスでサーバー品質の音声テクノロジーを利用できます。この機能により、ネットワークや Google のサーバーに接続することなく、デバイス上でストリーミング音声認識を完全に実行できます。このようなユースケースの場合、サーバーサイド ソリューションと比べると、デバイス上のソリューションにはいくつかのメリットがあります。たとえば、デバイスがネットワークに接続されていなくても、またネットワーク接続が制限されていても、音声認識を利用できます。ユーザーのデータがデバイスの外部に出ることはありません。

主な機能
高品質の音声文字変換 自動音声認識に Google のアルゴリズムを使用します。
オフライン インターネット接続が不要な音声認識
低レイテンシ 音声認識はデバイスのローカルで高速に実行されます
効率的なモデル サイズが 1 GB 未満のモデルを使って効率的にデプロイし、最小限のリソースだけを消費します。
音声アクティビティの検出 人間の音声の開始と終了を検出します。
信頼度 音声文字変換のおおよその信頼度を取得できます。
モデル適応 分野特有であまり使われない単語やフレーズに対する音声文字変換の精度を高めることができます。

次のステップ

デバイス上の音声はライブラリまたは gRPC サーバーで処理されます。

  1. libgspeech は Google Speech のライブラリ インターフェースで、メモリ使用量と Google Speech を強化する推論グラフの制御機能を提供します。
  2. 音声サーバーは、Google Speech に対する gRPC サーバー インターフェースです。このサーバーは、Cloud Speech API に精通しているユーザーに適しています。

アクセス権については、Google にお問い合わせください。