概要
Speech-to-Text On Device を使用すると、組み込みデバイスでサーバー品質の音声テクノロジーを利用できます。この機能により、ネットワークや Google のサーバーに接続することなく、デバイス上でストリーミング音声認識を完全に実行できます。このようなユースケースの場合、サーバーサイド ソリューションと比べると、デバイス上のソリューションにはいくつかのメリットがあります。たとえば、デバイスがネットワークに接続されていなくても、またネットワーク接続が制限されていても、音声認識を利用できます。ユーザーのデータがデバイスの外部に出ることはありません。
主な機能 | |
---|---|
高品質の音声文字変換 | 自動音声認識に Google のアルゴリズムを使用します。 |
オフライン | インターネット接続が不要な音声認識 |
低レイテンシ | 音声認識はデバイスのローカルで高速に実行されます |
効率的なモデル | サイズが 1 GB 未満のモデルを使って効率的にデプロイし、最小限のリソースだけを消費します。 |
音声アクティビティの検出 | 人間の音声の開始と終了を検出します。 |
信頼度 | 音声文字変換のおおよその信頼度を取得できます。 |
モデル適応 | 分野特有であまり使われない単語やフレーズに対する音声文字変換の精度を高めることができます。 |
次のステップ
デバイス上の音声はライブラリまたは gRPC サーバーで処理されます。
- libgspeech は Google Speech のライブラリ インターフェースで、メモリ使用量と Google Speech を強化する推論グラフの制御機能を提供します。
- 音声サーバーは、Google Speech に対する gRPC サーバー インターフェースです。このサーバーは、Cloud Speech API に精通しているユーザーに適しています。
アクセス権については、Google にお問い合わせください。