Présentation
La fonctionnalité Speech-to-Text sur l'appareil permet d'utiliser une technologie de reconnaissance vocale de qualité serveur sur des appareils intégrés. Cette fonctionnalité vous permet d'exécuter la reconnaissance vocale en flux continu entièrement sur l'appareil, sans connexion à un réseau ni aux serveurs de Google. La solution sur l'appareil offre plusieurs avantages pour ce cas d'utilisation par rapport à une solution côté serveur : la reconnaissance vocale est disponible même si l'appareil n'est pas connecté au réseau ou que la connexion réseau est limitée, et les données de l'utilisateur ne quittent pas l'appareil.
Capacités clés | |
---|---|
Transcription de haute qualité | Appliquez les algorithmes de Google à la reconnaissance vocale automatique. |
Hors connexion | Reconnaissance vocale sans connexion Internet. |
Latence faible | Rapidité d'exécution de la reconnaissance vocale, lorsqu'elle est effectuée en local sur l'appareil. |
Modèles efficaces | Déployez efficacement des modèles de taille inférieure à 1 Go et consommant peu de ressources. |
Détection de l'activité vocale | Détecte le début et la fin de la parole humaine. |
Confiance | Obtenez des estimations de confiance sur la transcription. |
Adaptation d'un modèle | Améliorez la précision de la transcription de mots ou d'expressions rares et spécifiques à un domaine. |
Étapes suivantes
La reconnaissance vocale sur l'appareil est diffusée de deux manières : en tant que bibliothèque ou en tant que serveur gRPC.
- libgspeech est une interface de bibliothèque pour la reconnaissance vocale de Google. libgspeech offre un contrôle supplémentaire sur l'utilisation de la mémoire et le graphique d'inférence qui alimente la reconnaissance vocale de Google.
- Le serveur vocal est une interface de serveur gRPC pour la reconnaissance vocale de Google. Le serveur convient aux utilisateurs qui connaissent l'API Cloud Speech.
Contactez Google pour y accéder.