Cloud Speech-to-Text sur l'appareil

Présentation

La fonctionnalité Speech-to-Text sur l'appareil permet d'utiliser une technologie de reconnaissance vocale de qualité serveur sur des appareils intégrés. Cette fonctionnalité vous permet d'exécuter la reconnaissance vocale en flux continu entièrement sur l'appareil, sans connexion à un réseau ni aux serveurs de Google. La solution sur l'appareil offre plusieurs avantages pour ce cas d'utilisation par rapport à une solution côté serveur : la reconnaissance vocale est disponible même si l'appareil n'est pas connecté au réseau ou que la connexion réseau est limitée, et les données de l'utilisateur ne quittent pas l'appareil.

Capacités clés
Transcription de haute qualité	Appliquez les algorithmes de Google à la reconnaissance vocale automatique.
Hors connexion	Reconnaissance vocale sans connexion Internet.
Latence faible	Rapidité d'exécution de la reconnaissance vocale, lorsqu'elle est effectuée en local sur l'appareil.
Modèles efficaces	Déployez efficacement des modèles de taille inférieure à 1 Go et consommant peu de ressources.
Détection de l'activité vocale	Détecte le début et la fin de la parole humaine.
Confiance	Obtenez des estimations de confiance sur la transcription.
Adaptation d'un modèle	Améliorez la précision de la transcription de mots ou d'expressions rares et spécifiques à un domaine.

Étapes suivantes

La reconnaissance vocale sur l'appareil est diffusée de deux manières : en tant que bibliothèque ou en tant que serveur gRPC.

libgspeech est une interface de bibliothèque pour la reconnaissance vocale de Google. libgspeech offre un contrôle supplémentaire sur l'utilisation de la mémoire et le graphique d'inférence qui alimente la reconnaissance vocale de Google.
Le serveur vocal est une interface de serveur gRPC pour la reconnaissance vocale de Google. Le serveur convient aux utilisateurs qui connaissent l'API Cloud Speech.

Contactez Google pour y accéder.