Descripción general
Speech-to-Text integrado en el dispositivo habilita la tecnología de voz de calidad del servidor en dispositivos incorporados. Esta función te permite ejecutar el reconocimiento de voz de transmisión por completo integrado en el dispositivo, sin conexión a una red ni a servidores de Google. La solución integrada en el dispositivo ofrece varios beneficios para este caso de uso en comparación con una solución del lado del servidor: el reconocimiento de voz está disponible incluso si el dispositivo no está conectado a la red o a la conexión de red es limitada y los datos del usuario no salen del dispositivo.
Funciones clave | |
---|---|
Transcripción de alta calidad | Aplica los algoritmos de Google al reconocimiento de voz automático. |
Sin conexión | Reconocimiento de voz sin conexión a Internet |
Latencia baja | El reconocimiento de voz se ejecuta con rapidez de forma local en el dispositivo |
Modelos eficientes | Realiza implementaciones eficientes con modelos de menos de 1 GB de tamaño que consumen recursos mínimos. |
Detección de actividad de voz | Detecta el inicio y el final de la voz humana. |
Confidence | Obtén estimaciones de confianza sobre la transcripción. |
Adaptación de modelos | Aumenta la precisión de la transcripción de palabras o frases poco frecuentes y específicas del dominio. |
¿Qué sigue?
Speech integrado en el dispositivo se entrega en dos variantes, como una biblioteca o un servidor gRPC.
- libgspeech es una interfaz de biblioteca de Google Speech. Libgspeech proporciona un control adicional del uso de memoria y del gráfico de inferencia que se usa en Google Speech.
- El servidor de voz es una interfaz de servidor de gRPC para Google Speech. El servidor es adecuado para los usuarios familiarizados con la API de Cloud Speech.
Comunícate con Google para obtener acceso.