API de Cloud Speech

Conversión de voz a texto con tecnología de aprendizaje automático

Prueba gratuita Ver la documentación

Potente reconocimiento de voz

La API de Google Cloud Speech permite que los programadores conviertan audio en texto mediante potentes modelos de red neuronal con una API fácil de usar que reconoce más de 80 idiomas y variantes, por lo que puedes usarla con tu base de usuarios mundial. Puedes transcribir el texto que dicten los usuarios en el micrófono de una aplicación, habilitar el uso de comandos de voz o transcribir archivos de audio, entre muchos otros casos de uso. Reconoce el audio subido en la solicitud y después intégralo con el almacenamiento de audio en Google Cloud Storage con la misma tecnología que Google usa en sus productos.

speech-api-lead

Con tecnología de aprendizaje automático

Utiliza los algoritmos más avanzados de una red neuronal de aprendizaje profundo para procesar el audio de los usuarios y brindar reconocimiento de voz con un nivel de precisión sin igual. La API de Speech mejora su precisión con el tiempo, a medida que se perfecciona la tecnología de reconocimiento de voz que Google usa internamente en sus productos.

Más de 80 idiomas

La API de Speech reconoce más de 80 idiomas y variantes, por lo cual puedes usarla con tu base de usuarios global. También puedes filtrar el contenido inapropiado en los resultados de texto.

Muestra resultados de texto en tiempo real

La API de Speech puede hacer una transmisión continua del texto que reconoce y mostrar los resultados parciales inmediatamente, de manera que aparezcan en pantalla mientras el usuario habla. La API de Speech también puede mostrar texto reconocido en audio almacenado en un archivo.

Precisión en entornos ruidosos

No necesitas un procesamiento de señales avanzado ni reducción del ruido para enviar audio a la API de Speech. El servicio puede procesar audio con ruido proveniente de diferentes ambientes sin problemas.

Reconocimiento en contexto

El reconocimiento de voz se puede adaptar según el contexto. Para ello, se debe proporcionar un grupo de palabras sugeridas con cada llamada de API. Esto resulta especialmente útil para casos de uso en los que se quiere controlar una app o un dispositivo.

Funciona con apps en cualquier dispositivo

La API de Speech es compatible con cualquier dispositivo que pueda enviar una solicitud de REST o gRPC, incluidos los teléfonos, las PC, las tablets y los dispositivos con capacidades IoT (p. ej., autos, TV, altavoces).

Características de la API de Speech

Conversión de voz a texto con tecnología de aprendizaje automático

Reconocimiento de voz automático
Nuestra red neuronal de aprendizaje profundo pone a tu disposición un servicio de reconocimiento de voz automático (ASR) que puedes incorporar en aplicaciones para la búsqueda por voz y la transcripción de dictados, entre otros usos.
Vocabulario mundial
Reconoce más de 80 idiomas y variantes con un amplio vocabulario.
Reconocimiento en vivo
Muestra resultados de reconocimiento mientras el usuario está hablando.
Palabras sugeridas
El reconocimiento por voz se puede adaptar a un contexto específico. Para ello, solo tienes que suministrar un conjunto de palabras y frases que tengan una alta probabilidad de aparecer. Esto resulta especialmente útil para agregar palabras y nombres personalizados al vocabulario, así como en casos de uso de control por voz.
Compatibilidad con audio en tiempo real o grabado previamente
La entrada de audio puede registrarse con el micrófono de una aplicación o enviarse en un archivo de audio grabado previamente. Se admiten varios tipos de codificación de audio, como FLAC, AMR, PCMU y Linear-16, entre otros.
Resistente al ruido
La API puede procesar audio con ruido de diversos ambientes. No hace falta usar ninguna tecnología adicional para reducir el ruido.
Filtro para contenido inapropiado
Filtra el contenido inapropiado de los resultados de texto de algunos idiomas.
API integrada
Los archivos de audio se pueden subir en la solicitud o integrar con Google Cloud Storage.

PRECIOS DE LA API DE CLOUD SPEECH

Potente reconocimiento de voz

La API de Cloud Speech se cobra por cada 15 segundos de audio procesado, una vez excedido el nivel gratuito de 60 minutos. Para conocer los detalles, consulta nuestra guía de precios.

Uso mensual Precio por cada 15 segundos*
0 a 60 minutos Gratis
61 a 1,000,000 minutos** $0.006

* Este precio es para las aplicaciones en sistemas personales (p. ej., teléfonos, tablets, laptops, computadoras de escritorio). Comunícate con nosotros para solicitar la aprobación y los precios para usar la API de Speech en dispositivos incorporados (p. ej., autos, TV, electrodomésticos o altavoces).

** El uso mensual está limitado a un máximo de 1 millón de minutos por mes

Supervisa tus recursos estés donde estés

Obtén la app de Google Cloud Console para ayudarte a administrar tus proyectos.