API Speech de Cloud

Conversión de voz en texto gracias al aprendizaje automático

Pruébalo gratis Ver documentación

Potente reconocimiento de voz

La API Speech de Google Cloud permite que los desarrolladores conviertan audio en texto aplicando potentes modelos de redes neuronales en una API fácil de usar. La API reconoce más de 80 idiomas y variantes, lo que ayuda a gestionar una clientela internacional. Puedes transcribir el texto que los usuarios dictan al micrófono de una aplicación, habilitar el control por voz o transcribir archivos de audio, entre muchas otras funciones. Es posible reconocer el audio subido en la solicitud e integrarlo en tu almacenamiento de audio de Google Cloud Storage. Y todo, con la misma tecnología que empleamos en Google para nuestros productos.

speech-api-lead

Con la tecnología del aprendizaje automático

Aplica los algoritmos más avanzados de redes neuronales del aprendizaje profundo al audio de tus usuarios para conseguir un reconocimiento de voz de máxima precisión. La precisión de la API Speech mejora con el tiempo, conforme perfeccionamos la tecnología interna de reconocimiento de voz que usan nuestros productos.

Más de 80 idiomas

La API Speech reconoce más de 80 idiomas y sus variantes para gestionar una clientela internacional. Asimismo, puedes filtrar el contenido inapropiado en los resultados de texto.

Consigue resultados de texto en tiempo real

La API Speech puede transmitir resultados de texto conforme vaya reconociendo el audio, de forma que el texto reconocido aparece inmediatamente mientras la persona habla. De igual modo, la API puede reconocer el texto a partir del audio almacenado en un archivo.

Preciso en entornos ruidosos

No necesitas sistemas avanzados de procesamiento de señales ni reducción de ruido antes de enviar el audio a la API Speech. El servicio es capaz de procesar audio ruidoso procedente de diversos entornos de forma satisfactoria.

Reconocimiento contextual

El reconocimiento de voz se puede adaptar al contexto suministrando un conjunto independiente de palabras clave con cada llamada a la API, lo que resulta especialmente útil para las situaciones de control de dispositivos y aplicaciones.

Compatible con las aplicaciones de cualquier dispositivo

La API Speech es compatible con cualquier dispositivo que pueda enviar solicitudes REST o gRPC, incluidos teléfonos, ordenadores, tablets y dispositivos con Internet de las Cosas (por ejemplo, coches, televisores o altavoces).

Características de la API Speech

Conversión de voz en texto gracias al aprendizaje automático

Reconocimiento automático de voz
El reconocimiento automático de voz (ASR) basado en redes neuronales de aprendizaje profundo dota a tus aplicaciones de búsqueda por voz o transcripción de voz.
Vocabulario internacional
Reconoce más de 80 idiomas y variantes, con un amplio vocabulario.
Reconocimiento en directo
Proporciona resultados de reconocimiento mientras los usuarios siguen hablando.
Palabras clave
Es posible personalizar el reconocimiento de voz según un contexto específico suministrando un conjunto de palabras y frases que tienen muchas probabilidades de aparecer. Esto resulta especialmente útil para añadir palabras y nombres personalizados al vocabulario, así como en situaciones de control por voz.
Compatibilidad con audio grabado o en tiempo real
El sonido puede proceder del micrófono de una aplicación o de un archivo de audio grabado previamente. Se admiten diversas codificaciones de audio, como FLAC, AMR, PCMU y Linear-16.
Tratamiento del ruido
Es capaz de procesar audio de diversos entornos ruidosos sin necesidad de reducción de ruido adicional.
Filtrado de contenido inapropiado
Puedes filtrar contenido inapropiado en los resultados de texto para algunos idiomas.
API integrada
Los archivos de audio se pueden subir en la solicitud o integrar en Google Cloud Storage.

PRECIOS DE LA API SPEECH DE CLOUD

Potente reconocimiento de voz

La API Speech de Cloud se tarifica por intervalos de 15 segundos de audio procesados después de los 60 primeros minutos, que son gratuitos. Para obtener más información, consulta nuestra guía de precios.

Uso mensual Precio por cada 15 segundos*
Hasta 60 minutos Gratuito
61 - 1.000.000 de minutos** 0,006 $

*Este precio es válido para aplicaciones de sistemas personales (por ejemplo, teléfonos, tablets, portátiles y ordenadores). Ponte en contacto con nosotros para consultar los precios y las autorizaciones de la API Speech en dispositivos integrados (por ejemplo, coches, televisores, electrodomésticos o altavoces).

**El uso mensual está limitado a un millón de minutos.

Supervisa tus recursos estés donde estés

Descarga la aplicación Google Cloud Console para administrar tus proyectos.