API Cloud Speech

Conversión de voz en texto gracias al aprendizaje automático

Pruébalo gratis

Reconocimiento de voz avanzado

La API Cloud Speech de Google permite a los desarrolladores convertir audio en texto al aplicar potentes modelos de redes neuronales en una API fácil de usar. La API reconoce más de 110 idiomas y variantes, para ayudarte a gestionar tu base de usuarios internacional. Puedes transcribir el texto que dictan los usuarios al micrófono de una aplicación, habilitar el control por voz o transcribir archivos de audio, entre muchas otras funciones. Es posible reconocer el audio subido en una solicitud e integrarlo en tu almacenamiento de audio de Google Cloud Storage. Y todo, con la misma tecnología que empleamos en Google para nuestros productos.

speech-api-lead

Con tecnología de aprendizaje automático

Aplica los algoritmos más avanzados de aprendizaje profundo y redes neuronales al audio de tus usuarios para conseguir un reconocimiento de voz de máxima precisión. La precisión de la API Speech mejora con el tiempo, conforme perfeccionamos la tecnología interna de reconocimiento de voz que usan nuestros productos.

Más de 110 idiomas

La API Speech reconoce más de 110 idiomas y variantes, para ayudarte a gestionar tu base de usuarios internacional. Asimismo, puedes filtrar el contenido inapropiado en los resultados de texto.

Consigue resultados de texto en tiempo real

La API Speech puede transmitir resultados de texto conforme vaya reconociendo el audio, de manera que el texto reconocido aparece al instante mientras habla la persona. De igual modo, la API puede reconocer el texto a partir del audio almacenado en un archivo.

Preciso en entornos ruidosos

No necesitas sistemas avanzados de procesamiento de señales ni reducción de ruido antes de enviar el audio a la API Speech. El servicio es capaz de procesar audio ruidoso procedente de diversos entornos y ofrecerte los resultados que esperas.

Reconocimiento contextual

El reconocimiento de voz se puede adaptar al contexto suministrando un conjunto independiente de palabras clave con cada llamada a la API, lo que resulta especialmente útil para las situaciones de control de dispositivos y aplicaciones.

Compatible con las aplicaciones de cualquier dispositivo

La API Speech es compatible con cualquier dispositivo que pueda enviar solicitudes REST o gRPC, incluidos teléfonos, ordenadores, tablets y dispositivos de Internet de las Cosas (por ejemplo, coches, televisores o altavoces).

Características de la API Speech

Conversión de voz en texto gracias al aprendizaje automático

Reconocimiento automático de voz
El reconocimiento automático de voz (ASR) basado en redes neuronales de aprendizaje profundo dota a tus aplicaciones de búsqueda por voz o transcripción de voz.
Vocabulario internacional
Reconoce más de 110 idiomas y variantes, con un amplio vocabulario.
Reconocimiento en directo
Proporciona resultados de reconocimiento mientras los usuarios siguen hablando.
Palabras clave
Es posible personalizar el reconocimiento de voz según un contexto específico suministrando un conjunto de palabras y frases que tienen muchas probabilidades de aparecer. Esto resulta especialmente útil para añadir palabras y nombres personalizados al vocabulario, así como en situaciones de control por voz.
Compatibilidad con audio grabado o en tiempo real
El sonido puede proceder del micrófono de una aplicación o de un archivo de audio grabado previamente. Se admiten diversas codificaciones de audio, como FLAC, AMR, PCMU y lineal de 16.
Tratamiento del ruido
Es capaz de procesar audio de multitud de entornos ruidosos sin necesidad de reducción adicional del ruido.
Filtrado de contenido inapropiado
Puedes filtrar el contenido inapropiado en los resultados de texto en algunos idiomas.
API integrada
Los archivos de audio se pueden subir en la solicitud o integrar en Google Cloud Storage.

PRECIOS DE LA API CLOUD SPEECH

Reconocimiento de voz avanzado

La API Cloud Speech se tarifica por intervalos de 15 segundos de audio procesados después de los 60 primeros minutos, que son gratuitos. Para obtener más información, consulta nuestra guía de precios.

Uso mensual Precio por cada 15 segundos*
Hasta 60 minutos Gratuito
61-1.000.000 minutos** 0,006 USD
Si pagas en una moneda que no sea el dólar estadounidense, se aplicarán los precios que figuran para tu divisa en los SKU de Cloud Platform.

* Este precio es válido para las aplicaciones de sistemas personales (por ejemplo, teléfonos, tablets, portátiles y ordenadores). Ponte en contacto con nosotros para poder usar la API Speech en dispositivos integrados (por ejemplo, coches, televisores, electrodomésticos o altavoces) y consultar los precios correspondientes.

** El uso mensual está limitado a un millón de minutos.