Speech‑to‑Text

Conversión de voz en texto con la tecnología del aprendizaje automático

Probar gratis

Consulta la documentación de este producto.

Reconocimiento de voz avanzado

Gracias a la transcripción de voz de Google, los desarrolladores pueden convertir audio en texto aplicando potentes modelos de redes neuronales en una API fácil de usar. La API reconoce más de 120 idiomas y variantes para dar cabida a una base de usuarios internacional y, entre otras cosas, permite habilitar el control por comandos de voz o transcribir las conversaciones de los centros de llamadas. Además, utiliza la tecnología de aprendizaje automático de Google para procesar audios en tiempo real o grabados previamente.

speech-api-lead

¿A qué esperas para convertir tu voz en texto?

Utiliza la tecnología de aprendizaje automático

Aplica a los audios los algoritmos más avanzados de aprendizaje profundo y de redes neuronales para reconocer la voz con una precisión sin igual que aumenta con el tiempo, ya que Google mejora la tecnología interna de reconocimiento de voz que usan los productos de Google.

aprendizaje automático

Reconoce más de 120 idiomas y variantes

La transcripción de voz reconoce 120 idiomas y variantes para ayudarte a gestionar tu base de datos internacional. Además, te permite filtrar el contenido inapropiado en los resultados de texto de todos los idiomas.

menú de idiomas

Identifica automáticamente el idioma hablado

Con la transcripción de voz puedes identificar qué idioma se está hablando, hasta un máximo de cuatro idiomas. Esto resulta muy útil para la búsqueda por voz (por ejemplo, "¿Qué temperatura hace en París?") y para las órdenes (por ejemplo, "Sube el volumen").

idioma hablado

Transcribe audios de formato corto o largo en tiempo real

Cloud Speech‑to‑Text puede transcribir de forma instantánea los audios a medida que se reproducen o conforme habla el usuario. Esta API también puede transcribir el contenido de audios guardados en archivos y analizar audios de formato tanto corto como largo.

reloj

Transcribe automáticamente los nombres propios y el formato de contextos determinados

La transcripción de voz está diseñada para reconocer el estilo conversacional real. Puede transcribir con precisión los nombres propios (de personas o lugares, por ejemplo) y utilizar el formato adecuado para cada idioma (por ejemplo, de fechas o de números de teléfono). El número de nombres propios que reconoce Google es más de 10 veces mayor que el número de palabras que recoge el diccionario Oxford de la lengua inglesa.

onda sonora

Ofrece una selección de modelos mejorados, adaptados a cada caso práctico

Speech‑to‑Text incluye varios modelos mejorados predefinidos, de manera que puedes optimizar el reconocimiento de voz para tu caso práctico, como comandos de voz. Por ejemplo, nuestro modelo predefinido de transcripción de vídeo es ideal para indexar o subtitular vídeos o contenido en el que intervienen varios interlocutores y utiliza una tecnología de aprendizaje automático similar a la empleada en los subtítulos de YouTube.

modelo de voz
Modelo Descripción
command_and_search Adecuado para consultas cortas como comandos de voz o búsquedas por voz.
phone_call Adecuado para el audio generado a partir de la telefonía, como llamadas telefónicas (normalmente grabado a una frecuencia de muestreo de 8 khz).
video Adecuado para el audio generado a partir de vídeos o en los que intervienen varios interlocutores. Lo ideal es que se grabe a una velocidad de muestreo de 16 kHz o superior. Este modelo premium es más caro que el estándar.
default Adecuado para el audio que no se corresponde con los modelos de audio específicos, como el audio de formato largo. Lo ideal es que sea de alta fidelidad y que esté grabado a una velocidad de muestreo de 16 kHz o superior.

Características

Adaptación de vozbeta
Proporciona una lista con palabras o con expresiones que sirvan como "sugerencias" para reconocer frases concretas de la entrada de audio. Puedes usar las clases para convertir automáticamente los números en direcciones, en años o en monedas, o para hacer otro tipo de conversiones en función del contexto.
Reconocimiento automático de voz
El reconocimiento automático de voz se basa en redes neuronales de aprendizaje profundo y permite que funcionen ciertas aplicaciones, como las de búsqueda por voz o las de transcripción.
Vocabulario internacional
Reconoce más de 120 idiomas y variantes con un amplio vocabulario.
Transcripción de audios en tiempo real o grabados previamente
El sonido puede proceder del micrófono de una aplicación, pero también se puede enviar desde archivos de audio grabados previamente (insertado o a través de Google Cloud Storage). Se admiten diversas codificaciones de audio, como FLAC, AMR, PCMU y LINEAR16.
Detección automática de idiomabeta
Ahora, en las situaciones multilingües, puedes especificar entre dos y cuatro códigos de idioma. Cloud Speech‑to‑Text identifica correctamente el idioma que se habla y proporciona una transcripción.
Tratamiento del ruido
Es capaz de procesar audio de multitud de entornos ruidosos sin necesidad de reducción adicional del ruido.
Filtrado de contenido inapropiado
Puedes filtrar el contenido inapropiado en los resultados de texto en algunos idiomas.
Puntuación automáticabeta
Puntúa las transcripciones con precisión (comas, puntos, signos de interrogación, etc.) gracias al aprendizaje automático.
Selección de modelos
Para optimizar la transcripción según tu caso práctico, elige uno de los cuatro modelos predefinidos: comandos de voz y búsqueda por voz, telefonía, transcripción de vídeo y predeterminado.
Diarización de interlocutoresbeta
La API puede identificar de forma automática a qué interlocutor pertenece cada intervención en una conversación para que sepas quién dijo qué.
Reconocimiento multicanal
En algunas grabaciones intervienen varios interlocutores, cuyas voces se graban en canales independientes; por ejemplo, llamadas telefónicas con dos canales o videoconferencias con cuatro. En estos casos, Cloud Speech‑to‑Text reconoce cada canal por separado y anota las transcripciones para que sigan el orden real.

Precios

Cloud Speech‑to‑Text se tarifica por intervalos de 15 segundos de audio procesados a partir de los 60 primeros minutos, que son gratuitos. Para obtener más información, consulta nuestra guía de precios.

Función Modelos estándar (todos excepto los modelos mejorados para vídeo y teléfono) Modelos premium (mejorados para vídeo y teléfono)
De 0 a 60 minutos De más de 60 minutos a 1 millón de minutos De 0 a 60 minutos De más de 60 minutos a 1 millón de minutos
Reconocimiento de voz (opción predeterminada, sin almacenamiento de registros de datos) Gratis 0,006 USD por cada 15 segundos* Gratis 0,009 USD por cada 15 segundos*
Reconocimiento de voz (con el almacenamiento de registros de datos habilitado) Gratis 0,004 USD por cada 15 segundos* Gratis 0,006 USD por cada 15 segundos*

Estos precios corresponden a las aplicaciones de sistemas personales, como teléfonos, tablets, portátiles y ordenadores. Ponte en contacto con nosotros para consultar los precios de la API Speech‑to‑Text en dispositivos integrados (por ejemplo, coches, televisores, electrodomésticos o altavoces) y para obtener autorización para usarla en tales dispositivos.

* Cada solicitud se redondea al siguiente incremento de 15 segundos. Por ejemplo, con el modelo estándar, 3 solicitudes independientes con 7 segundos de audio cada una se facturan como 45 segundos, por lo que el importe total es de 0,018 USD (3 × 15 segundos). Las fracciones de segundo se tienen en cuenta al redondear al siguiente incremento de 15 segundos. Es decir, 15,14 segundos se redondean al alza y se facturan como 30 segundos.

icono de balanceo de carga

Alguno de los productos o de las funciones de esta página está en versión beta. Más información sobre nuestras fases de lanzamiento

Los productos de inteligencia artificial de Cloud cumplen las políticas de los acuerdos de nivel de servicio. Pueden ofrecer garantías de latencia o disponibilidad diferentes respecto a otros servicios de Google Cloud.