Transcripción de voz

Conversión de voz en texto con la tecnología del aprendizaje automático.

Probar gratis

Consulta la documentación de este producto.

Reconocimiento de voz avanzado

Gracias a la Transcripción de voz de Cloud, los desarrolladores pueden convertir audio en texto al aplicar potentes modelos de redes neuronales en una API fácil de usar. La API reconoce más de 120 idiomas y variantes para apoyar tu base de usuarios global. Te permite habilitar el control por voz o transcribir las conversaciones de un centro de llamadas, entre otras tareas, y puede procesar los datos de streaming en tiempo real o de audio ya grabados mediante la tecnología de aprendizaje automático de Google.

speech‑api‑lead

¿A qué esperas para convertir tu voz en texto?

Con tecnología de aprendizaje automático

Aplica los algoritmos más avanzados de aprendizaje profundo y redes neuronales a los audios para conseguir un reconocimiento de voz de máxima precisión. Con el tiempo aumenta la precisión ya que Google mejora la tecnología de reconocimiento de voz interna usada por los productos de Google.

aprendizaje automático

Reconoce más de 120 idiomas y variantes

La transcripción de voz puede apoyar tu base de usuarios global ya que reconoce más de 120 idiomas y variantes. Además, te permite filtrar el contenido inapropiado en los resultados de texto de todos los idiomas.

menú de idiomas

Identifica automáticamente el lenguaje hablado

Al usar la transcripción de voz puedes identificar qué idioma se está hablando (hasta cuatro idiomas). Se puede usar para la búsqueda por voz (por ejemplo: “¿Qué temperatura hay en París?”) y para comandos (por ejemplo: “Sube el volumen”).

idioma hablado

Transcribe audios de formato corto o largo en tiempo real

Transcripción de voz de Cloud puede transcribir de forma instantánea los audios a medida que se reproducen o conforme habla el usuario. Además, esta API puede transcribir el contenido de audios guardados en un archivo. Puede analizar audios de formato tanto corto como largo.

reloj

Transcribe automáticamente los nombres propios y el formato de contextos determinados

La transcripción de voz está diseñada para reconocer el estilo conversacional real y puede transcribir con precisión los nombres propios (p. ej., nombres o lugares) y utilizar el formato adecuado para cada idioma (p. ej., fechas o números de teléfono). El número de nombres propios que reconoce Google es más de diez veces mayor que el número de palabras que recoge el diccionario Oxford de la lengua inglesa.

onda sonora

Ofrece una selección de modelos mejorados, adaptados a tu caso práctico

Transcripción de voz proporciona varios modelos mejorados prediseñados, de manera que puedes optimizar el reconocimiento de voz para tu caso práctico (como comandos de voz). Nuestro modelo de transcripción de vídeo predefinido, por ejemplo, es ideal para indexar o subtitular vídeos o contenido en los que intervienen varios interlocutores y utiliza una tecnología de aprendizaje automático similar a la empleada para la generación de subtítulos en YouTube.

modelo de voz
Model Descripción
command_and_search Adecuado para consultas cortas como comandos de voz o búsquedas por voz.
phone_call Adecuado para el audio generado a partir de la telefonía, como llamadas telefónicas (normalmente grabado a una frecuencia de muestreo de 8 khz).
video Adecuado para el audio generado a partir de vídeos o en los que intervienen varios interlocutores. Lo ideal es que se grabe a una velocidad de muestreo de 16 kHz o superior. Este modelo premium es más caro que el estándar.
default Adecuado para el audio que no se corresponde con los modelos de audio específicos (por ejemplo, el audio de formato largo). Lo ideal es que sea de alta fidelidad y que esté grabado a una velocidad de muestreo de 16 kHz o superior.

Funciones

Adaptación de voz beta
Ofrece una lista de palabras o de expresiones, que son "sugerencias" que ayudan a reconocer frases específicas en tu entrada de audio. Puedes usar las clases para convertir automáticamente los números en direcciones, años o monedas, o para hacer otro tipo de conversiones dependiendo del contexto.
Reconocimiento automático de voz
El reconocimiento automático de voz (ASR) basado en redes neuronales de aprendizaje profundo dota a tus aplicaciones de búsqueda por voz o transcripción de voz.
Vocabulario internacional
Reconoce más de 120 idiomas y variantes con un amplio vocabulario.
Transcripción de audios grabados previamente o en tiempo real
El sonido puede proceder del micrófono de una aplicación o se puede enviar desde un archivo de audio grabado previamente (insertado o a través de Google Cloud Storage). Se admiten diversas codificaciones de audio, como FLAC, AMR, PCMU y Linear-16.
Detección automática de idioma beta
En las situaciones multilingües, ahora es posible especificar entre dos y cuatro códigos de idioma. Transcripción de voz de Cloud identificará correctamente el idioma que se habla y proporcionará una transcripción.
Tratamiento del ruido
Es capaz de procesar audio de multitud de entornos ruidosos sin necesidad de reducción adicional del ruido.
Filtrado de contenido inapropiado
Puedes filtrar el contenido inapropiado en los resultados de texto en algunos idiomas.
Puntuación automática beta
Puntúa las transcripciones con precisión (comas, puntos, signos de interrogación, etc.) gracias al aprendizaje automático.
Selección de modelos
Optimiza para tu caso práctico eligiendo de una selección de cuatro modelos prediseñados: comandos de voz y de búsqueda, telefonía, transcripción de vídeo y predeterminado.
Diarización de interlocutores beta
La API puede identificar de forma automática a qué interlocutor pertenece cada intervención en una conversación para que sepas quién dijo qué.
Reconocimiento multicanal
En las grabaciones en las que intervienen varios interlocutores cuyas voces se graban en canales independientes (por ejemplo, una llamada telefónica con dos canales o una videoconferencia con cuatro canales), Transcripción de voz de Cloud reconoce cada canal por separado y anota las transcripciones para que sigan el orden real.

Precio

Transcripción de voz de Cloud se tarifica por intervalos de 15 segundos de audio procesados a partir de los 60 primeros minutos, que son gratuitos. Para obtener más información, consulta nuestra guía de precios.

Función Modelos estándar (todos excepto los modelos mejorados para vídeo y teléfono) Modelos premium (mejorados para vídeo y teléfono)
De 0 a 60 minutos De más de 60 minutos a 1 millón de minutos De 0 a 60 minutos De más de 60 minutos a 1 millón de minutos
Reconocimiento de voz (opción predeterminada, sin almacenamiento de registros de datos) Gratis 0,006 USD por cada 15 segundos * Gratis 0,009 USD por cada 15 segundos*
Reconocimiento de voz (con el almacenamiento de registros de datos habilitado) Gratis 0,004 USD por cada 15 segundos * Gratis 0,006 USD por cada 15 segundos *

Estos precios corresponden a las aplicaciones de sistemas personales (por ejemplo, teléfonos, tablets, portátiles u ordenadores de escritorio). Ponte en contacto con nosotros para consultar los precios de la API Transcripción de voz en dispositivos integrados (por ejemplo, coches, televisores, electrodomésticos o altavoces) y para obtener autorización para usarla en tales dispositivos.

* Cada solicitud se redondea al siguiente incremento de 15 segundos. Por ejemplo, 3 solicitudes independientes (modelo estándar) con 7 segundos de audio cada una, se facturarían como 45 segundos de audio (3 × 15 segundos). El importe total sería de 0,018 USD. Las fracciones de segundo se tienen en cuenta al redondear al siguiente incremento de 15 segundos. Es decir, 15,14 segundos se redondean hacia arriba y se facturan como 30 segundos.

icono de balanceo de carga

Uno de los productos o funciones mencionados en esta página está en versión beta. Más información sobre nuestras fases de lanzamiento

Los productos de inteligencia artificial de Cloud cumplen las políticas del acuerdo de nivel de servicio. Pueden ofrecer garantías de latencia o disponibilidad diferentes con respecto a otros servicios de Google Cloud.