Speech‑to‑Text

Conversión de voz a texto con tecnología de aprendizaje automático.

Probar gratis

Consulta la documentación de este producto

Reconocimiento de voz potente

Google Speech-to-Text permite que los desarrolladores conviertan audio en texto mediante la aplicación de potentes modelos de redes neuronales en una API fácil de usar. Con la API, se pueden reconocer más de 120 idiomas y variantes, ya que es compatible con tu base de usuarios global. Puedes habilitar el control y el comando por voz, transcribir audio de centros de llamadas y mucho más. Además, puede procesar transmisiones en tiempo real o audio grabado previamente, con la tecnología de aprendizaje automático de Google.

speech-api-lead

Convierte tu voz en texto ahora mismo

Con tecnología de aprendizaje automático

Aplica los algoritmos más avanzados de una red neuronal de aprendizaje profundo al audio para obtener un reconocimiento de voz con una precisión sin igual. La precisión mejora con el tiempo, a medida que se perfecciona la tecnología de reconocimiento de voz que Google usa internamente en sus productos.

aprendizaje automático

Reconocimiento de más de 120 idiomas y variantes

Con Speech-to-Text, se pueden reconocer más de 120 idiomas y variantes, ya que es compatible con tu base de usuarios global. También puedes filtrar el contenido inapropiado en los resultados de texto en todos los idiomas.

menú de idiomas

Identificación automática del lenguaje oral

Con Speech-to-Text, puedes identificar el idioma que se habla en el discurso (hasta cuatro idiomas). Esta característica puede usarse para búsqueda por voz (como: "¿Qué temperatura hace en París?") y casos prácticos de comandos (como: "Subir el volumen").

idioma hablado

Transcripción de textos en tiempo real para audios en formato corto o largo

Con Speech-to-Text, puedes transmitir resultados de texto mediante la presentación inmediata de texto cuando se reconoce en la transmisión de audio o a medida que el usuario habla. Como alternativa, con Speech-to-Text se puede mostrar texto reconocido de audio almacenado en un archivo. Permite analizar audios en formato corto y largo.

reloj

Transcripción automática de sustantivos propios y formatos específicos del contexto

Speech-to-Text funciona bien con el lenguaje que se habla en la vida real y permite transcribir con precisión sustantivos propios (p. ej., nombres, lugares) y dar el formato adecuado al lenguaje (p. ej., fechas y números de teléfono). Google admite 10 veces más sustantivos propios en comparación con la cantidad de palabras de todo el diccionario Oxford English Dictionary.

onda de sonido

Una selección de modelos mejorados diseñados para tu caso práctico

Speech-to-Text incluye varios modelos mejorados y preconfigurados que te permiten optimizar el reconocimiento de voz para tu caso práctico (como los comandos por voz). Ejemplo: Nuestro modelo de transcripción de video preconfigurado es ideal para indexar y subtitular contenido de video o de varios interlocutores y usa una tecnología de aprendizaje automático que es similar a la de los subtítulos de YouTube.

modelo de voz
Modelo Descripción
command_and_search La mejor opción para consultas cortas, como los comandos por voz o la búsqueda por voz.
phone_call La mejor opción para audios de origen telefónico, como llamadas telefónicas (generalmente, grabadas con una tasa de muestreo de 8 khz).
video La mejor opción para audios que pertenecen a un video o que incluyen a varios interlocutores. Idealmente, este audio está grabado con una tasa de muestreo de 16 khz o superior. Este es un modelo Premium que cuesta más que la tarifa estándar.
default La mejor opción para los audios que no pertenecen a ninguno de los modelos específicos. Por ejemplo, los audios largos. Idealmente, este audio es de alta fidelidad y está grabado con una tasa de muestreo de 16 khz o superior.

Funciones

Adaptación de vozBeta
Proporciona una lista de palabras o expresiones que sirvan como “sugerencias” para ayudar a reconocer frases específicas en tu entrada de audio. Puedes usar las clases para convertir automáticamente los números hablados en direcciones, años o monedas, o hacer otras conversiones según el contexto.
Reconocimiento de voz automático
Con nuestra red neuronal de aprendizaje profundo, tienes a tu disposición un servicio de reconocimiento de voz automático (ASR) que puedes incorporar en tus aplicaciones, como la búsqueda por voz o la transcripción de voz.
Vocabulario mundial
Reconocimiento de más de 120 idiomas y variantes con un amplio vocabulario.
Compatibilidad con transmisiones en tiempo real o audio grabado previamente
Puede transmitirse una entrada de audio con el micrófono de una aplicación o enviarse en un archivo de audio grabado previamente (en línea o a través de Google Cloud Storage). Se admiten varios tipos de codificación de audio, como FLAC, AMR, PCMU y Linear-16.
Detección automática de idiomasBeta
Cuando necesites asistencia para contextos multilingües, ahora puedes especificar entre dos y cuatro códigos de idioma. En Speech-to-Text, se identificará el idioma correcto que se está hablando y se proporcionará la transcripción.
Resistencia al ruido
Se procesa audio con ruido proveniente de diversos entornos sin necesidad de usar una reducción del ruido adicional.
Filtro para contenido inapropiado
Se filtra el contenido inapropiado de los resultados de texto de algunos idiomas.
Puntuación automáticaBeta
Se aplica una puntuación precisa a las transcripciones (p. ej., comas, signos de interrogación y puntos) gracias al aprendizaje automático.
Selección del modelo
Optimiza tu caso práctico mediante la selección de uno de los cuatro modelos preconfigurados: comandos por voz y búsqueda, telefonía, transcripción de video y configuración predeterminada.
Identificación de interlocutoresBeta
Conoce qué interlocutor dijo cada parte del discurso. Ahora puedes obtener predicciones automáticas sobre cuál de los interlocutores dijo cada frase en una conversación.
Reconocimiento de varios canales
En las grabaciones con varios participantes en las que cada persona se graba en un canal distinto (p. ej., una llamada telefónica con dos canales o una videoconferencia con cuatro canales), Speech-to-Text reconoce cada canal de forma independiente y, luego, se anotan las transcripciones en el mismo orden que en la vida real.

Precios

Speech-to-Text se cobra por cada 15 segundos de audio procesado luego de un nivel gratuito de 60 minutos. Para conocer los detalles, consulta nuestra guía de precios.

Función Modelos Estándar (todos los modelos, excepto llamadas telefónicas y video mejorados) Modelos Premium (llamadas telefónicas y video mejorados)
De 0 a 60 minutos De más de 60 minutos a 1 millón de minutos De 0 a 60 minutos De más de 60 minutos a 1 millón de minutos
Reconocimiento de voz (sin registro de datos, opción predeterminada) Gratis $0.006 cada 15 segundos* Gratis $0.009 cada 15 segundos*
Reconocimiento de voz (con registro de datos habilitado) Gratis $0.004 cada 15 segundos* Gratis $0.006 cada 15 segundos*

Este precio es para las aplicaciones de sistemas personales (p. ej., teléfonos, tablets, laptops o computadoras de escritorio). Comunícate con nosotros para obtener la aprobación y los precios de uso de la API de Speech-to-Text en dispositivos incorporados (p. ej., automóviles, TVs, electrodomésticos o bocinas).

* Cada solicitud se redondea hacia arriba al incremento de 15 segundos más cercano. Por ejemplo, si realizas tres solicitudes diferentes (del modelo Estándar), cada una con 7 segundos de audio, se te facturarán $0.018 por 45 segundos (3 × 15 segundos) de audio. Las fracciones de segundos se toman en cuenta cuando se redondea al período de 15 segundos superior más cercano. Esto significa que se redondean 15.14 segundos y se facturan como 30 segundos.

Ícono de balanceo de cargas

Un producto o función que se describe en esta página está en versión Beta. Para obtener más información sobre las etapas de lanzamiento de nuestros productos, haz clic aquí.

Los productos de IA de Cloud satisfacen las políticas de ANS que se indican aquí. Es posible que ofrezcan garantías de latencia o disponibilidad distintas de otros servicios de Google Cloud.