Cloud Speech-to-Text

Conversión de voz a texto con tecnología de aprendizaje automático y disponible para audios en formato corto o largo.

Probarlo gratis

Ver la documentación de este producto

Reconocimiento de voz potente

La API de Google Cloud Speech permite que los desarrolladores conviertan audio en texto mediante potentes modelos de red neuronal con una API fácil de usar. La API reconoce más de 120 idiomas y variantes, por lo que puedes usarla con tu base de usuarios global. Puedes habilitar el control y el comando por voz, transcribir audio de centros de llamados y mucho más. Puede procesar transmisiones en tiempo real o audio grabado previamente, con la tecnología de aprendizaje automático de Google.

speech-api-lead

Convierte la voz en texto ahora *

Selecciona un idioma y haz clic en "Comenzar ahora" para iniciar la grabación

* Esta demostración se basa en una IU/aplicación de muestra que se compiló con la API de Text-to-Speech de Cloud.

Con tecnología de aprendizaje automático

Utiliza los algoritmos más avanzados de una red neuronal de aprendizaje profundo para procesar audio y brindar reconocimiento de voz con un nivel de precisión sin igual. Cloud Speech-to-Text mejora su precisión con el tiempo, a medida que se perfecciona la tecnología de reconocimiento de voz que Google usa internamente en sus productos.

Reconoce 120 idiomas y variantes

Cloud Speech-to-Text puede brindarle asistencia a tu base de usuarios mundial, ya que reconoce 120 idiomas y variantes. También puedes filtrar el contenido inapropiado en los resultados de texto en todos los idiomas.

Identifica automáticamente el lenguaje oral

Con Cloud Speech-to-Text, puedes identificar el idioma que se habla en el discurso (límite de cuatro idiomas). Se puede usar para la búsqueda por voz (como, "¿Qué temperatura hay en París?") y casos prácticos de comandos (como, "Subir el volumen").

Ofrece transcripción de textos en tiempo real para audios en formato corto o largo

Cloud Speech-to-Text puede transmitir resultados de texto y mostrarlos de inmediato a medida que hace el reconocimiento en la transmisión de un audio o a medida que el usuario habla. De forma alternativa, Cloud Speech-to-Text puede reconocer texto de un audio almacenado en un archivo. Es capaz de analizar audios en formato corto y largo.

Transcribe automáticamente sustantivos propios y formatos específicos del contexto

Cloud Speech-to-Text funciona bien con el lenguaje que se habla en la vida real y puede transcribir con precisión sustantivos propios (como Sundar Pichai) y dar el formato adecuado al lenguaje (como a las fechas y números de teléfono). Google admite 10 veces más sustantivos propios en comparación con la cantidad de palabras de todo el diccionario Oxford English Dictionary.

Ofrece la selección de modelos preconfigurados y personalizados para tu caso práctico

Cloud Speech-to-Text cuenta con diversos modelos de reconocimiento de voz preconfigurados para que puedas optimizarlos según tu caso práctico (como los comandos por voz). Ejemplo: Nuestro modelo de transcripción de video preconfigurado es ideal para indexar y subtitular contenido de video o de varios interlocutores y usa una tecnología de aprendizaje automático que es similar a la de los subtítulos de YouTube.

Modelo Descripción
command_and_search La mejor opción para consultas cortas, como los comandos por voz o la búsqueda por voz.
phone_call La mejor opción para audios que pertenecen a una llamada telefónica (en general, grabada con una tasa de muestreo de 8 khz).
video La mejor opción para audios que pertenecen a un video o que incluyen a varios interlocutores. Idealmente, este audio está grabado con una tasa de muestreo de 16 khz o superior. Este es un modelo premium que cuesta más que la tarifa estándar.
default La mejor opción para los audios que no pertenecen a ninguno de los modelos específicos. Por ejemplo, los audios largos. Idealmente, este audio es de alta fidelidad y está grabado con una tasa de muestreo de 16 khz o superior.

Características de Cloud Speech-to-Text

Conversión de voz a texto con tecnología de aprendizaje automático.

Reconocimiento de voz automático
Nuestra red neuronal de aprendizaje profundo pone a tu disposición un servicio de reconocimiento de voz automático (ASR) que puedes incorporar en aplicaciones para la búsqueda por voz y la transcripción de dictados, entre otros usos.
Vocabulario mundial
Reconoce 120 idiomas y variantes con un amplio vocabulario.
Reconocimiento de voz personalizado
Personaliza de forma manual el reconocimiento de voz para tu negocio especificando hasta 5,000 palabras o frases que es probable que se digan (como los nombres de productos). También, convierte automáticamente los números hablados en direcciones, años o divisas, o haz otras conversiones según el contexto.
Compatibilidad con transmisiones en tiempo real o audio grabado previamente
Se pueden transmitir las entradas de audio con el micrófono de una aplicación o enviarse en un archivo de audio grabado previamente (en línea o a través de Google Cloud Storage). Se admiten varios tipos de codificación de audio, como FLAC, AMR, PCMU y Linear-16.
Detección automática de idiomasBETA
Cuando necesites asistencia para contextos multilingües, ahora puedes especificar entre dos y cuatro códigos de idioma y Cloud Speech-to-Text identificará el idioma correcto que se está hablando y proporcionará la transcripción.
Resistente al ruido
Puede procesar audio con ruido de diversos ambientes. No hace falta usar ninguna tecnología adicional para reducir el ruido.
Filtro para contenido inapropiado
Filtra el contenido inapropiado de los resultados de texto de algunos idiomas.
Puntuación automáticaBETA
Aplica una puntuación precisa a las transcripciones (p. ej., comas, signos de interrogación y puntos) gracias al aprendizaje automático.
Selección de modelo
Puedes seleccionar entre cuatro modelos preconfigurados: predeterminado, comandos y búsqueda por voz, llamadas telefónicas y transcripción de video.
Diarización de interlocutoresBETA
Conoce cuál interlocutor dijo cada parte del discurso. Ahora puedes obtener predicciones automáticas sobre cuál de los interlocutores dijo cada frase en una conversación.
Reconocimiento de varios canales
En las grabaciones con varios participantes, en las que cada participante se graba en un canal distinto (p. ej., una llamada telefónica con dos canales o una videoconferencia con cuatro canales), Cloud Speech-to-Text reconocerá cada canal de forma independiente y anotará las transcripciones para que sigan el mismo orden que en la vida real.

Precios de la API de Cloud Speech-to-Text

Reconocimiento de voz potente.

Cloud Speech-to-Text se cobra por cada 15 segundos de audio procesado, una vez superado el nivel gratuito de 60 minutos. Para conocer los detalles, consulta nuestra guía de precios.

Función Modelos estándar (todos los modelos, excepto llamadas telefónicas y video mejorados) Modelos Premium* (llamadas telefónicas y video mejorados)
De 0 a 60 minutos De más de 60 minutos a 1 millón de minutos De 0 a 60 minutos De más de 60 minutos a 1 millón de minutos
Reconocimiento de voz (sin registro de datos, opción predeterminada) Gratis $0.006 cada 15 segundos** Gratis $0.009 cada 15 segundos**
Reconocimiento de voz (con registro de datos habilitado) Gratis $0.004 cada 15 segundos** Gratis $0.006 cada 15 segundos**

Este precio es para las aplicaciones en sistemas personales (p. ej., teléfonos, tablets, laptops o computadoras de escritorio). Comunícate con nosotros para solicitar la aprobación y los precios de uso de la API de Cloud Speech-to-Text en dispositivos incorporados (p. ej., autos, televisores, electrodomésticos o altavoces).

* Actualmente, solo está disponible en inglés de EE.UU.

** Cada solicitud se redondea al período de 15 segundos superior más cercano. Por ejemplo, si realizas tres solicitudes diferentes (del modelo estándar), cada una con 7 segundos de audio, se te facturarán $0.018 por 45 segundos (3 × 15 segundos) de audio. Las fracciones de segundos se toman en cuenta cuando se redondea al período de 15 segundos superior más cercano. Esto significa que se redondean 15.14 segundos y se facturan como 30 segundos.

Ícono de balanceo de cargas

Un producto o función que se describe en esta página está en versión Beta. Para obtener más información sobre las etapas de lanzamiento de nuestros productos, haz clic aquí.

Los productos de IA de Cloud satisfacen las políticas del ANS que se indican aquí. Es posible que ofrezcan garantías de latencia o disponibilidad distintas de otros servicios de Google Cloud.

Enviar comentarios sobre…

API de Cloud Speech-to-Text
¿Necesitas ayuda? Visita nuestra página de asistencia.