Cloud Speech-to-Text

Conversión de voz a texto con tecnología de aprendizaje automático y disponible para audios en formato corto o largo.

Pruébalo gratis

Reconocimiento de voz potente

La API de Google Cloud Speech permite que los desarrolladores conviertan audio en texto mediante potentes modelos de red neuronal con una API fácil de usar. La API reconoce más de 120 idiomas y variantes, por lo que puedes usarla con tu base de usuarios global. Puedes habilitar el control y el comando por voz, transcribir audio de centros de llamados y mucho más. Puede procesar transmisiones en tiempo real o audio grabado previamente, con la tecnología de aprendizaje automático de Google.

speech-api-lead

Convierte tu voz en texto ahora mismo

Selecciona un idioma y haz clic en "Comenzar ahora" para iniciar la grabación

Con tecnología de aprendizaje automático

Utiliza los algoritmos más avanzados de una red neuronal de aprendizaje profundo para procesar audio y brindar reconocimiento de voz con un nivel de precisión sin igual. Cloud Speech-to-Text mejora su precisión con el tiempo, a medida que se perfecciona la tecnología de reconocimiento de voz que Google usa internamente en sus productos.

Reconoce 120 idiomas y variantes

Cloud Speech-to-Text puede brindarle asistencia a tu base de usuarios mundial, ya que reconoce 120 idiomas y variantes. También puedes filtrar el contenido inapropiado en los resultados de texto en todos los idiomas.

Identifica automáticamente el lenguaje oral

Con Cloud Speech-to-Text, puedes identificar el idioma que se habla en el discurso (límite de cuatro idiomas). Se puede usar para la búsqueda por voz (como, "¿Qué temperatura hay en París?") y casos prácticos de comandos (como, "Subir el volumen").

Ofrece transcripción de textos en tiempo real para audios en formato corto o largo

Cloud Speech-to-Text puede transmitir resultados de texto y mostrarlo de inmediato a medida que hace el reconocimiento en la transmisión de un audio o a medida que el usuario habla. De forma alternativa, Cloud Speech-to-Text puede reconocer texto de un audio almacenado en un archivo. Es capaz de analizar audios en formato corto y largo.

Transcribe automáticamente sustantivos propios y formatos específicos del contexto

Cloud Speech-to-Text funciona bien con el lenguaje que se habla en la vida real y puede transcribir con precisión sustantivos propios (como Sundar Pichai) y dar el formato adecuado al lenguaje (como a las fechas y números de teléfono). Google admite 10 veces más sustantivos propios en comparación con la cantidad de palabras de todo el diccionario de inglés de Oxford.

Ofrece la selección de modelos preconfigurados y personalizados para tu caso práctico

Cloud Speech-to-Text cuenta con diversos modelos de reconocimiento de voz preconfigurados para que puedas optimizarlos según tu caso práctico (como los comandos por voz). Ejemplo: Nuestro modelo de transcripción de video preconfigurado es ideal para indexar y subtitular contenido de video o de varios interlocutores y usa una tecnología de aprendizaje automático que es similar a la de los subtítulos de YouTube.

Modelo Descripción
command_and_search La mejor opción para consultas cortas, como los comandos por voz o la búsqueda por voz.
phone_call La mejor opción para audios que pertenecen a una llamada telefónica (en general, grabada con una tasa de muestreo de 8 khz).
video La mejor opción para audios que pertenecen a un video o que incluyen a varios interlocutores. Idealmente, este audio está grabado con una tasa de muestreo de 16 khz o superior. Este es un modelo premium que cuesta más que la tarifa estándar.
default La mejor opción para los audios que no pertenecen a ninguno de los modelos específicos. Por ejemplo, los audios largos. Idealmente, este audio es de alta fidelidad y está grabado con una tasa de muestreo de 16 khz o superior.

Características de Cloud Speech-to-Text

Conversión de voz a texto con tecnología de aprendizaje automático.

Reconocimiento de voz automático
Nuestra red neuronal de aprendizaje profundo pone a tu disposición un servicio de reconocimiento de voz automático (ASR) que puedes incorporar en aplicaciones para la búsqueda por voz y la transcripción de dictados, entre otros usos.
Vocabulario mundial
Reconoce 120 idiomas y variantes con un amplio vocabulario.
Sugerencias de frases
El reconocimiento por voz se puede adaptar a un contexto específico. Para ello, solo tienes que suministrar un conjunto de palabras y frases que tengan una alta probabilidad de aparecer. Esto resulta especialmente útil para agregar palabras y nombres personalizados al vocabulario, así como en casos prácticos de control por voz.
Compatibilidad con transmisiones en tiempo real o audio grabado previamente
Se pueden transmitir las entradas de audio con el micrófono de una aplicación o enviarse en un archivo de audio grabado previamente (en línea o a través de Google Cloud Storage). Se admiten varios tipos de codificación de audio, como FLAC, AMR, PCMU y Linear-16.
Detección automática de idiomasBETA
Cuando necesitas asistencia para contextos multilingües, ahora puedes especificar entre dos y cuatro códigos de idioma y Cloud Speech-to-Text identificará el idioma correcto que se está hablando y proporcionará la transcripción.
Resistente al ruido
Puede procesar audio con ruido de diversos ambientes. No hace falta usar ninguna tecnología adicional para reducir el ruido.
Filtro para contenido inapropiado
Filtra el contenido inapropiado de los resultados de texto de algunos idiomas.
Puntuación automáticaBETA
Aplica una puntuación precisa a las transcripciones (p. ej., comas, signos de interrogación y puntos) gracias al aprendizaje automático.
Selección de modelosBETA
Puedes seleccionar entre cuatro modelos preconfigurados: predeterminado, comandos y búsqueda por voz, llamadas telefónicas y transcripción de video.
Diarización de interlocutoresBETA
Conoce cuál interlocutor dijo cada parte del discurso. Ahora puedes obtener predicciones automáticas sobre cuál de los interlocutores dijo cada frase en una conversación.
Reconocimiento multicanalBETA
En las grabaciones con varios participantes, en las que cada participante se graba en un canal distinto (p. ej., una llamada telefónica con dos canales o una videoconferencia con cuatro canales), Cloud Speech-to-Text reconocerá cada canal de forma independiente y anotará las transcripciones para que sigan el mismo orden que en la vida real.

Precios de la API de Cloud Speech-to-Text

Reconocimiento de voz potente.

Cloud Speech-to-Text se cobra por cada 15 segundos de audio procesado, una vez superado el nivel gratuito de 60 minutos. Para conocer los detalles, consulta nuestra guía de precios.

Función De 0 a 60 minutos Más de 60 minutos, hasta 1 millón de minutos
Reconocimiento de voz (todos los modelos, excepto los de video) Gratis $0.006/15 segundos*
Reconocimiento de voz en videos $0.006 $0.012/15 segundos*

Este precio es para las aplicaciones en sistemas personales (p. ej., teléfonos, tablets, laptops o computadoras de escritorio). Comunícate con nosotros para obtener la aprobación y los precios de uso de la API de Speech-to-Text en dispositivos incorporados (p. ej., automóviles, TVs, electrodomésticos o bocinas).

* Cada solicitud se redondea al incremento de 15 segundos más cercano. Por ejemplo, si realizas tres solicitudes diferentes, cada una con 7 segundos de audio, se facturarán $0.018 por 45 segundos (3 × 15 segundos) de audio. Las fracciones de segundos se incluyen en el redondeo al incremento de 15 segundos más cercano. Esto significa que se redondean 15.14 segundos y se facturan como 30 segundos.

Un producto o función que se describe en esta página está en versión Beta. Para obtener más información sobre las etapas de lanzamiento de nuestros productos, haz clic aquí.

Enviar comentarios sobre…

Cloud Speech-to-Text API