Cloud Speech‑to‑Text

Conversión de voz en texto con la tecnología del aprendizaje automático para audios de formato corto y largo

Pruébalo gratis

Reconocimiento de voz avanzado

Cloud Speech‑to‑Text de Google es una API fácil de usar que permite a los desarrolladores convertir audio en texto fácilmente gracias a la aplicación de potentes modelos de redes neuronales. Esta API reconoce 120 idiomas y variantes para ayudarte a gestionar tu base de usuarios internacional y, entre otras cosas, permite habilitar el control por comandos de voz o transcribir las conversaciones de los centros de llamadas. Además, utiliza la tecnología del aprendizaje automático de Google para procesar audios grabados previamente o en tiempo real.

speech‑api‑lead

¿A qué esperas para convertir tu voz en texto?

Selecciona un idioma y haz clic en la opción para comenzar a grabar.

Utiliza la tecnología del aprendizaje automático

Aplica los algoritmos más avanzados de aprendizaje profundo y redes neuronales a los audios para conseguir un reconocimiento de voz de máxima precisión. A medida que perfeccionamos la tecnología interna de reconocimiento de voz que usan nuestros productos, la precisión de Cloud Speech‑to‑Text mejora.

Reconoce 120 idiomas y variantes

La API Cloud Speech‑to‑Text reconoce 120 idiomas y variantes para ayudarte a gestionar tu base de datos internacional. Además, te permite filtrar el contenido inapropiado en los resultados de texto de todos los idiomas.

Identifica automáticamente el lenguaje hablado

Con Cloud Speech‑to‑Text, podrás identificar el idioma en que se pronuncia una frase (hasta un máximo de cuatro idiomas), lo cual resulta especialmente útil en las búsquedas por voz (por ejemplo, "¿Qué temperatura hace en París?") y en los casos prácticos de comandos (como "Sube el volumen").

Transcribe audios de formato corto o largo en tiempo real

Cloud Speech‑to‑Text puede transcribir de forma instantánea los audios a medida que se reproducen o conforme habla el usuario. Además, esta API puede transcribir el contenido de audios guardados en archivos, lo que permite analizar audios de formato tanto corto como largo.

Transcribe automáticamente los nombres propios y el formato de contextos determinados

La API Cloud Speech‑to‑Text está especialmente diseñada para reconocer el estilo conversacional real y puede transcribir con precisión los nombres propios (como Sundar Pichai) y utilizar un formato adecuado para las fechas y los números de teléfono, entre otros. El número de nombres propios que reconoce Google es más de diez veces mayor que el número de palabras que recoge el diccionario Oxford de la lengua inglesa.

Ofrece varios modelos prediseñados adaptados a tus necesidades

Cloud Speech‑to‑Text proporciona varios modelos de reconocimiento de voz prediseñados, así que puedes elegir el que se ajuste mejor a cada caso práctico (por ejemplo, los comandos de voz). Nuestro modelo de transcripción de vídeo predefinido, por ejemplo, es ideal para indexar o subtitular vídeos o contenido en los que intervienen varios interlocutores, y utiliza una tecnología de aprendizaje automático similar a la empleada para la generación de subtítulos en YouTube.

Modelo Descripción
command_and_search Adecuado para consultas cortas como comandos de voz o búsqueda por voz.
phone_call Adecuado para el audio generado a partir de una llamada telefónica (generalmente grabada a una frecuencia de muestreo de 8 kHz).
video Adecuado para el audio generado a partir de vídeos o en los que intervienen varios interlocutores. Lo ideal es que se grabe a una velocidad de muestreo de 16 kHz o superior. Este modelo premium es más caro que el estándar.
default Adecuado para el audio que no se corresponde con los modelos de audio específicos (por ejemplo, el audio de formato largo). Lo ideal es que sea de alta fidelidad y que esté grabado a una velocidad de muestreo de 16 kHz o superior.

Funciones de Cloud Speech‑to‑Text

Conversión de voz en texto con la tecnología del aprendizaje automático

Reconocimiento automático de voz
El reconocimiento automático de voz (ASR) basado en redes neuronales de aprendizaje profundo dota a tus aplicaciones de búsqueda por voz o transcripción de voz.
Vocabulario internacional
Reconoce 120 idiomas y variantes con un amplio vocabulario.
Sugerencias lingüísticas
Es posible personalizar el reconocimiento de voz según un contexto específico; para ello, basta con suministrar un conjunto de palabras y frases que tienen muchas probabilidades de aparecer. Esta característica es especialmente útil a la hora de añadir palabras y nombres personalizados a la lista de vocabulario, así como en casos prácticos de control por voz.
Transcripción de audios grabados previamente o en tiempo real
El sonido puede proceder del micrófono de una aplicación o se puede enviar desde un archivo de audio grabado previamente (insertado o a través de Google Cloud Storage). Se admiten diversas codificaciones de audio, como FLAC, AMR, PCMU y LINEAR16.
Detección automática de idioma BETA
En las situaciones multilingües, ahora es posible especificar entre dos y cuatro códigos de idioma. Cloud Speech‑to‑Text identificará correctamente el idioma que se habla y proporcionará una transcripción.
Tratamiento del ruido
Es capaz de procesar audio de una multitud de entornos ruidosos sin necesidad de recurrir a otros procesos de reducción de ruido.
Filtrado de contenido inapropiado
Puedes filtrar el contenido inapropiado en los resultados de texto en algunos idiomas.
Puntuación automática BETA
Puntúa las transcripciones con precisión (comas, puntos, signos de interrogación, etc.) gracias al aprendizaje automático.
Selección de modelos BETA
Elige entre cuatro modelos prediseñados: predeterminado, comandos de voz y búsqueda, llamadas telefónicas y transcripción de vídeo.
Diarización de interlocutores BETA
La API puede identificar de forma automática a qué interlocutor pertenece cada intervención en una conversación para que sepas quién dijo qué.
Reconocimiento multicanal BETA
En las grabaciones en las que intervienen varios interlocutores cuyas voces se graban en canales independientes (por ejemplo, una llamada telefónica con dos canales o una videoconferencia con cuatro canales), Cloud Speech‑to‑Text reconoce cada canal por separado y anota las transcripciones para que sigan el orden real.

Precios de la API Cloud Speech‑to‑Text

Potente reconocimiento de voz

Cloud Speech‑to‑Text se tarifica por intervalos de 15 segundos de audio procesados a partir de los 60 primeros minutos, que son gratuitos. Para obtener más información, consulta nuestra guía de precios.

Función Hasta 60 minutos Más de 60 minutos, hasta 1 millón de minutos
Reconocimiento de voz (todos los modelos excepto vídeo) Gratis 0,006 $ cada 15 segundos*
Reconocimiento de voz en vídeo 0,006 $ 0,012 $ cada 15 segundos*

Este precio corresponde a aplicaciones de sistemas de uso personal (por ejemplo, teléfonos, tablets, portátiles y ordenadores). Ponte en contacto con nosotros para consultar los precios de la API Speech‑to‑Text en dispositivos integrados (por ejemplo, coches, televisores, electrodomésticos o altavoces) y para obtener autorización para usarla en tales dispositivos.

* Cada solicitud se redondea al siguiente incremento de 15 segundos. Por ejemplo, 3 solicitudes independientes con 7 segundos de audio cada una se facturarían como 45 segundos de audio (3 × 15 segundos). El importe total sería 0,018 $. Las fracciones de segundo se tienen en cuenta al redondear al siguiente incremento de 15 segundos. Es decir, 15,14 segundos se redondean hacia arriba y se facturan como 30 segundos.

Uno de los productos o funciones mencionados en esta página está en versión beta. Obtén más información sobre las fases de lanzamiento de nuestros productos.

Enviar comentarios sobre...

Cloud Speech-to-Text API