El modelo de voz universal (USM) es la próxima generación de modelos de Speech-to-Text de Google. Estos modelos representan la culminación de muchos años de trabajo de los equipos de investigación de Google. Ahora estamos haciendo disponible nuestra primera iteración del USM. Sin embargo, los modelos actuales son solo el comienzo de un interesante y nuevo conjunto de modelos e investigaciones que seguirán desbloqueando capacidades nuevas. Es posible que veas actualizaciones del modelo y identificadores de modelos adicionales relacionados con USM a medida que avanzamos en la oferta.
Los modelos de voz universales se entrenan con una arquitectura diferente a la de nuestros modelos de voz actuales. Un solo modelo contiene datos de muchos idiomas diferentes. A pesar de la unificación de los datos de entrenamiento y el modelo, aún es necesario especificar el lenguaje en el que el modelo debe intentar reconocer la voz. La USM no admite algunas de las funciones de Google Speech que tienen otros modelos. Consulta la siguiente lista completa. El modelo también puede producir resultados de forma diferente a otros modelos de Google Speech.
Identificadores de modelo
El USM está disponible en la API de Cloud Speech-to-Text v2. Puedes aprovecharlo como cualquier otro modelo.
El identificador del modelo de USM es usm
Puedes especificar este modelo mientras creas un reconocedor para aprovechar el modelo de voz universal (USM).
Precios
Durante la vista previa privada, el uso del USM es gratuito. Hablaremos sobre los precios de los modelos más adelante.
Métodos de la API disponibles
Los modelos de voz universales procesan la voz en lotes mucho más grandes. Esto significa que puede no ser adecuado para el uso verdadero en “tiempo real”, como lo hacen otros modelos de Voz a texto de Google. USM está disponible a través de los siguientes métodos de API:
v2
Speech.Recognize
(bueno para audio corto <1 min)v2
Speech.BatchRecognize
(bueno para audio largo de 1 min a 8 horas)
El modelo de Universal Speech no está disponible en los siguientes métodos de API:
v2
Speech.StreamingRecognize
v1
Speech.StreamingRecognize
v1
Speech.Recognize
v1
Speech.LongRunningRecognize
v1p1beta1
Speech.StreamingRecognize
v1p1beta1
Speech.Recognize
v1p1beta1
Speech.LongRunningRecognize
Lenguajes
Puedes pasar los siguientes códigos de idioma:
af-ZA
am-ET
ar-EG
az-AZ
be-BY
bg-BG
bn-BD
ca-ES
zh-Hans-CN
cs-CZ
da-DK
de-DE
el-GR
en-AU
en-GB
en-IN
en-US
es-US
et-EE
eu-ES
fa-IR
fi-FI
fil-PH
fr-CA
fr-FR
gl-ES
gu-IN
iw-IL
hi-IN
hu-HU
hy-AM
id-ID
is-IS
it-IT
ja-JP
jv-ID
ka-GE
kk-KZ
km-KH
kn-IN
ko-KR
lo-LA
lt-LT
lv-LV
mk-MK
ml-IN
mn-MN
mr-IN
ms-MY
my-MM
no-NO
ne-NP
nl-NL
pa-Guru-IN
pl-PL
pt-BR
ro-RO
ru-RU
si-LK
sk-SK
sl-SI
sq-AL
sr-RS
su-ID
sv-SE
sw
ta-IN
te-IN
th-TH
tr-TR
uk-UA
ur-PK
uz-UZ
vi-VN
yue-Hant-HK
zu-ZA
as-IN
ast-ES
bs-BA
ceb-PH
ckb-IQ
cy-GB
ha-NG
hr-HR
kam-KE
kea-CV
ky-KG
lb-LU
ln-CD
luo-KE
mi-NZ
mt-MT
nso-ZA
ny-MW
oc-FR
or-IN
ps-AF
sd-IN
sn-ZW
so-SO
tg-TJ
wo-SN
yo-NG
Compatibilidad y limitaciones de funciones
Actualmente, el modelo de voz universal no admite muchas de las características de la API de STT. Consulta la información que aparece a continuación para conocer las restricciones específicas.
- Puntuación de confianza: La API mostrará un valor, pero no es realmente una puntuación de confianza.
- Adaptación de voz: No se admiten funciones de adaptación.
- Identificación: No se admite la identificación automática. No se admite la separación de canales.
- Puntuación: No se admite la puntuación hablada. La puntuación automática no es compatible.
- Normalización forzada: No admitida.
- Confianza a nivel de palabra: No admitida.
- Detección de idioma: No admitida.
- Tiempos de palabras: No admitida.
Nota sobre la puntuación
La USM disponible en la vista previa privada no produce puntuación de ningún tipo. Esto se debe tener en cuenta durante las evaluaciones. Estamos trabajando para agregar la puntuación automática lo antes posible, ya que sabemos que es importante para muchos casos prácticos para los que la USM es adecuada.
Comienza a usar la IU de Cloud Console
- Asegúrate de haberte registrado en una cuenta de Google Cloud y creado un proyecto. Debes usar el proyecto y la cuenta que se hayan permitido para la USM.
- Ve a Speech en la consola de Google Cloud.
- Habilita la API si aún no está habilitada.
Crea un reconocedor de STT que los usuarios del modelo de voz universal
Ve a la pestaña Reconocimientos y haz clic en “Crear”.
En la página Crear reconocedor, ingresa los campos necesarios para USM.
- Asigna un nombre al reconocedor.
- Actualmente, USM solo está disponible en la región us-central1. Selecciona
region
y, luego,us-central1
. - Selecciona “usm” como modelo. Si no ves “usm” en la lista de modelos, significa que tu proyecto no está permitido.
- Selecciona el idioma que quieres usar. Necesitarás un reconocedor por cada idioma que planeas probar.
- No selecciones ninguna otra función.
Asegúrate de tener un Workspace de la IU de STT en la región
us-central1
. Es posible que debas crear un nuevo lugar de trabajo.- Visita la página de transcripciones en console.cloud.google.com/speech/transcriptions
- En la página Transcripción, haz clic en Transcripción nueva.
- Abre el menú desplegable
Workspace
y haz clic en “New Workspace” a fin de crear un lugar de trabajo para la transcripción. - En el panel de navegación lateral
Create a new workspace
, haz clic enBrowse
. - Haz clic en el ícono de bucket nuevo para crear un bucket de Cloud Storage que represente el lugar de trabajo.
- Ingresa un nombre para tu bucket y haz clic en Continuar.
- [IMPORTANTE] Selecciona
region
yus-central1
en el menú desplegable para asegurarte de que el modelo Universal Speech pueda procesar tu audio. - Haz clic en
create
para crear un bucket de Cloud Storage. - Una vez que se haya creado el bucket, haz clic en
select
para seleccionar su bucket. - Haz clic en
create
para terminar de crear tu lugar de trabajo para la IU de voz a texto.
Realiza una transcripción en tu audio real.
- En la página “Nueva transcripción”, selecciona tu archivo de audio mediante la carga (“carga local”) o especificando un archivo de Cloud Storage existente (“almacenamiento en la nube”). Ten en cuenta que la IU intentará evaluar automáticamente los parámetros de tu archivo de audio.
- Haz clic en continuar para ir a “Opciones de transcripción”
- Selecciona el “lenguaje de voz” que planeas usar para el reconocimiento con el modelo de voz universal del reconocedor que creaste antes.
- En el menú desplegable del modelo, selecciona “Universal Speech Model”.
- En el menú desplegable “recognizer”, selecciona el reconocedor que acabas de crear.
- Haz clic en
submit
para ejecutar tu primera solicitud de reconocimiento mediante el modelo de voz universal
Visualiza el resultado de la transcripción de tu modelo de voz universal
- En la página "Transcripciones", haz clic en el nombre de la transcripción para ver su resultado.
- En la página "Detalles de la transcripción", consulta el resultado de la transcripción y reproduce el audio de forma opcional en el navegador.
Comienza a usar el notebook de Python
Esta guía te ayudará a usar nuestro notebook de Python para comenzar a usar USM en la API de STT v2.
- Asegúrate de haberte registrado en una cuenta de Google Cloud y creado un proyecto. Debes usar el proyecto y la cuenta que se hayan permitido para la USM.
- Asegúrate de tener un entorno de notebook de Python que funcione
- Consulta nuestro notebook aquí y haz tu propia copia.
- Ejecuta el notebook en tu entorno de ejecución preferido. Sigue las instrucciones del notebook que te ayudarán a configurar la autenticación y los reconocedores y, luego, ejecutar solicitudes de transcripción.