Il modello Universal Speech (USM) è la nuova generazione di modelli Speech-to-Text di Google. Questi modelli rappresentano il culmine di molti anni di lavoro del team di ricerca di Google. Stiamo rendendo disponibile la prima versione dell'USM. Tuttavia, i modelli attuali sono solo l'inizio di una nuova e entusiasmante serie di modelli e di ricerche che continueranno a sbloccare nuove funzionalità. Potresti notare aggiornamenti del modello e identificatori aggiuntivi del modello relativi a USM man mano che l'offerta avanza.
I modelli vocali universali vengono addestrati con un'architettura diversa rispetto ai nostri modelli vocali attuali. Un singolo modello contiene dati di molte lingue diverse. Nonostante l'unificazione dei dati e del modello di addestramento, è comunque necessario specificare la lingua in cui il modello dovrebbe tentare di riconoscere la voce. L'USM non supporta alcune delle funzionalità di Google Speech disponibili per altri modelli. Vedi sotto per un elenco completo. Il modello potrebbe anche produrre output diversi da quelli di altri modelli Google Speech.
Identificatori modello
USM è disponibile nell'API Cloud Speech-to-Text v2. Puoi utilizzarlo come qualsiasi altro modello.
L'identificatore del modello USM è: usm
Puoi specificare questo modello durante la creazione di un riconoscimento per sfruttare il modello Universal Speech (USM).
Prezzi
L'utilizzo dell'USM è gratuito durante l'anteprima privata. Ti comunicheremo i prezzi dei modelli in un secondo momento.
Metodi API disponibili
I modelli Universal Speech elaborano la voce in batch molto più grandi. Ciò significa che potrebbe non essere adatto per un utilizzo reale in tempo reale, come accade per altri modelli Speech-to-Text di Google. USM è disponibile mediante i seguenti metodi API:
v2
Speech.Recognize
(valido per audio breve < 1 min)v2
Speech.BatchRecognize
(valido per audio di lunga durata - 1 minuto - 8 ore)
Il modello Universal Speech non è disponibile per i seguenti metodi API:
v2
Speech.StreamingRecognize
v1
Speech.StreamingRecognize
v1
Speech.Recognize
v1
Speech.LongRunningRecognize
v1p1beta1
Speech.StreamingRecognize
v1p1beta1
Speech.Recognize
v1p1beta1
Speech.LongRunningRecognize
Linguaggi
Puoi trasmettere i seguenti codici lingua:
af-ZA
am-ET
ar-EG
az-AZ
be-BY
bg-BG
bn-BD
ca-ES
zh-Hans-CN
cs-CZ
da-DK
de-DE
el-GR
en-AU
en-GB
en-IN
en-US
es-US
et-EE
eu-ES
fa-IR
fi-FI
fil-PH
fr-CA
fr-FR
gl-ES
gu-IN
iw-IL
hi-IN
hu-HU
hy-AM
id-ID
is-IS
it-IT
ja-JP
jv-ID
ka-GE
kk-KZ
km-KH
kn-IN
ko-KR
lo-LA
lt-LT
lv-LV
mk-MK
ml-IN
mn-MN
mr-IN
ms-MY
my-MM
no-NO
ne-NP
nl-NL
pa-Guru-IN
pl-PL
pt-BR
ro-RO
ru-RU
si-LK
sk-SK
sl-SI
sq-AL
sr-RS
su-ID
sv-SE
sw
ta-IN
te-IN
th-TH
tr-TR
uk-UA
ur-PK
uz-UZ
vi-VN
yue-Hant-HK
zu-ZA
as-IN
ast-ES
bs-BA
ceb-PH
ckb-IQ
cy-GB
ha-NG
hr-HR
kam-KE
kea-CV
ky-KG
lb-LU
ln-CD
luo-KE
mi-NZ
mt-MT
nso-ZA
ny-MW
oc-FR
or-IN
ps-AF
sd-IN
sn-ZW
so-SO
tg-TJ
wo-SN
yo-NG
Supporto e limitazioni delle funzionalità
Al momento Universal Speech Model non supporta molte delle funzionalità dell'API STT. Vedi di seguito per le restrizioni specifiche.
- Punteggi di affidabilità: l'API restituirà un valore, ma non è un punteggio di affidabilità.
- Adattamento vocale. Non sono supportate funzionalità di adattamento.
- Diarizzazione: la diarizzazione automatica non è supportata. La separazione dei canali non è supportata.
- Punteggiatura: la punteggiatura pronunciata non è supportata. La punteggiatura automatica non è supportata.
- Normalizzazione forzata: non supportata.
- Confidenza a livello di parola: non supportata.
- Rilevamento della lingua: non supportato.
- Tempistiche delle parole: non supportato.
Nota sulla punteggiatura
L'USM disponibile in anteprima privata non produce alcun tipo di punteggiatura. Questo aspetto deve essere preso in considerazione durante le valutazioni. Stiamo lavorando per aggiungere la punteggiatura automatica il prima possibile, in quanto sappiamo che è importante per molti casi d'uso in cui è utile l'USM.
Introduzione all'interfaccia utente di Cloud Console
- Assicurati di aver creato un account Google Cloud e di aver creato un progetto. Devi utilizzare il progetto e l'account che sono stati consentiti per USM.
- Vai a Speech in Google Cloud Console
- abilita l'API se non è già abilitata.
Creare un riconoscimento STT che utilizzi il modello vocale universale
Vai alla scheda Riconoscitori e fai clic su "Crea".
Dalla pagina Crea strumento di riconoscimento, inserisci i campi necessari per USM.
- Assegna un nome al riconoscimento.
- USM è attualmente disponibile solo nell'area geografica us-central1. Seleziona
region
, quindius-central1
. - Seleziona "usm" come Modello. Se nell'elenco dei modelli non vedi "usm", significa che il tuo progetto non è consentito.
- Seleziona la lingua che vuoi utilizzare. Ti servirà un solo riconoscimento per ogni lingua che intendi testare.
- Non selezionare altre funzionalità.
Assicurati di disporre di un'area di lavoro dell'interfaccia utente STT nell'area geografica
us-central1
. Potresti dover creare una nuova area di lavoro.- Visita la pagina delle trascrizioni all'indirizzo console.cloud.google.com/speech/transcriptions
- Nella pagina Trascrizioni, fai clic su Nuova trascrizione.
- Apri il menu a discesa
Workspace
e fai clic su "Nuova area di lavoro" per creare un'area di lavoro per la trascrizione. - Nella barra laterale
Create a new workspace
, fai clic suBrowse
. - Fai clic sull'icona nuovo bucket per creare un bucket Cloud Storage che rappresenta l'area di lavoro.
- Inserisci un nome per il bucket e fai clic su Continua.
- [IMPORTANTE] Seleziona
region
eus-central1
dal menu a discesa per assicurarti che il modello Universal Speech sia in grado di elaborare l'audio. - Fai clic su Crea per creare il bucket Cloud Storage.
- Una volta creato il bucket, fai clic su
select
per selezionarlo da utilizzare. - Fai clic su
create
per completare la creazione dell'area di lavoro per l'interfaccia utente di conversione della voce in testo.
Esegui una trascrizione del tuo audio effettivo.
- Dalla pagina "Nuova trascrizione", seleziona il file audio tramite caricamento ("caricamento locale") o specifica un file Cloud Storage esistente ("spazio di archiviazione sul cloud"). Tieni presente che la UI cercherà di valutare automaticamente i parametri dei tuoi file audio.
- Fai clic su Continua per passare alle "Opzioni di trascrizione"
- Seleziona la "lingua parlata" che intendi utilizzare per il riconoscimento con il modello vocale universale dello strumento di riconoscimento creato in precedenza.
- Nel menu a discesa del modello, seleziona "Modello vocale universale"
- Nel menu a discesa "Riconoscitore", seleziona il nuovo riconoscimento
- Fai clic su
submit
per eseguire la tua prima richiesta di riconoscimento utilizzando il modello vocale universale
Visualizzare il risultato della trascrizione del modello Universal Speech
- Nella pagina "Trascrizioni", fai clic sul nome della trascrizione per visualizzarne i risultati
- Nella pagina "Dettagli trascrizione", visualizza il risultato della trascrizione e, facoltativamente, la riproduzione dell'audio nel browser
Inizia a utilizzare il blocco note Python
Questa guida ti aiuterà a utilizzare il nostro blocco note Python per iniziare a utilizzare USM sull'API STT v2.
- Assicurati di aver creato un account Google Cloud e di aver creato un progetto. Devi utilizzare il progetto e l'account che sono stati consentiti per USM.
- Assicurati di disporre di un ambiente di blocco note Python funzionante
- Visualizza il nostro blocco note qui e crea la tua copia.
- Esegui il blocco note nell'ambiente di esecuzione preferito. Segui le istruzioni nel blocco note che ti aiuteranno a configurare l'autenticazione e i riconoscimento, quindi a eseguire le richieste di trascrizione.