Universal Speech Model (USM)

Il modello Universal Speech (USM) è la nuova generazione di modelli Speech-to-Text di Google. Questi modelli rappresentano il culmine di molti anni di lavoro del team di ricerca di Google. Stiamo rendendo disponibile la prima versione dell'USM. Tuttavia, i modelli attuali sono solo l'inizio di una nuova e entusiasmante serie di modelli e di ricerche che continueranno a sbloccare nuove funzionalità. Potresti notare aggiornamenti del modello e identificatori aggiuntivi del modello relativi a USM man mano che l'offerta avanza.

I modelli vocali universali vengono addestrati con un'architettura diversa rispetto ai nostri modelli vocali attuali. Un singolo modello contiene dati di molte lingue diverse. Nonostante l'unificazione dei dati e del modello di addestramento, è comunque necessario specificare la lingua in cui il modello dovrebbe tentare di riconoscere la voce. L'USM non supporta alcune delle funzionalità di Google Speech disponibili per altri modelli. Vedi sotto per un elenco completo. Il modello potrebbe anche produrre output diversi da quelli di altri modelli Google Speech.

Identificatori modello

USM è disponibile nell'API Cloud Speech-to-Text v2. Puoi utilizzarlo come qualsiasi altro modello.

L'identificatore del modello USM è: usm

Puoi specificare questo modello durante la creazione di un riconoscimento per sfruttare il modello Universal Speech (USM).

Prezzi

L'utilizzo dell'USM è gratuito durante l'anteprima privata. Ti comunicheremo i prezzi dei modelli in un secondo momento.

Metodi API disponibili

I modelli Universal Speech elaborano la voce in batch molto più grandi. Ciò significa che potrebbe non essere adatto per un utilizzo reale in tempo reale, come accade per altri modelli Speech-to-Text di Google. USM è disponibile mediante i seguenti metodi API:

  • v2 Speech.Recognize (valido per audio breve < 1 min)
  • v2 Speech.BatchRecognize (valido per audio di lunga durata - 1 minuto - 8 ore)

Il modello Universal Speech non è disponibile per i seguenti metodi API:

  • v2 Speech.StreamingRecognize
  • v1 Speech.StreamingRecognize
  • v1 Speech.Recognize
  • v1 Speech.LongRunningRecognize
  • v1p1beta1 Speech.StreamingRecognize
  • v1p1beta1 Speech.Recognize
  • v1p1beta1 Speech.LongRunningRecognize

Linguaggi

Puoi trasmettere i seguenti codici lingua:

  • af-ZA
  • am-ET
  • ar-EG
  • az-AZ
  • be-BY
  • bg-BG
  • bn-BD
  • ca-ES
  • zh-Hans-CN
  • cs-CZ
  • da-DK
  • de-DE
  • el-GR
  • en-AU
  • en-GB
  • en-IN
  • en-US
  • es-US
  • et-EE
  • eu-ES
  • fa-IR
  • fi-FI
  • fil-PH
  • fr-CA
  • fr-FR
  • gl-ES
  • gu-IN
  • iw-IL
  • hi-IN
  • hu-HU
  • hy-AM
  • id-ID
  • is-IS
  • it-IT
  • ja-JP
  • jv-ID
  • ka-GE
  • kk-KZ
  • km-KH
  • kn-IN
  • ko-KR
  • lo-LA
  • lt-LT
  • lv-LV
  • mk-MK
  • ml-IN
  • mn-MN
  • mr-IN
  • ms-MY
  • my-MM
  • no-NO
  • ne-NP
  • nl-NL
  • pa-Guru-IN
  • pl-PL
  • pt-BR
  • ro-RO
  • ru-RU
  • si-LK
  • sk-SK
  • sl-SI
  • sq-AL
  • sr-RS
  • su-ID
  • sv-SE
  • sw
  • ta-IN
  • te-IN
  • th-TH
  • tr-TR
  • uk-UA
  • ur-PK
  • uz-UZ
  • vi-VN
  • yue-Hant-HK
  • zu-ZA
  • as-IN
  • ast-ES
  • bs-BA
  • ceb-PH
  • ckb-IQ
  • cy-GB
  • ha-NG
  • hr-HR
  • kam-KE
  • kea-CV
  • ky-KG
  • lb-LU
  • ln-CD
  • luo-KE
  • mi-NZ
  • mt-MT
  • nso-ZA
  • ny-MW
  • oc-FR
  • or-IN
  • ps-AF
  • sd-IN
  • sn-ZW
  • so-SO
  • tg-TJ
  • wo-SN
  • yo-NG

Supporto e limitazioni delle funzionalità

Al momento Universal Speech Model non supporta molte delle funzionalità dell'API STT. Vedi di seguito per le restrizioni specifiche.

  • Punteggi di affidabilità: l'API restituirà un valore, ma non è un punteggio di affidabilità.
  • Adattamento vocale. Non sono supportate funzionalità di adattamento.
  • Diarizzazione: la diarizzazione automatica non è supportata. La separazione dei canali non è supportata.
  • Punteggiatura: la punteggiatura pronunciata non è supportata. La punteggiatura automatica non è supportata.
  • Normalizzazione forzata: non supportata.
  • Confidenza a livello di parola: non supportata.
  • Rilevamento della lingua: non supportato.
  • Tempistiche delle parole: non supportato.

Nota sulla punteggiatura

L'USM disponibile in anteprima privata non produce alcun tipo di punteggiatura. Questo aspetto deve essere preso in considerazione durante le valutazioni. Stiamo lavorando per aggiungere la punteggiatura automatica il prima possibile, in quanto sappiamo che è importante per molti casi d'uso in cui è utile l'USM.

Introduzione all'interfaccia utente di Cloud Console

  1. Assicurati di aver creato un account Google Cloud e di aver creato un progetto. Devi utilizzare il progetto e l'account che sono stati consentiti per USM.
  2. Vai a Speech in Google Cloud Console
  3. abilita l'API se non è già abilitata.
  4. Creare un riconoscimento STT che utilizzi il modello vocale universale

    • Vai alla scheda Riconoscitori e fai clic su "Crea".

      Screenshot dell'elenco degli strumenti di riconoscimento vocale.

    • Dalla pagina Crea strumento di riconoscimento, inserisci i campi necessari per USM.

      Screenshot della pagina Crea riconoscimento da Speech-to-text.

      • Assegna un nome al riconoscimento.
      • USM è attualmente disponibile solo nell'area geografica us-central1. Seleziona region, quindi us-central1.
      • Seleziona "usm" come Modello. Se nell'elenco dei modelli non vedi "usm", significa che il tuo progetto non è consentito.
      • Seleziona la lingua che vuoi utilizzare. Ti servirà un solo riconoscimento per ogni lingua che intendi testare.
      • Non selezionare altre funzionalità.
  5. Assicurati di disporre di un'area di lavoro dell'interfaccia utente STT nell'area geografica us-central1. Potresti dover creare una nuova area di lavoro.

    • Visita la pagina delle trascrizioni all'indirizzo console.cloud.google.com/speech/transcriptions
    • Nella pagina Trascrizioni, fai clic su Nuova trascrizione.
    • Apri il menu a discesa Workspace e fai clic su "Nuova area di lavoro" per creare un'area di lavoro per la trascrizione.
    • Nella barra laterale Create a new workspace, fai clic su Browse.
    • Fai clic sull'icona nuovo bucket per creare un bucket Cloud Storage che rappresenta l'area di lavoro.
    • Inserisci un nome per il bucket e fai clic su Continua.
    • [IMPORTANTE] Seleziona region e us-central1 dal menu a discesa per assicurarti che il modello Universal Speech sia in grado di elaborare l'audio.
    • Fai clic su Crea per creare il bucket Cloud Storage.
    • Una volta creato il bucket, fai clic su select per selezionarlo da utilizzare.
    • Fai clic su create per completare la creazione dell'area di lavoro per l'interfaccia utente di conversione della voce in testo.
  6. Esegui una trascrizione del tuo audio effettivo.

    Screenshot della pagina di creazione della trascrizione di Speech-to-Text che mostra la selezione o il caricamento del file.
    • Dalla pagina "Nuova trascrizione", seleziona il file audio tramite caricamento ("caricamento locale") o specifica un file Cloud Storage esistente ("spazio di archiviazione sul cloud"). Tieni presente che la UI cercherà di valutare automaticamente i parametri dei tuoi file audio.
    • Fai clic su Continua per passare alle "Opzioni di trascrizione"
    Screenshot della pagina di creazione della trascrizione di Speech-to-text che mostra la selezione del modello di riconoscimento vocale universale e l'invio di un job di trascrizione.
    • Seleziona la "lingua parlata" che intendi utilizzare per il riconoscimento con il modello vocale universale dello strumento di riconoscimento creato in precedenza.
    • Nel menu a discesa del modello, seleziona "Modello vocale universale"
    • Nel menu a discesa "Riconoscitore", seleziona il nuovo riconoscimento
    • Fai clic su submit per eseguire la tua prima richiesta di riconoscimento utilizzando il modello vocale universale
  7. Visualizzare il risultato della trascrizione del modello Universal Speech

    • Nella pagina "Trascrizioni", fai clic sul nome della trascrizione per visualizzarne i risultati
    • Nella pagina "Dettagli trascrizione", visualizza il risultato della trascrizione e, facoltativamente, la riproduzione dell'audio nel browser

Inizia a utilizzare il blocco note Python

Questa guida ti aiuterà a utilizzare il nostro blocco note Python per iniziare a utilizzare USM sull'API STT v2.

  1. Assicurati di aver creato un account Google Cloud e di aver creato un progetto. Devi utilizzare il progetto e l'account che sono stati consentiti per USM.
  2. Assicurati di disporre di un ambiente di blocco note Python funzionante
  3. Visualizza il nostro blocco note qui e crea la tua copia.
  4. Esegui il blocco note nell'ambiente di esecuzione preferito. Segui le istruzioni nel blocco note che ti aiuteranno a configurare l'autenticazione e i riconoscimento, quindi a eseguire le richieste di trascrizione.