Questo documento contiene le restrizioni e i limiti di utilizzo attuali per l'API Speech-to-Text. Questa pagina sarà aggiornata per riflettere eventuali modifiche a tali restrizioni e limiti di utilizzo. Ci riserviamo il diritto di modificare questi limiti.
Se necessario, puoi richiedere un aumento della quota. Per ulteriori informazioni su come visualizzare e gestire la quota, consulta la pagina delle quote di Google Cloud.
Dopo la presentazione della richiesta, Google potrebbe contattarti per ulteriori informazioni e per comunicarti se la richiesta è stata approvata o rifiutata.
Limiti per i contenuti
Richieste sincrone
Le richieste di riconoscimento sincrono (che utilizzano il metodo Recognize
) accettano i dati audio in linea nel campo content
della richiesta o come URI di Cloud Storage nel campo uri
della richiesta. L'audio inviato a una richiesta sincrona è limitato a 10 MB o 1
minuto di durata dell'audio (a seconda del limite raggiunto per primo). Per ulteriori informazioni sul riconoscimento sincrono, consulta la panoramica del riconoscimento sincrono.
Richieste di streaming
Le richieste di riconoscimento in streaming (che utilizzano il metodo
StreamingRecognize
) accettano solo audio in linea nel campo audio
della
richiesta. Ogni richiesta nello stream è limitata a 25 KB di audio. Uno stream può rimanere aperto per un massimo di 5 minuti e l'audio deve essere inviato con una velocità quanto più vicina al tempo reale. Se vuoi eseguire lo streaming di contenuti per più di 5 minuti, consulta il tutorial sugli streaming illimitati. Per ulteriori informazioni sul riconoscimento in streaming, consulta la panoramica del riconoscimento in streaming.
Richieste batch
Le richieste di riconoscimento collettivo (che utilizzano il metodo BatchRecognize
) accettano l'audio solo come URI Cloud Storage nel campo uri
della richiesta. Ogni
BatchRecognizeRequest
può contenere fino a 15
files
da trascrivere. Ogni file può avere una durata massima di 8 ore. Per ulteriori informazioni sul riconoscimento sincrono, consulta la panoramica del riconoscimento batch.
Riconoscimento di più lingue
Il riconoscimento di più lingue è disponibile solo negli endpoint Speech-to-Text a livello globale, negli Stati Uniti e nell'UE.
Adattamento
In qualsiasi richiesta puoi anche specificare le risorse PhraseSet e CustomClass. A queste risorse si applicano i seguenti limiti:
Limite di adattamento vocale | Valore |
---|---|
Valore massimo consentito per il boost delle frasi | 20 |
Frasi in un PhraseSet | 1200 |
Frasi per richiesta | 5000 |
Caratteri per frase | 100 |
Caratteri totali per richiesta | 100.000 |
Numero massimo di elementi in una classe personalizzata | 500 |
Numero massimo di caratteri per elemento CustomClass | 500 |
Numero massimo di PhraseSet per SpeechAdaptation | 20 |
Numero massimo di CustomClasses per SpeechAdaptation | 20 |
Limiti delle risorse
Di seguito sono riportati i limiti di risorse dell'API attuali (soggetti a modifica) per Speech-to-Text:
Tipo di limite | Limite di utilizzo |
---|---|
Numero di riconoscitori (per regione) | 5000 |
Numero di classi personalizzate (per regione) | 5000 |
Numero di set di frasi (per regione) | 5000 |
Limiti per le richieste
Di seguito sono riportati i limiti di utilizzo attuali (soggetti a modifica) relativi all'API Speech-to-Text:
Tipo di limite | Limite di utilizzo |
---|---|
Richieste di risorse ogni 60 secondi (per regione) | 100 |
Richieste di operazioni ogni 60 secondi (per regione) | 150 |
Richieste di riconoscimento sincrono ogni 60 secondi (per regione) | 300 |
Richieste di riconoscimento in streaming ogni 60 secondi (per regione) * | 3000 |
Sessioni di riconoscimento in streaming ogni 5 minuti (per regione) * | 300 |
Richieste di riconoscimento batch ogni 60 secondi (per regione) | 150 |
* Il riconoscimento in streaming ha un limite di quota di 300 sessioni simultanee ogni 5 minuti e un limite di 3000 richieste al minuto, che si applica a tutte le sessioni simultanee. La richiesta di configurazione iniziale per una sessione non viene conteggiata ai fini della quota di richieste.
Questi limiti vengono applicati a ogni progetto di sviluppatori Speech-to-Text e sono condivisi tra tutte le applicazioni e gli indirizzi IP che utilizzano un determinato progetto di sviluppatori.