Questo documento contiene suggerimenti su come fornire dati vocali all'API Speech-to-Text. Queste linee guida sono pensate per una maggiore efficienza e precisione, nonché per tempi di risposta ragionevoli da parte del servizio. L'utilizzo dell'API Speech-to-Text funziona al meglio quando i dati inviati al servizio rientrano nei parametri descritti in questo documento.
Se segui queste linee guida e non ottieni i risultati attesi dall'API, consulta la pagina Risoluzione dei problemi e assistenza.
Per risultati ottimali... | Se possibile, evita di... |
---|---|
Acquisisci audio con una frequenza di campionamento di almeno 16.000 Hz. | Frequenze di campionamento inferiori possono ridurre l'accuratezza. Tuttavia, evita il ricampionamento. Ad esempio, nel settore della telefonia la velocità nativa è generalmente 8000 Hz, ovvero la velocità che deve essere inviata al servizio. |
Utilizza un codec senza perdita di dati per registrare e trasmettere l'audio. È consigliato FLAC o LINEAR16 . |
L'utilizzo di mp3, mp4, m4a, mu-law, diritto o altri codec con perdita di dati durante la registrazione o la trasmissione può ridurre l'accuratezza. Se l'audio è già in una codifica non supportata dall'API, transcodifica il tuo file in un formato senza perdita di dati FLAC o LINEAR16 . Se l'applicazione deve utilizzare un codec con perdita di banda per preservare la larghezza di banda, consigliamo i codec AMR_WB o OGG_OPUS , nell'ordine preferito. |
Il riconoscimento è progettato per ignorare le voci di sottofondo e il rumore senza ulteriore cancellazione del rumore. Tuttavia, per ottenere risultati ottimali, posiziona il microfono il più vicino possibile all'utente, in particolare in presenza di rumore di fondo. | Un eco e un rumore di fondo eccessivi possono ridurre l'accuratezza, in particolare se viene utilizzato anche un codec con perdita di dati. |
Se acquisisci l'audio di più persone e ognuna viene registrata su un canale separato, invia ciascun canale separatamente per ottenere i migliori risultati di riconoscimento. Tuttavia, se tutti gli oratori sono mixati in un unico canale di registrazione, invia la registrazione così com'è. | Più persone che parlano contemporaneamente o a volumi diversi possono essere interpretati come rumore di fondo e ignorati. |
Utilizza i suggerimenti di parole e frasi per aggiungere nomi e termini al vocabolario e migliorare la precisione di parole e frasi specifiche. | Il riconoscimento ha un vocabolario molto ampio, tuttavia i termini e i nomi propri fuori dal vocabolario non verranno riconosciuti. |
Frequenza di campionamento
Se possibile, imposta la frequenza di campionamento della sorgente audio su 16000 Hz.
Per i codec senza intestazioni, utilizza l'impostazione explicit_decoding_config in RecognitionConfig per impostare sample_rate_hertz in modo che corrisponda alla frequenza di campionamento nativa della sorgente audio (anziché ricampionare).
Per i codec con un'intestazione, utilizza l'impostazione auto_decoding_config in RecognitionConfig per scegliere automaticamente la frequenza di campionamento corretta.
Dimensioni della cornice
Il riconoscimento dello streaming riconosce l'audio in diretta mentre viene acquisito da un microfono o da un'altra sorgente audio. Lo stream audio viene suddiviso in frame e inviato in
messaggi StreamingRecognizeRequest
consecutivi. Sono accettate tutte le dimensioni del fotogramma.
I frame più grandi sono più efficienti, ma aumentano la latenza. Si consiglia una dimensione di 100 millisecondi
come buon compromesso tra latenza ed efficienza.
Pre-elaborazione audio
È preferibile fornire audio quanto più pulito possibile utilizzando un microfono di buona qualità e ben posizionato. Tuttavia, l'applicazione dell'elaborazione del segnale di riduzione del rumore all'audio prima di inviarlo al servizio riduce in genere la precisione del riconoscimento. Il servizio è progettato per gestire audio rumorosi.
Per ottenere risultati ottimali:
- Posiziona il microfono il più vicino possibile alla persona che parla, soprattutto in presenza di rumori di fondo.
- Evita clip audio.
- Non utilizzare il controllo automatico del guadagno (AGC).
- L'elaborazione della riduzione del rumore deve essere disattivata.
- Ascoltare un po' di audio di esempio. Deve essere chiaro, senza distorsioni o rumore inaspettato.
Richiedi configurazione
Assicurati di descrivere con precisione i dati audio inviati con la tua richiesta
all'API Speech-to-Text. Se fai in modo che il valore
RecognitionConfig
per la tua richiesta descriva i valori sampleRateHertz
e encoding
corretti e che stai utilizzando un
Riconoscimento
con i valori language_codes
e model
corretti, la trascrizione e la fatturazione saranno
più accurate per la tua richiesta.
Passaggi successivi
- Utilizza le librerie client per trascrivere l'audio utilizzando il tuo linguaggio di programmazione preferito.
- Esercitati a trascrivere file audio brevi.
- Scopri come trascrivere audio in streaming.
- Scopri come trascrivere file audio lunghi.