Misura e migliora la precisione

In questa guida rapida imparerai a misurare e migliorare l'accuratezza di Google Cloud Speech-to-Text per i tuoi dati audio. Esplora inoltre i vari modelli e le opzioni disponibili dall'API per migliorare l'accuratezza della trascrizione. Scopri come utilizzare l'interfaccia utente di Speech-to-Text nella console Google Cloud e un file basato su dati empirici reali per misurare l'accuratezza e ottenere insight sul sistema Speech-to-Text.

I sistemi di machine learning (ML) sono intrinsecamente soggetti a imprecisioni, mentre i sistemi di riconoscimento vocale automatico (ASR), noti anche come sistemi Speech-to-Text, non fanno eccezione. Una misurazione accurata dell'accuratezza è fortemente associata ai casi d'uso specifici e ai sistemi che vengono valutati, poiché le differenze nella qualità della registrazione audio e nelle condizioni acustiche possono influire notevolmente sulla precisione. Di conseguenza, un unico punteggio di accuratezza per tutti i clienti e i casi d'uso non è pratico. Per garantire prestazioni affidabili dei sistemi ASR nelle prestazioni dei sistemi di produzione critici. È inoltre essenziale capire il rendimento della funzionalità Trascrizione vocale nel contesto più ampio del sistema.

Ai fini di questa guida rapida, utilizza il metodo standard di settore per il confronto, il tasso di errore ortografico (WER), spesso abbreviato in WER. Per ulteriori informazioni su come viene calcolato e interpretato l'errore relativo di identificazione, consulta Misurare e migliorare l'accuratezza della voce. Cominciamo.

Inizia a utilizzare la console Speech-to-Text

Assicurati di aver creato un account Google Cloud e un progetto. 1. Vai a Speech nella console Google Cloud e vai a UI Speech-to-Text. 2. Se utilizzi un file audio che sia acusticamente rappresentativo del tuo caso d'uso e di come prevedi di utilizzare il sistema ASR, segui le istruzioni della guida rapida per realizzare la tua prima trascrizione utilizzando Speech-to-Text.

Calcolo della precisione della trascrizione

  1. Dopo aver trascritto correttamente il file audio, utilizza la sezione Transcription Accuracy. Questa sezione rimane vuota finché non viene calcolata l'accuratezza della trascrizione.
  2. Utilizzando il pulsante Carica dati di riferimento nella parte superiore della sezione, puoi iniziare a calcolare l'accuratezza.
    Screenshot della pagina dei dettagli della trascrizione Speech-to-Text, che mostra la sezione relativa all'accuratezza della trascrizione e il pulsante Carica dati empirici reali

Specifica dei dati di fatto

  1. Per calcolare l'accuratezza della trascrizione, fornisci un file di dati empirici reali. Si tratta di un file .txt o .csv, di solito un file di trascrizione generato da persone fisiche che contiene le trascrizioni corrette o previste per il confronto.
  2. Utilizzo di gs://cloud-samples-data/speech/brooklyn_bridge.wav come esempio. Il file di dati empirici reali contiene: How old is the Brooklyn Bridge. Se non hai a disposizione un file di dati empirici reali, ti consigliamo di scaricare la trascrizione in un formato di testo. Modifica il file di trascrizione in base alle tue esigenze. Carica il file di trascrizione come file di dati empirici reali.
  3. Utilizzando Carica o un file Cloud Storage esistente, specifica il file basato su dati empirici reali e fai clic su Salva.
    Screenshot della pagina di creazione della trascrizione Speech-to-Text, che mostra la selezione o il caricamento di un file basato su dati empirici reali.

Conferma dei dati di fatto

  1. Dopo aver fatto clic su Salva, viene visualizzato un messaggio che ti chiede di confermare che il file di dati empirici reali specificato è corretto. Verifica che il file di dati empirici reali rappresenti in modo accurato le trascrizioni corrette, poiché influisce direttamente sulle metriche di accuratezza.
  2. Fai clic su Conferma per continuare.
    Screenshot della pagina della trascrizione Speech-to-Text, che mostra i contenuti del file di dati empirici reali caricato.

Esamina i risultati della valutazione

  1. A seconda delle dimensioni dei dati di input, la procedura di valutazione potrebbe richiedere del tempo e i risultati vengono visualizzati al termine.
  2. Una volta completata la valutazione, vengono visualizzate le seguenti sezioni:
    • La tabella Accuratezza della trascrizione, le metriche di accuratezza e un link al file dei dati di fatto utilizzati durante la procedura.
    • Transcription con un pulsante di attivazione/disattivazione per il confronto con il file di dati empirici reali, oltre a un'analisi delle metriche di precisione e delle evidenziazioni.
  3. Esamina e interpreta i risultati di accuratezza per comprendere il rendimento del riconoscitore Speech-to-Text utilizzati per identificare le aree di miglioramento, poiché i risultati variano in base agli input e alla trascrizione utilizzati. Negli esempi seguenti puoi vedere casi indicativi dei risultati di accuratezza, che forniscono informazioni preziose per l'ottimizzazione del sistema Speech-to-Text di Google Cloud.
    • Un esempio di WER del 0%:
      Screenshot della pagina Precisione della trascrizione di Speech-to-Text che mostra i risultati della valutazione calcolata per la trascrizione specificata con un tasso di errore delle parole dello 0%.
    • Un esempio di WER del 40%:
      Screenshot della pagina Precisione della trascrizione di Speech-to-Text che mostra i risultati della valutazione calcolata per la trascrizione specificata con un tasso di errore delle parole del 40%.

(Facoltativo) Aggiornare i dati di fatto

Puoi testare un altro dato di fatto rispetto alla trascrizione esistente ricollegando un altro file e ripetendo i passaggi tre e quattro con un file dei dati di fatto aggiornato.

Provalo

Se non hai mai utilizzato Google Cloud, crea un account per valutare in che modo Speech-to-Text funziona nel mondo reale diversi scenari. I nuovi clienti ricevono anche 300 $ di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.

Prova Speech-to-Text gratuitamente