Misura e migliora la precisione

In questa guida rapida, scopri come misurare e migliorare l'accuratezza dell'API Speech-to-Text di Google Cloud per i tuoi dati audio. Esplora inoltre i vari modelli e le opzioni disponibili dall'API per migliorare l'accuratezza della trascrizione. Scopri come utilizzare l'interfaccia utente di Speech-to-Text nella console Google Cloud e un file di dati empirici reali per misurare l'accuratezza e ottenere insight sul sistema Speech-to-Text.

I sistemi di machine learning (ML) sono intrinsecamente soggetti a inesattezze e i sistemi di riconoscimento vocale automatico (ASR), noti anche come sistemi di Speech-to-Text, non fanno eccezione. Una misurazione accurata dell'accuratezza è strettamente collegata a casi d'uso specifici e ai sistemi valutati, poiché le differenze nella qualità della registrazione audio e nelle condizioni acustiche possono influire significativamente sull'accuratezza. Di conseguenza, non è possibile ottenere un singolo punteggio di accuratezza per tutti i clienti e i casi d'uso. Per garantire prestazioni affidabili dei sistemi ASR nelle prestazioni dei sistemi critici orientati alla produzione. È inoltre essenziale comprendere le prestazioni di Speech-to-Text nel contesto più ampio del tuo sistema.

Ai fini di questa guida rapida,utilizza il metodo standard di settore per il confronto, Word Error Rate (WER), spesso abbreviato in WER. Per ulteriori informazioni su come viene calcolata e interpretata WER, consulta Misurare e migliorare l'accuratezza della voce. Iniziamo.

Inizia a utilizzare la console Speech-to-Text

Assicurati di aver eseguito la registrazione per un account Google Cloud e di aver creato un progetto. 1. Vai a Speech nella console Google Cloud e vai all'UI di Speech-to-Text. 2. Utilizzando un file audio rappresentativo del tuo caso d'uso e del modo in cui prevedi di utilizzare il sistema ASR, segui le istruzioni della guida rapida per creare la tua prima trascrizione con Speech-to-Text.

Calcolo dell'accuratezza della trascrizione

  1. Dopo aver trascritto il file audio, utilizza la sezione Transcription Accuracy. Questa sezione rimane vuota fino a quando non viene calcolata la precisione della trascrizione.
  2. Utilizzando il pulsante Carica dati empirici reali nella parte superiore della sezione, puoi iniziare a calcolare l'accuratezza.
    Screenshot della pagina dei dettagli della trascrizione di Speech-to-Text, che mostra la sezione Precisione della trascrizione e il pulsante Carica dati empirici reali

Specificare i dati empirici reali

  1. Per calcolare l'accuratezza della trascrizione, fornisci un file di dati empirici reali. Si tratta di un file .txt o .csv, in genere un file di trascrizione generato da persone che contiene le trascrizioni corrette o previste per il confronto.
  2. Utilizzo di gs://cloud-samples-data/speech/brooklyn_bridge.wav come esempio. Il file di dati empirici reali contiene: How old is the Brooklyn Bridge. Se non hai a disposizione un file di dati empirici reali, è consigliabile scaricare la trascrizione in formato testuale. Modifica il file di trascrizione in base alle tue esigenze. Carica il file di trascrizione come file di dati empirici reali.
  3. Utilizzando Carica o un file Cloud Storage esistente, specifica il file basato su dati empirici reali e fai clic su Salva.
    Screenshot della pagina di creazione della trascrizione di Speech-to-Text, che mostra la selezione o il caricamento di un file basato su dati empirici reali.

Conferma dei dati empirici reali in corso...

  1. Dopo aver fatto clic su Salva, viene visualizzato un messaggio che chiede di confermare che il file di dati empirici reali specificato è corretto. Verifica che il file di dati empirici reali rappresenti in modo accurato le trascrizioni corrette, in quanto questo influisce direttamente sulle metriche di accuratezza.
  2. Fai clic su Conferma per continuare.
    Screenshot della pagina di trascrizione di Speech-to-Text, che mostra i contenuti del file di dati empirici reali caricato.

Esamina i risultati della valutazione

  1. A seconda della dimensione dei dati di input, il processo di valutazione potrebbe richiedere del tempo e i risultati vengono visualizzati al termine.
  2. Al termine della valutazione, vengono visualizzate le seguenti sezioni:
    • La tabella Precisione della trascrizione, le metriche di accuratezza e un link al file di dati empirici reali utilizzati nel processo.
    • Il Transcription con un pulsante di attivazione/disattivazione per il confronto con il file di dati empirici reali insieme a un'analisi dettagliata delle metriche e dei punti salienti dell'accuratezza.
  3. Esamina e interpreta i risultati relativi all'accuratezza per comprendere le prestazioni del riconoscimento Speech-to-Text che vengono utilizzate per identificare le aree di miglioramento, poiché i risultati variano a seconda degli input e della trascrizione utilizzati. Nei seguenti esempi, puoi vedere casi indicativi dei risultati relativi all'accuratezza, che forniscono insight preziosi per l'ottimizzazione del sistema Speech-to-Text di Google Cloud.
    • Un esempio di WER allo 0%:
      Screenshot della pagina di accuratezza della trascrizione di Speech-to-Text, che mostra i risultati della valutazione calcolata per la trascrizione specifica con una percentuale di errore delle parole pari allo 0%.
    • Un esempio di WER del 40%:
      Screenshot della pagina dell'accuratezza della trascrizione di Speech-to-Text, che mostra i risultati della valutazione calcolata per la trascrizione specifica con una percentuale di errore delle parole del 40%.

(Facoltativo) Aggiornamento dei dati empirici reali

Puoi testare un diverso valore empirico rispetto alla trascrizione esistente, allegando di nuovo un file diverso e ripetendo i passaggi 3 e 4 con un file di dati empirici aggiornato.

Provalo

Se non hai mai utilizzato Google Cloud, crea un account per valutare le prestazioni di Speech-to-Text in scenari reali. I nuovi clienti ricevono anche 300 $ di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.

Prova Speech-to-Text gratuitamente