valuta i modelli

Utilizza la funzionalità di benchmarking della console Cloud Speech-to-Text per misurare l'accuratezza di qualsiasi modello di trascrizione utilizzato nell'API Speech-to-Text V2.

La console di Cloud Speech-to-Text fornisce benchmarking visivo per modelli Speech-to-Text personalizzati e preaddestrati. Puoi esaminare la qualità del riconoscimento confrontando le metriche di valutazione WER (Word-Error-Rate) in più modelli di trascrizione per decidere quale modello si adatta meglio alla tua applicazione.

Prima di iniziare

Assicurati di aver eseguito la registrazione per un account Google Cloud, creato un progetto, addestrato un modello vocale personalizzato e eseguito il deployment tramite un endpoint.

Creare un set di dati basato su dati empirici reali

Per creare un set di dati di benchmarking personalizzato, raccogli campioni audio che riflettano con precisione il tipo di traffico che il modello di trascrizione incontrerà nell'ambiente di produzione. Idealmente, la durata complessiva di questi file audio dovrebbe durare almeno 30 minuti e non superare le 10 ore. Per assemblare il set di dati, dovrai:

  1. Crea una directory in un bucket Cloud Storage di tua scelta per archiviare i file audio e di testo per il set di dati.
  2. Per ogni file audio nel set di dati, crea trascrizioni ragionevolmente accurate. Per ogni file audio (ad esempio example_audio_1.wav), è necessario creare un corrispondente file di testo con i dati empirici reali (example_audio_1.txt). Questo servizio utilizza queste accoppiamenti audio-testo in un bucket Cloud Storage per assemblare il set di dati.

Confronta il modello

Utilizzando il modello Speech-to-Text personalizzato e il set di dati di benchmarking per valutare l'accuratezza del modello, segui la guida Misura e migliora l'accuratezza.