Valutare i modelli

Utilizza la funzionalità di benchmarking della console Cloud Speech-to-Text per misurare l'accuratezza di uno qualsiasi dei modelli di trascrizione utilizzati nell'API Speech-to-Text V2.

La console Cloud Speech-to-Text fornisce il benchmarking visivo per i modelli Speech-to-Text preaddestrati e personalizzati. Puoi controllare la qualità del riconoscimento confrontando le metriche di valutazione del tasso di errore in termini di parole (WER) di più modelli di trascrizione per aiutarti a decidere quale modello si adatta meglio alla tua applicazione.

Prima di iniziare

Assicurati di aver eseguito la registrazione a un Google Cloud account, creato un progetto, addestrato un modello vocale personalizzato ed eseguito il deployment utilizzando un endpoint.

Crea un set di dati di riferimento

Per creare un set di dati di benchmarking personalizzato, raccogli sample audio che riflettano con precisione il tipo di traffico che il modello di trascrizione incontrerà in un ambiente di produzione. La durata complessiva di questi file audio dovrebbe idealmente essere compresa tra un minimo di 30 minuti e un massimo di 10 ore. Per assemblare il set di dati, devi:

  1. Crea una directory in un bucket Cloud Storage di tua scelta per archiviare i file audio e di testo del set di dati.
  2. Per ogni file audio nel set di dati, crea trascrizioni ragionevolmente accurate. Per ogni file audio (ad esempio example_audio_1.wav), deve essere creato un file di testo di dati di fatto corrispondente (example_audio_1.txt). Questo servizio utilizza queste coppie audio-testo in un bucket Cloud Storage per assemblare il set di dati.

Esegui il benchmark del modello

Per valutare l'accuratezza del modello, utilizza il modello Speech-to-Text personalizzato e il tuo set di dati di benchmarking seguendo la guida per misurare e migliorare l'accuratezza.