Trascrizione vocale trascrive l'audio parlato in un segmento di video o video in testo e restituisce blocchi di testo per ogni parte dell'audio trascritto.
Modelli supportati
Video Intelligence supporta solo l'inglese (USA). Per le altre lingue, utilizza l'API Speech-to-Text, che supporta tutte le lingue disponibili. Per l'elenco delle lingue disponibili, consulta la sezione Supporto delle lingue nella documentazione di Speech-to-Text.
Per trascrivere il parlato da un video, chiama il metodo annotate
e specifica SPEECH_TRANSCRIPTION
nel campo features
.
Per la trascrizione del parlato puoi utilizzare le seguenti funzionalità:
Parole alternative: utilizza l'opzione
maxAlternatives
per specificare il numero massimo di opzioni per le traduzioni riconosciute da includere nella risposta. Questo valore può essere un numero intero compreso tra 1 e 30. Il valore predefinito è 1. L'API restituisce più trascrizioni in ordine decrescente in base al valore di affidabilità della trascrizione. Le trascrizioni alternative non includono voci a livello di parola.Filtro per linguaggio volgare: utilizza l'opzione
filterProfanity
per filtrare le volgarità note nelle trascrizioni. Le parole corrispondenti vengono sostituite dal carattere iniziale seguito da asterischi. Il valore predefinito è false.Suggerimenti per la trascrizione: usa l'opzione
speechContexts
per fornire frasi comuni o insolite nell'audio. Queste frasi vengono poi usate per aiutare il servizio di trascrizione a creare trascrizioni più accurate. Puoi fornire un suggerimento di trascrizione come oggetto SpeechContext.Selezione della traccia audio: utilizza l'opzione
audioTracks
per specificare quale traccia trascrivere da un video multitraccia. Gli utenti possono specificare fino a due tracce. Il valore predefinito è 0. Una volta che il codice lingua è impostato su en-US, la richiesta viene instradata alla modalità avanzata, che viene addestrata sull'audio en-US. La richiesta non sa en-US o altre lingue di per sé. Se inseriamo un audio spagnolo nel modello avanzato, la trascrizione seguirà il suo corso, ma potrebbero esserci output con punteggi di affidabilità bassi o nessun output, come ci si aspetta da un buon modello.Punteggiatura automatica: utilizza l'opzione
enableAutomaticPunctuation
per includere la punteggiatura nel testo trascritto. Il valore predefinito è false.Più interlocutori: usa l'opzione
enableSpeakerDiarization
per identificare i diversi interlocutori in un video. Nella risposta, ogni parola riconosciuta include un campospeakerTag
che identifica l'interlocutore a cui è attribuita la parola riconosciuta.
Per ottenere risultati ottimali, è necessario fornire l'audio registrato a una frequenza di campionamento pari o superiore a 16.000 Hz.
Dai un'occhiata al visualizzatore dell'API Video Intelligence per vedere questa funzionalità in azione.
Per esempi di richiesta della trascrizione del parlato, consulta Trascrizione vocale.