Questa pagina è stata tradotta dall'API Cloud Translation.

Trascrizione del parlato

La trascrizione vocale trascrive l'audio parlato in un video o in un segmento video in testo e restituisce blocchi di testo per ogni porzione dell'audio trascritto.

Modelli supportati

Video Intelligence supporta solo l'inglese (Stati Uniti). Per le altre lingue, utilizza l'API Speech-to-Text, che supporta tutte le lingue disponibili. Per l'elenco delle lingue disponibili, consulta Supporto delle lingue nella documentazione di Speech-to-Text.

Per trascrivere il parlato di un video, chiama il metodo annotate e specifica SPEECH_TRANSCRIPTION nel campo features.

Quando trascrivi un discorso, puoi utilizzare le seguenti funzionalità:

Parole alternative: utilizza l'opzione maxAlternatives per specificare il numero massimo di opzioni per le traduzioni di testo riconosciute da includere nella risposta. Questo valore può essere un numero intero compreso tra 1 e 30. Il valore predefinito è 1. L'API restituisce più trascrizioni in ordine decrescente in base al valore di affidabilità della trascrizione. Le trascrizioni alternative non includono voci a livello di parola.
Filtro per il linguaggio volgare: utilizza l'opzione filterProfanity per filtrare le volgarità note nelle trascrizioni. Le parole corrispondenti vengono sostituite con il primo carattere della parola seguito da asterischi. Il valore predefinito è false.
Suggerimenti per la trascrizione: utilizza l'opzione speechContexts per fornire frasi comuni o insolite nell'audio. Queste frasi vengono poi utilizzate per aiutare il servizio di trascrizione a creare trascrizioni più accurate. Fornisci un suggerimento per la trascrizione come oggetto SpeechContext.
Selezione della traccia audio: utilizza l'opzione audioTracks per specificare la traccia da trascrivere dal video multitraccia. Gli utenti possono specificare fino a due tracce. Il valore predefinito è 0. Una volta impostato il codice della lingua su en-US, la richiesta viene indirizzata alla modalità avanzata, che è addestrata sull'audio in inglese (Stati Uniti); non conosce veramente l'inglese (Stati Uniti) o qualsiasi altra lingua. Se inseriamo un audio in spagnolo nel modello avanzato, la trascrizione seguirà il suo corso, ma potrebbero esserci output con punteggi di confidenza bassi o nessun output, il che è ciò che ci si aspetta da un buon modello.
Punteggiatura automatica: utilizza l'opzione enableAutomaticPunctuation per includere la punteggiatura nel testo trascritto. Il valore predefinito è false.
Più interlocutori: utilizza l'opzione enableSpeakerDiarization per identificare i diversi interlocutori in un video. Nella risposta, ogni parola riconosciuta include un campo speakerTag che identifica a quale speaker è attribuita la parola riconosciuta.

Per risultati ottimali, fornisci audio registrato con una frequenza di campionamento pari o superiore a 16.000 Hz.

Dai un'occhiata al visualizzatore dell'API Video Intelligence per vedere questa funzionalità in azione.

Per esempi di richieste di trascrizione vocale, consulta Trascrizione vocale.

Trascrizione del parlato Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Modelli supportati

Trascrizione del parlato