Speech-to-Text

Conversione da voce a testo basata sulla tecnologia di machine learning.

Fai una prova gratuita

Visualizza la documentazione per questo prodotto.

Efficace funzionalità di riconoscimento vocale

Google Speech-to-Text consente agli sviluppatori di convertire l'audio in testo applicando efficaci modelli di rete neurale in un'API semplice da usare. L'API riconosce oltre 120 lingue e varianti per supportare la tua base utenti globale. Puoi attivare il riconoscimento dei controlli e dei comandi vocali, trascrivere l'audio dei call center e molto altro. L'API può elaborare lo streaming in tempo reale o l'audio pre-registrato, grazie alla tecnologia di machine learning di Google.

speech-api-lead

Converti la voce in testo ora

Sfrutta la tecnologia del machine learning

Applica i più avanzati algoritmi di rete neurale di deep learning all'audio per il riconoscimento vocale con un'accuratezza senza precedenti. L'accuratezza migliora nel tempo man mano che Google ottimizza la tecnologia di riconoscimento vocale interna utilizzata dai prodotti Google.

Machine learning

Riconosce oltre 120 lingue e varianti

Speech-to-Text può supportare la tua base utenti globale, riconoscendo oltre 120 lingue e varianti. Puoi anche filtrare contenuti inappropriati nei risultati testuali in tutte le lingue.

menu lingua

Identifica automaticamente la lingua parlata

Grazie a Speech-to-Text puoi identificare la lingua parlata nelle frasi pronunciate (fino a quattro lingue). Questa opzione può essere utilizzata per la ricerca vocale (ad esempio "Qual è la temperatura a Parigi?") e per i casi d'uso di comandi (ad esempio "Alza il volume").

lingua parlata

Restituisce la trascrizione del testo in tempo reale per audio di breve o lunga durata

Speech-to-Text può riprodurre in streaming i risultati di testo, restituendo immediatamente il testo non appena viene riconosciuto dall'audio in streaming o mentre l'utente parla. In alternativa, Speech-to-Text può restituire il testo riconosciuto dall'audio archiviato in un file. È in grado di analizzare audio di breve o lunga durata.

orologio

Trascrive automaticamente nomi propri e formatta la lingua in base al contesto

L'API Speech-to-Text è concepita per funzionare in maniera ottimale con il linguaggio reale ed è in grado di trascrivere in modo accurato i nomi propri, ad nomi di battesimo e toponimi, nonché di formattare la lingua in maniera appropriata, come nel caso di date e numeri di telefono. Google supporta una quantità di nomi propri dieci volte superiore rispetto al numero delle parole contenute nell'intero Oxford English Dictionary.

soundwave

Offre una selezione di modelli avanzati, su misura per il tuo caso d'uso

L'API Speech-to-Text fornisce più modelli preconfigurati e avanzati che consentono di ottimizzare il riconoscimento vocale in base al tuo caso d'uso (ad esempio comandi vocali). Esempio: il nostro modello di trascrizione video preconfigurato è ideale per l'indicizzazione o la sottotitolazione di contenuti video e/o multispeaker e utilizza la tecnologia di machine learning simile a quella su cui si basano i sottotitoli di YouTube.

modello di parlato
Modello Descrizione
command_and_search Ideale per brevi query come comandi vocali o ricerca vocale.
phone_call Ideale per audio proveniente da telefonate (normalmente registrate con una frequenza di campionamento pari a 8 kHz).
video Ideale per audio proveniente da video o che include più interlocutori. L'audio viene registrato preferibilmente con una frequenza di campionamento pari o superiore a 16 kHz. Questo è un modello premium con un costo più alto rispetto alla tariffa standard.
default Ideale per audio diverso dagli altri modelli audio specifici, ad esempio audio di lunga durata. L'audio è ad alta precisione, preferibilmente registrato con una frequenza di campionamento pari o superiore a 16 kHz.

Funzionalità

Adattamento vocale Beta
Fornisci un elenco di parole o espressioni da utilizzare come "suggerimenti" utili per riconoscere frasi specifiche nell'input audio. Puoi utilizzare le classi per convertire automaticamente i numeri vocali in indirizzi, anni o valute oppure eseguire altre conversioni a seconda del contesto.
Riconoscimento vocale automatico
Il riconoscimento vocale automatico (ASR, Automatic Speech Recognition) si basa su una rete neurale di deep learning ed è destinato alle applicazioni per la ricerca vocale o la trascrizione del parlato.
Vocabolario globale
Riconosce oltre 120 lingue e varianti con un ampio vocabolario.
Streaming in tempo reale o supporto di audio pre-registrato
L'input audio può essere riprodotto in streaming dal microfono di un'applicazione o inviato da un file audio pre-registrato (incorporato o tramite Google Cloud Storage). Sono supportate diverse codifiche audio, tra cui FLAC, AMR, PCMU e Linear-16.
Rilevamento automatico della lingua beta
Quando è necessario supportare scenari multilingue, è ora possibile specificare da due a quattro codici lingua e Speech-to-Text identificherà la lingua parlata corretta fornendone la trascrizione.
Resistenza al rumore
Gestisce gli audio rumorosi provenienti da diversi ambienti senza richiedere ulteriore eliminazione del rumore.
Filtro dei contenuti inappropriati
Filtra i contenuti inappropriati nei risultati testuali per alcune lingue.
Punteggiatura automatica beta
Utilizza la punteggiatura corretta per le trascrizioni (ad es. virgole, punti interrogativi e punti) con il machine learning.
Selezione del modello
Ottimizza il tuo caso d'uso scegliendo tra quattro modelli preconfigurati: predefinito, ricerca e comandi vocali, telefonate e trascrizione video.
Speaker Diarization beta
Chi ha detto cosa? Ora puoi ricevere previsioni automatiche relative a quale parlante in una conversazione ha pronunciato una determinata frase.
Riconoscimento multicanale
Nelle registrazioni con più di un partecipante in cui ogni partecipante viene registrato su un canale distinto (ad es. una telefonata con due canali o una videoconferenza con quattro canali), Cloud Speech-to-Text riconoscerà ciascun canale separatamente e annoterà le trascrizioni in modo che seguano l'ordine reale.

Prezzi

I prezzi di Speech-to-Text vengono calcolati per 15 secondi di audio elaborato dopo un livello gratuito di 60 minuti. Per informazioni dettagliate, consulta la guida ai prezzi.

Funzionalità Modelli standard (tutti i modelli eccetto telefono e video migliorati) Modelli premium (telefono e video migliorati)
0-60 minuti Oltre 60 minuti fino a 1 milione di minuti 0-60 minuti Oltre 60 minuti fino a 1 milione di minuti
Riconoscimento vocale (predefinito, senza logging dei dati) Nessun costo $ 0,006/15 secondi * Nessun costo $ 0,009/15 secondi *
Riconoscimento vocale (con logging dei dati attivato) Nessun costo $ 0,004/15 secondi * Nessun costo $ 0,006/15 secondi *

Questi prezzi si riferiscono alle applicazioni installate nei sistemi personali, ad esempio telefoni, tablet, laptop, desktop. Contattaci per informazioni sull'approvazione e sui prezzi per l'utilizzo dell'API Speech-to-Text nei dispositivi integrati, ad esempio auto, TV, apparecchiature o altoparlanti.

* Ogni richiesta viene arrotondata per eccesso al più vicino incremento di 15 secondi. Ad esempio, per tre richieste separate (modello standard), ciascuna contenente 7 secondi di audio, ti verranno addebitati $ 0,018 per 45 secondi (3×15 secondi) di audio. Nell'arrotondamento per eccesso al più vicino incremento di 15 secondi sono incluse le frazioni di secondo. Ad esempio, 15,14 secondi vengono arrotondati per eccesso e fatturati come 30 secondi.

icona bilanciamento del carico

Un prodotto o una funzionalità in questa pagina è in versione beta. Per ulteriori informazioni sulle fasi di lancio dei nostri prodotti, visita questa pagina.

I prodotti di IA Cloud sono conformi alle norme relative allo SLA (accordo sul livello del servizio) elencate qui. Possono offrire garanzie di latenza o disponibilità diverse rispetto ad altri servizi Google Cloud.