Cloud Speech-to-Text

Conversione della voce in testo basata sulla tecnologia di machine learning, disponibile per audio di breve o lunga durata.

Fai una prova gratuita

Visualizza la documentazione per questo prodotto.

Efficace funzionalità di riconoscimento vocale

Google Cloud Speech-to-Text consente agli sviluppatori di convertire l'audio in testo applicando efficaci modelli di rete neurale in un'API semplice da usare. L'API riconosce 120 lingue e varianti per supportare la base utenti globale. Puoi attivare il riconoscimento dei controlli e dei comandi vocali, trascrivere l'audio dei call center e molto altro. L'API può anche elaborare lo streaming in tempo reale o l'audio pre-registrato, grazie alla tecnologia di machine learning di Google.

speech-api-lead

Converti la voce in testo ora *

Seleziona una lingua e fai clic su "Inizia ora" per avviare la registrazione

* Questa demo si basa su un'applicazione/interfaccia utente di esempio creata utilizzando l'API Cloud Text-to-Speech

Sfrutta la tecnologia del machine learning

Applica i più avanzati algoritmi di rete neurale di deep learning all'audio per il riconoscimento vocale con un'accuratezza senza precedenti. L'accuratezza di Cloud Speech-to-Text migliora nel tempo man mano che Google ottimizza la tecnologia di riconoscimento vocale interna utilizzata dai prodotti Google.

Riconosce 120 lingue e varianti

Cloud Speech-to-Text può supportare la tua base utenti globale, riconoscendo 120 lingue e varianti. Puoi anche filtrare contenuti inappropriati nei risultati testuali in tutte le lingue.

Identifica automaticamente la lingua parlata

Grazie a Cloud Speech-to-Text puoi identificare la lingua parlata nelle frasi pronunciate (con un limite di quattro lingue). Questa opzione può essere utilizzata per la ricerca vocale (ad esempio "Qual è la temperatura a Parigi?") e per i casi d'uso di comandi (ad esempio "Alza il volume").

Restituisce la trascrizione del testo in tempo reale per audio di breve o lunga durata

Cloud Speech-to-Text può riprodurre in streaming i risultati di testo, restituendo immediatamente il testo non appena viene riconosciuto dall'audio in streaming o mentre l'utente parla. In alternativa, Cloud Speech-to-Text può restituire il testo riconosciuto dall'audio archiviato in un file. È in grado di analizzare audio di breve o lunga durata.

Trascrive automaticamente nomi propri e formattazione specifica in base al contesto

L'API Cloud Speech-to-Text è concepita per funzionare in maniera ottimale con il linguaggio reale ed è in grado di trascrivere i nomi propri in modo accurato (ad esempio Sundar Pichai) e di formattare la lingua in maniera appropriata (come date e numeri di telefono). Google supporta una quantità di nomi propri dieci volte superiore al numero delle parole nell'intero Oxford English Dictionary.

Offre una selezione di modelli preconfigurati, su misura per il tuo caso d'uso

L'API Cloud Speech-to-Text fornisce più modelli di riconoscimento vocale preconfigurati che possono essere ottimizzati in base al tuo caso d'uso (ad esempio comandi vocali). Esempio: il nostro modello di trascrizione video preconfigurato è ideale per l'indicizzazione o la sottotitolazione di contenuti video e/o multispeaker e utilizza la tecnologia di machine learning simile a quella su cui si basano i sottotitoli di YouTube.

Modello Descrizione
command_and_search Ideale per brevi query come comandi vocali o ricerca vocale.
phone_call Ideale per audio proveniente da una telefonata (normalmente registrata con una frequenza di campionamento pari a 8 kHz).
video Ideale per audio proveniente da video o che include più interlocutori. L'audio viene registrato preferibilmente con una frequenza di campionamento pari a 16 kHz o superiore. Questo è un modello premium con un costo più alto rispetto alla tariffa standard.
default Ideale per audio diverso dagli altri modelli audio specifici, ad esempio audio di lunga durata. L'audio è ad alta precisione, preferibilmente registrato con una frequenza di campionamento pari a 16 kHz o superiore.

Funzionalità di Cloud Speech-to-Text

Conversione da voce a testo basata sulla tecnologia di machine learning.

Riconoscimento vocale automatico
Il riconoscimento vocale automatico (ASR, Automatic Speech Recognition) si basa su una rete neurale di deep learning ed è destinato alle applicazioni per la ricerca vocale o la trascrizione del parlato.
Vocabolario globale
Riconosce 120 lingue e varianti con un ampio vocabolario.
Riconoscimento vocale personalizzato
Personalizza manualmente il riconoscimento vocale per la tua attività specificando fino a 5000 parole o frasi che potrebbero essere pronunciate, ad esempio i nomi dei prodotti. Inoltre, puoi convertire automaticamente i numeri vocali in indirizzi, anni o valute oppure eseguire altre conversioni a seconda del contesto.
Streaming in tempo reale o supporto di audio pre-registrato
L'input audio può essere riprodotto in streaming dal microfono di un'applicazione o inviato da un file audio pre-registrato (incorporato o tramite Google Cloud Storage). Sono supportate diverse codifiche audio, tra cui FLAC, AMR, PCMU e Linear-16.
Rilevazione automatica della lingua BETA
Quando è necessario supportare scenari multilingue, è ora possibile specificare da due a quattro codici lingua e Cloud Speech-to-Text identificherà la lingua parlata corretta fornendone la trascrizione.
Resistenza al rumore
Gestisce gli audio rumorosi provenienti da diversi ambienti senza richiedere ulteriore eliminazione del rumore.
Filtro dei contenuti inappropriati
Filtra i contenuti inappropriati nei risultati testuali per alcune lingue.
Punteggiatura automatica BETA
Utilizza la punteggiatura corretta per le trascrizioni (ad es. virgole, punti interrogativi e punti) con il machine learning.
Selezione del modello
Scegli da una selezione di quattro modelli preconfigurati: predefinito, ricerca e comandi vocali, telefonate e trascrizione video.
Speaker diarization BETA
Chi ha detto cosa? Ora puoi ricevere previsioni automatiche relative a quale parlante in una conversazione ha pronunciato una determinata frase.
Riconoscimento multicanale
Nelle registrazioni con più di un partecipante in cui ogni partecipante viene registrato su un canale distinto (ad es. una telefonata con due canali o una videoconferenza con quattro canali), Cloud Speech-to-Text riconoscerà ciascun canale separatamente e annoterà le trascrizioni in modo che seguano l'ordine reale.

Prezzi dell'API Cloud Speech-to-Text

Efficace funzionalità di riconoscimento vocale.

I prezzi di Cloud Speech-to-Text vengono calcolati per 15 secondi di audio elaborato dopo un livello gratuito di 60 minuti. Per informazioni dettagliate, consulta la guida ai prezzi.

Funzionalità Modelli standard (tutti i modelli eccetto telefono e video migliorati) Modelli premium* (telefono e video migliorati)
0-60 minuti Oltre 60 minuti fino a 1 milione di minuti 0-60 minuti Oltre 60 minuti fino a 1 milione di minuti
Riconoscimento vocale (predefinito senza logging dei dati) Nessun costo $ 0,006/15 secondi ** Nessun costo $ 0,009/15 secondi **
Riconoscimento vocale (con attivazione logging dei dati) Nessun costo $ 0,004/15 secondi ** Nessun costo $ 0,006/15 secondi **

Questi prezzi si riferiscono alle applicazioni installate nei sistemi personali (ad esempio telefoni, tablet, laptop, desktop). Contattaci per l'approvazione e la determinazione del prezzo per l'utilizzo dell'API Cloud Speech-to-Text nei dispositivi integrati, ad esempio auto, TV, apparecchiature o altoparlanti.

* Attualmente disponibile solo in inglese (Stati Uniti)

** Ogni richiesta viene arrotondata per eccesso al più vicino incremento di 15 secondi. Ad esempio, per tre richieste separate (modello standard), ciascuna contenente 7 secondi di audio, ti verranno addebitati $ 0,018 per 45 secondi (3×15 secondi) di audio. Nell'arrotondamento per eccesso al più vicino incremento di 15 secondi sono incluse le frazioni di secondo. Ad esempio, 15,14 secondi vengono arrotondati per eccesso e fatturati come 30 secondi.

icona bilanciamento del carico

I prodotti o le funzionalità elencati in questa pagina sono in versione beta. Per ulteriori informazioni sulle fasi di lancio dei nostri prodotti, visita questa pagina.

I prodotti di IA Cloud sono conformi alle norme relative allo SLA (accordo sul livello del servizio) elencate qui. Possono offrire garanzie di latenza o disponibilità diverse rispetto ad altri servizi Google Cloud.

Invia feedback per...

Cloud Speech-to-Text