API Cloud Speech

Conversione da parlato a testo tramite la tecnologia di machine learning

Provalo gratis Visualizza la documentazione

Efficace funzionalità di riconoscimento vocale

L'API Google Cloud Speech consente agli sviluppatori di convertire l'audio in testo applicando efficaci modelli di rete neurale in un'API semplice da usare. L'API riconosce oltre 80 lingue e varianti, per supportare la base utenti globale. Puoi trascrivere il testo degli utenti dettando al microfono di un'applicazione, abilitare il comando e il controllo tramite la voce o trascrivere file audio, oltre a tanti altri casi d'uso. Puoi riconoscere l'audio caricato nella richiesta ed eseguire l'integrazione con il supporto di archiviazione audio in Google Cloud Storage, tramite la stessa tecnologia che Google usa nei propri prodotti.

speech-api-lead

Con tecnologia di machine learning

Applica i più avanzati algoritmi di rete neurale di deep learning all'audio dell'utente per il riconoscimento vocale con una precisione mai vista prima. La precisione dell'API Cloud Speech migliora con il passare del tempo a mano a mano che Google ottimizza la tecnologia di riconoscimento vocale interna utilizzata dai prodotti Google.

Oltre 80 lingue

L'API Cloud Speech è in grado di riconoscere più di 80 lingue e varianti per supportare la base di utenti globale. Puoi anche filtrare i contenuti inappropriati nei risultati testuali.

Tornare ai risultati testuali in tempo reale

L'API Cloud Speech è in grado di trasmettere risultati testuali, restituendo risultati con riconoscimento parziale a mano a mano che diventano disponibili, in cui il testo riconosciuto compare immediatamente mentre si parla. In alternativa, l'API Cloud Speech può restituire il testo riconosciuto dall'audio archiviato in un file.

Massima precisione negli ambienti rumorosi

Prima di inviare l'audio all'API Cloud Speech non serve ricorrere all'elaborazione avanzata del segnale o all'eliminazione del rumore. Il servizio può tranquillamente gestire l'audio rumoroso da un'ampia varietà di ambienti.

Riconoscimento sensibile al contesto

Il riconoscimento vocale può essere adattato al contesto offrendo un set di suggerimenti di parole distinto per ogni chiamata API. Questo è utile in particolar modo per i casi d'uso in cui è previsto il controllo di app e dispositivi.

Funziona con le app installate in qualsiasi dispositivo

L'API Cloud Speech supporta tutti i dispositivi in grado di inviare una richiesta REST o gRPC, tra cui telefoni, PC, tablet e dispositivi IoT (ad esempio auto, TV, altoparlanti)

Funzionalità dell'API Cloud Speech

Conversione da parlato a testo tramite la tecnologia di machine learning

Riconoscimento vocale automatico
Il riconoscimento vocale automatico si basa su una rete neurale di deep learning ed è destinato alle applicazioni per la ricerca vocale o la trascrizione del parlato.
Vocabolario globale
Riconosce oltre 80 lingue e varianti con un vocabolario esteso.
Riconoscimento in streaming
Restituisce i risultati del riconoscimento mentre l'utente sta ancora parlando.
Suggerimenti di parole
Il riconoscimento vocale può essere personalizzato in base a un contesto specifico tramite un set di parole e frasi che potrebbero essere pronunciate. È particolarmente utile per aggiungere parole e nomi personalizzati al vocabolario e nei casi d'uso di controllo vocale.
Supporto audio in tempo reale o pre-registrato
L'input audio può essere acquisito dal microfono dell'applicazione o inviato da un file audio pre-registrato. Diverse codifiche audio supportate, tra cui FLAC, AMR, PCMU e Linear-16.
Resistenza al rumore
Gestisce gli audio rumorosi provenienti da diversi ambienti senza richiedere ulteriori tecniche per l'eliminazione del rumore.
Filtro dei contenuti inappropriati
Filtra i contenuti inappropriati nei risultati testuali per alcune lingue.
API integrata
I file audio possono essere caricati nella richiesta o integrati con Google Cloud Storage.

PREZZI DELL'API CLOUD SPEECH

Efficace funzionalità di riconoscimento vocale

I prezzi dell'API Cloud Speech vengono calcolati su ogni 15 secondi di audio elaborato dopo un livello gratuito di 60 minuti. Per informazioni dettagliate, consulta la guida ai prezzi.

Utilizzo mensile Prezzo per 15 secondi*
0 - 60 minuti Gratis
61 - 1.000.000 minuti** $ 0,006

* Questi prezzi si riferiscono alle applicazioni installate nei sistemi personali (ad esempio telefoni, tablet, laptop, desktop). Contattaci per informazioni sull'approvazione e sui prezzi per l'utilizzo dell'API Cloud Speech nei dispositivi integrati (ad esempio auto, TV, apparecchiature o altoparlanti).

** Il limite di utilizzo mensile è pari a 1 milione di minuti al mese