Speech-to-Text
Converti con precisione la voce in testo, utilizzando un'API basata sulle migliori ricerche e tecnologie AI di Google.
I nuovi clienti ricevono 300 $ di crediti gratuiti da spendere per Speech-to-Text. Tutti i clienti hanno 60 minuti di tempo al mese per trascrivere e analizzare l'audio gratuitamente, senza consumare i crediti.
-
Trascrivi i tuoi contenuti in modo accurato
-
Sfrutta il potenziale della voce per migliorare l'esperienza utente
-
Migliora il servizio offerto, con insight basati sulle interazioni con i clienti
-
Inizia con il nostro tutorial nella console
Vantaggi
Accuratezza all'avanguardia
Sfrutta i più avanzati algoritmi di rete neurale per il deep learning offerti da Google per il riconoscimento vocale automatico (ASR).
Personalizzazione semplificata dei modelli
Sperimenta, crea e gestisci risorse personalizzate con la UI Speech-to-Text.
Deployment flessibile dei modelli
Esegui il deployment di ASR ogni volta che ti serve, nel cloud con l'API oppure on-premise con Speech-to-Text on-prem.
Demo
Metti alla prova Speech-to-Text
Come in questa demo, puoi integrare facilmente la trascrizione del parlato nelle tue applicazioni con l'API Speech-to-Text.
Funzionalità principali
Funzionalità principali
Adattamento vocale
Fornisci suggerimenti per massimizzare l'accuratezza della trascrizione di parole e frasi settoriali o raramente utilizzate. Usa le classi per convertire automaticamente i numeri vocali in indirizzi, anni, valute e molto altro ancora.
Modelli specifici del dominio
Scegli da una selezione di modelli addestrati per il controllo vocale, le chiamate telefoniche e la trascrizione di video, ottimizzati per i requisiti di qualità specifici del dominio.
Confronto semplificato della qualità
Sperimenta l'audio vocale con la nostra interfaccia utente facile da usare. Prova diverse configurazioni per ottimizzare qualità e accuratezza.
Speech on-device
Esegui gli algoritmi di riconoscimento e sintesi vocale di Google Cloud localmente su qualsiasi dispositivo, indipendentemente dalla connessione a internet. Prometti agli utenti che i loro dati vocali non lasceranno mai il loro dispositivo.
Modello di base per Speech-to-Text
Crea applicazioni vocali per un pubblico globale con modelli vocali basati su Chirp, il modello di base di Google Cloud per la sintesi vocale addestrato con milioni di ore di dati audio e miliardi di frasi di testo.
Clienti
Impara dai clienti che creano soluzioni vocali e audio con Speech-to-Text
Novità
Novità
Iscriviti alle newsletter di Google Cloud per ricevere aggiornamenti sui prodotti, informazioni sugli eventi, offerte speciali e molto altro.
Documentazione
Tutorial e risorse per iniziare
Tutorial nella console su Speech-to-Text
Scopri come aggiungere Speech-to-Text alle app esistenti. Inizia con il nostro tutorial nella console.
Nozioni di base su Speech-to-Text
Scopri i concetti fondamentali di Speech-to-Text.
Guida rapida: utilizzo dell'interfaccia utente di Speech-to-Text
Impara a configurare progetto e autorizzazione, a creare e perfezionare una trascrizione e a utilizzare questa configurazione nella console.
Guida rapida: utilizzo dello strumento gcloud
Invia una richiesta di trascrizione di audio a Speech-to-Text utilizzando lo strumento gcloud dalla riga di comando.
Best practice
Esamina le best practice per la trascrizione di audio con Speech-to-Text.
ML onramp
Scopri tutorial e codelab di Speech-to-Text e molto altro.
Lingue supportate
Scopri quali lingue sono disponibili per Speech-to-Text, oltre alle funzionalità e ai modelli di riconoscimento disponibili per ognuna.
Speech-to-Text on-prem
Scopri di più su Speech-to-Text on-prem, che consente l'integrazione semplice della tecnologia di riconoscimento vocale di Google nelle soluzioni on-premise.
Casi d'uso
Casi d'uso
Potenzia il sistema di assistenza clienti aggiungendo la IVR (risposta vocale interattiva) e le conversazioni con gli agenti ai tuoi call center. Esegui l'analisi dei dati delle conversazioni per acquisire più insight sulle chiamate e sui clienti. Speech-to-Text e i suoi modelli avanzati di chiamata stanno già supportando la potente soluzione di Google Cloud, Contact Center AI.
Implementa comandi vocali, come "alza il volume", e ricerche vocali, come "qual è la temperatura a Milano?". In abbinamento all'API Text-to-Speech, puoi offrire esperienze attivate con la voce nelle applicazioni IoT (internet of Things).
Trascrivi audio e video per includere i sottotitoli e migliorare la copertura e l'esperienza del tuo pubblico. Aggiungi sottotitoli in tempo reale ai tuoi contenuti in streaming. Il nostro modello di trascrizione video è ideale per l'indicizzazione o la sottotitolazione di contenuti video e/o multispeaker e utilizza una tecnologia di machine learning simile a quella su cui si basano i sottotitoli di YouTube.
Tutte le funzionalità
Tutte le funzionalità
Vocabolario globale | Sostieni la tua base utenti globale con l'ampio supporto per le lingue di Speech-to-Text disponibile per oltre 125 lingue e varianti. |
Riconoscimento vocale di audio in streaming | Ottieni i risultati del riconoscimento vocale in tempo reale mentre l'API elabora l'input audio trasmesso dal microfono della tua applicazione o inviato da un file audio pre-registrato (incorporato o tramite Cloud Storage). |
Adattamento vocale | Personalizza il riconoscimento vocale per trascrivere termini specifici del dominio e parole rare fornendo suggerimenti e aumenta l'accuratezza della trascrizione di parole o frasi specifiche. Puoi convertire automaticamente i numeri vocali in indirizzi, anni, valute e altro ancora utilizzando le classi. |
Speech-to-Text on-prem | Ottieni il pieno controllo dell'infrastruttura e dei dati vocali protetti mentre utilizzi la tecnologia di riconoscimento vocale di Google on-premise, direttamente nei tuoi data center privati. Contatta il team di vendita per iniziare. |
Riconoscimento multicanale | Speech-to-Text è in grado di riconoscere canali distinti in situazioni multicanale (ad esempio, videoconferenze) e annotare le trascrizioni per mantenere l'ordine. |
Resistenza al rumore | Speech-to-Text può gestire audio rumorosi provenienti da diversi ambienti senza la necessità di ulteriore eliminazione del rumore. |
Modelli specifici del dominio | Scegli da una selezione di modelli addestrati per il controllo vocale, le chiamate telefoniche e la trascrizione dei video ottimizzati per i requisiti di qualità specifici del dominio. Ad esempio, il nostro modello avanzato per le chiamate telefoniche è ottimizzato per l'audio proveniente da telefonate, ad esempio quelle registrate con una frequenza di campionamento pari a 8 kHz. |
Filtro dei contenuti | Il filtro per il linguaggio volgare ti consente di rilevare contenuti inappropriati o non professionali nei dati audio ed escludere termini volgari nei risultati testuali. |
Valutazione delle trascrizioni | Carica i tuoi dati vocali e trascrivili senza codice. Valuta la qualità eseguendo l'iterazione della tua configurazione. |
Punteggiatura automatica (beta) | Speech-to-Text utilizza la punteggiatura corretta per le trascrizioni (ad es. virgole, punti interrogativi e punti). |
Speaker Diarization (beta) | Chi ha detto cosa? Ora puoi ricevere previsioni automatiche relative a quale parlante in una conversazione ha pronunciato una determinata frase. |
Prezzi
Prezzi
I prezzi di Speech-to-Text sono calcolati in base alla quantità di audio elaborato correttamente dal servizio ogni mese, misurato in incrementi di un secondo.