Speech-to-Text
Converti con precisione la voce in testo, utilizzando un'API basata sulle migliori ricerche e tecnologie AI di Google.
I nuovi clienti ricevono 300 $ di crediti gratuiti da spendere per Speech-to-Text. Tutti i clienti hanno 60 minuti di tempo al mese per trascrivere e analizzare l'audio gratuitamente, senza consumare i crediti.
-
Trascrivi i tuoi contenuti in modo accurato
-
Sfrutta il potenziale della voce per migliorare l'esperienza utente
-
Migliora il servizio offerto, con insight basati sulle interazioni con i clienti
-
Inizia con il nostro tutorial nella console
Vantaggi
Accuratezza all'avanguardia
Sfrutta i più avanzati algoritmi di rete neurale per il deep learning offerti da Google per il riconoscimento vocale automatico (ASR).
Personalizzazione semplificata dei modelli
Sperimenta, crea e gestisci risorse personalizzate con la UI Speech-to-Text.
Deployment flessibile dei modelli
Esegui il deployment di ASR ogni volta che ti serve, nel cloud con l'API oppure on-premise con Speech-to-Text On-Prem.
Demo
Metti alla prova Speech-to-Text
Come in questa demo, puoi integrare facilmente la trascrizione del parlato nelle tue applicazioni con l'API Speech-to-Text.
Funzionalità principali
Funzionalità principali
Adattamento vocale
Fornisci suggerimenti per massimizzare l'accuratezza della trascrizione di parole e frasi settoriali o raramente utilizzate. Usa le classi per convertire automaticamente i numeri vocali in indirizzi, anni, valute e molto altro ancora.
Modelli specifici del dominio
Scegli da una selezione di modelli addestrati per il controllo vocale, le chiamate telefoniche e la trascrizione di video, ottimizzati per i requisiti di qualità specifici del dominio.
Confronto semplificato della qualità
Sperimenta l'audio vocale con la nostra interfaccia utente facile da usare. Prova diverse configurazioni per ottimizzare qualità e accuratezza.
Speech-to-Text On-Prem
Mantieni il controllo dell'infrastruttura e dei dati vocali protetti, sfruttando la tecnologia di riconoscimento vocale di Google on-premise, nei tuoi data center privati. Contatta il team di vendita per iniziare.
Speech On-Device
Esegui gli algoritmi di riconoscimento e sintesi vocale di Google Cloud localmente su qualsiasi dispositivo, indipendentemente dalla connessione a Internet. Prometti agli utenti che i loro dati vocali non lasceranno mai il loro dispositivo.
Clienti
Impara dai clienti che creano soluzioni vocali e audio con Speech-to-Text
Novità
Novità
Iscriviti alle newsletter di Google Cloud per ricevere aggiornamenti sui prodotti, informazioni sugli eventi, offerte speciali e molto altro.
Documentazione
Tutorial e risorse per iniziare
Tutorial nella console su Speech-to-Text
Scopri come aggiungere Speech-to-Text alle app esistenti. Inizia con il nostro tutorial nella console.
Nozioni di base su Speech-to-Text
Scopri i concetti fondamentali di Speech-to-Text.
Guida rapida: utilizzo dell'interfaccia utente di Speech-to-Text
Impara a configurare progetto e autorizzazione, a creare e perfezionare una trascrizione e a utilizzare questa configurazione nella console.
Guida rapida: utilizzo dello strumento gcloud
Invia una richiesta di trascrizione di audio a Speech-to-Text utilizzando lo strumento gcloud dalla riga di comando.
Best practice
Esamina le best practice per la trascrizione di audio con Speech-to-Text.
ML onramp
Scopri tutorial e codelab di Speech-to-Text e molto altro.
Lingue supportate
Scopri quali lingue sono disponibili per Speech-to-Text, oltre alle funzionalità e ai modelli di riconoscimento disponibili per ognuna.
Speech-to-Text On-Prem
Scopri di più su Speech-to-Text On-Prem, che consente l'integrazione semplice della tecnologia di riconoscimento vocale di Google nelle soluzioni on-premise.
Casi d'uso
Casi d'uso
Potenzia il sistema di assistenza clienti aggiungendo la IVR (risposta vocale interattiva) e le conversazioni con gli agenti ai tuoi call center. Esegui l'analisi dei dati delle conversazioni per acquisire più insight sulle chiamate e sui clienti. Speech-to-Text e i suoi modelli avanzati di chiamata stanno già supportando la potente soluzione di Google Cloud, Contact Center AI.
Implementa comandi vocali, come "alza il volume", e ricerche vocali, come "qual è la temperatura a Milano?". In abbinamento all'API Text-to-Speech, puoi offrire esperienze attivate con la voce nelle applicazioni IoT (Internet of Things).
Trascrivi audio e video per includere i sottotitoli e migliorare la copertura e l'esperienza del tuo pubblico. Aggiungi sottotitoli in tempo reale ai tuoi contenuti in streaming. Il nostro modello di trascrizione video è ideale per l'indicizzazione o la sottotitolazione di contenuti video e/o multispeaker e utilizza una tecnologia di machine learning simile a quella su cui si basano i sottotitoli di YouTube.
Tutte le funzionalità
Tutte le funzionalità
Vocabolario globale | Sostieni la tua base utenti globale con l'ampio supporto per le lingue di Speech-to-Text disponibile per oltre 125 lingue e varianti. |
Riconoscimento vocale di audio in streaming | Ottieni i risultati del riconoscimento vocale in tempo reale mentre l'API elabora l'input audio trasmesso dal microfono della tua applicazione o inviato da un file audio pre-registrato (incorporato o tramite Cloud Storage). |
Adattamento vocale | Personalizza il riconoscimento vocale per trascrivere termini specifici del dominio e parole rare fornendo suggerimenti e aumenta l'accuratezza della trascrizione di parole o frasi specifiche. Puoi convertire automaticamente i numeri vocali in indirizzi, anni, valute e altro ancora utilizzando le classi. |
Speech-to-Text On-Prem | Ottieni il pieno controllo dell'infrastruttura e dei dati vocali protetti mentre utilizzi la tecnologia di riconoscimento vocale di Google on-premise, direttamente nei tuoi data center privati. Contatta il team di vendita per iniziare. |
Riconoscimento multicanale | Speech-to-Text è in grado di riconoscere canali distinti in situazioni multicanale (ad esempio, videoconferenze) e annotare le trascrizioni per mantenere l'ordine. |
Resistenza al rumore | Speech-to-Text può gestire audio rumorosi provenienti da diversi ambienti senza la necessità di ulteriore eliminazione del rumore. |
Modelli specifici del dominio | Scegli da una selezione di modelli addestrati per il controllo vocale, le chiamate telefoniche e la trascrizione dei video ottimizzati per i requisiti di qualità specifici del dominio. Ad esempio, il nostro modello avanzato per le chiamate telefoniche è ottimizzato per l'audio proveniente da telefonate, ad esempio quelle registrate con una frequenza di campionamento pari a 8 kHz. |
Filtro dei contenuti | Il filtro per il linguaggio volgare ti consente di rilevare contenuti inappropriati o non professionali nei dati audio ed escludere termini volgari nei risultati testuali. |
Valutazione delle trascrizioni | Carica i tuoi dati vocali e trascrivili senza codice. Valuta la qualità eseguendo l'iterazione della tua configurazione. |
Punteggiatura automatica (beta) | Speech-to-Text utilizza la punteggiatura corretta per le trascrizioni (ad es. virgole, punti interrogativi e punti). |
Speaker Diarization (beta) | Chi ha detto cosa? Ora puoi ricevere previsioni automatiche relative a quale parlante in una conversazione ha pronunciato una determinata frase. |
Prezzi
Prezzi
I prezzi di Speech-to-Text sono calcolati in base alla quantità di audio elaborato correttamente dal servizio ogni mese, misurato in incrementi di un secondo.