Converti l'audio in trascrizioni di testo e integra il riconoscimento vocale nelle applicazioni grazie ad API facili da usare.
I nuovi clienti ricevono anche fino a 300 $ di crediti gratuiti per provare Speech-to-Text e altri prodotti Google Cloud.
Funzionalità
Speech-to-Text può utilizzare Chirp, il modello di base di Google Cloud per la sintesi vocale, addestrato con milioni di ore di dati audio e miliardi di frasi di testo. Ciò è in contrasto con le tecniche tradizionali di riconoscimento vocale che si concentrano su grandi quantità di dati supervisionati specifici per lingua. Queste tecniche migliorano il riconoscimento e la trascrizione di più lingue parlate e accenti.
Crea per una base utenti globale con un ampio supporto linguistico. Trascrivi dati audio brevi, lunghi e persino in streaming. Speech-to-Text offre inoltre agli utenti traduzioni e riconoscimento più precisi e globali con Chirp, la nuova generazione di modelli vocali universali. Chirp è stato creato utilizzando l'addestramento autonomo su milioni di ore di audio e 28 miliardi di frasi di testo in più di 100 lingue.
Scegli da una selezione di modelli addestrati per il controllo vocale, le chiamate telefoniche e la trascrizione di video, ottimizzati per i requisiti di qualità specifici del dominio. Personalizza, sperimenta, crea e gestisci facilmente risorse personalizzate con la UI Speech-to-Text.
L'API Speech-to-Text v2 offre ai clienti Business ed Enterprise ulteriori requisiti normativi e di sicurezza, fin dal primo avvio. La residenza dei dati consente di chiamare modelli di trascrizione tramite un servizio completamente regionalizzato che sfrutta le regioni di Google Cloud come Singapore e Belgio. Il riconoscimento intraprendente elimina la necessità di account di servizio dedicati per l'autenticazione e l'autorizzazione. I log per la generazione e la trascrizione delle risorse sono resi facilmente disponibili nella console Google Cloud. L'API Speech-to-Text v2 offre una crittografia di livello aziendale con chiavi di crittografia gestite dal cliente per tutte le risorse, oltre alla trascrizione batch.
Speech-to-Text utilizza l'adattamento del modello per migliorare l'accuratezza delle parole usate di frequente, ampliare il vocabolario disponibile per la trascrizione e migliorare la trascrizione da audio rumorosi. L'adattamento del modello consente agli utenti di personalizzare Speech-to-Text per riconoscere parole o frasi specifiche più spesso rispetto ad altre opzioni che altrimenti potrebbero essere suggerite. Ad esempio, potresti indirizzare Speech-to-Text a trascrivere "distinto" piuttosto che "d'istinto".
Ottieni i risultati del riconoscimento vocale in tempo reale mentre l'API elabora l'input audio trasmesso dal microfono della tua applicazione o inviato da un file audio pre-registrato (incorporato o tramite Cloud Storage).
Personalizza il riconoscimento vocale per trascrivere termini specifici del dominio e parole rare fornendo suggerimenti e aumenta l'accuratezza della trascrizione di parole o frasi specifiche. Puoi convertire automaticamente i numeri vocali in indirizzi, anni, valute e altro ancora utilizzando le classi.
Ottieni il pieno controllo dell'infrastruttura e dei dati vocali protetti mentre utilizzi la tecnologia di riconoscimento vocale di Google on-premise, direttamente nei tuoi data center privati. Contatta il team di vendita per iniziare.
Speech-to-Text è in grado di riconoscere canali distinti in situazioni multicanale (ad esempio, videoconferenze) e annotare le trascrizioni per mantenere l'ordine.
Speech-to-Text può gestire audio rumorosi provenienti da diversi ambienti senza la necessità di ulteriore cancellazione del rumore.
Scegli da una selezione di modelli addestrati per il controllo vocale, le chiamate telefoniche e la trascrizione dei video ottimizzati per i requisiti di qualità specifici del dominio. Ad esempio, il nostro modello avanzato per le chiamate telefoniche è ottimizzato per l'audio proveniente da telefonate, ad esempio quelle registrate con una frequenza di campionamento pari a 8 kHz.
Il filtro per il linguaggio volgare ti consente di rilevare contenuti inappropriati o non professionali nei dati audio ed escludere termini volgari nei risultati testuali.
Carica i tuoi dati vocali e trascrivili senza codice. Valuta la qualità eseguendo l'iterazione della tua configurazione.
Speech-to-Text utilizza la punteggiatura corretta per le trascrizioni, ad esempio fornendo virgole, punti interrogativi e punti.
Chi ha detto cosa? Ora puoi ricevere previsioni automatiche relative a quale parlante in una conversazione ha pronunciato una determinata frase.
Come funziona
Speech-to-Text prevede tre metodi principali per eseguire il riconoscimento vocale: sincrono, asincrono e in streaming. Ogni metodo restituisce risultati testuali a seconda che sia necessaria la trascrizione in fase di post-elaborazione, periodicamente o in tempo reale. In breve, inserisci i dati audio e ricevi una risposta testuale.
Demo
Crea rapidamente una trascrizione audio a partire dal caricamento di un file o parlando direttamente nel microfono.
Utilizzi comuni
Crea una trascrizione audio
Scopri come utilizzare l'API Speech-to-Text dalla console Cloud, creando una trascrizione audio in pochi passaggi. Puoi anche trascrivere audio breve, lungo e in streaming.
Crea una trascrizione audio
Scopri come utilizzare l'API Speech-to-Text dalla console Cloud, creando una trascrizione audio in pochi passaggi. Puoi anche trascrivere audio breve, lungo e in streaming.
Come aggiungere Speech-to-Text alle app
Scopri come abilitare in modo facile e veloce Speech-to-Text per la tua applicazione con Google Cloud. Questo video spiega come aggiungere l'IA alla tua applicazione senza avere una vasta esperienza con i modelli di machine learning. Utilizzando l'API Speech-to-Text preaddestrata, potrai abilitare in modo facile e veloce l'IA per la tua applicazione.
Come aggiungere Speech-to-Text alle app
Scopri come abilitare in modo facile e veloce Speech-to-Text per la tua applicazione con Google Cloud. Questo video spiega come aggiungere l'IA alla tua applicazione senza avere una vasta esperienza con i modelli di machine learning. Utilizzando l'API Speech-to-Text preaddestrata, potrai abilitare in modo facile e veloce l'IA per la tua applicazione.
Lingua, voce, testo e traduzione con le API Google Cloud
In questo corso userai l'API Speech-to-Text per trascrivere un file audio in un file di testo, tradurlo con l'API Google Cloud Translation e creare audio di sintesi vocale con Natural Language AI.
Lingua, voce, testo e traduzione con le API Google Cloud
In questo corso userai l'API Speech-to-Text per trascrivere un file audio in un file di testo, tradurlo con l'API Google Cloud Translation e creare audio di sintesi vocale con Natural Language AI.
Prezzi
Come funzionano i prezzi di Speech-to-Text | I prezzi di Speech-to-Text si basano sulla versione dell'API, sui canali, sui metodi batch e su eventuali costi aggiuntivi dei servizi Google Cloud, come l'archiviazione. | |
---|---|---|
Versione API | Servizio e funzionalità | Prezzi |
API Speech-to-Text V1 | La versione 1 offre la residenza dei dati solo per più regioni. I modelli includono short, long, telefonia e video. La versione 1 non include l'audit log. I nuovi clienti ricevono 300 $ di crediti gratuiti e 60 minuti al mese per trascrivere e analizzare l'audio gratuitamente, senza consumare i crediti. | 0,024 $ al minuto |
API Speech-to-Text V2 | La versione 2 offre la residenza dei dati per regioni singole e multiple. I modelli includono short, long, telefonia, video e Chirp. La versione 2 include audit log e supporto per chiavi di crittografia gestite dal cliente. | 0,016 $ al minuto |
Visualizza i dettagli dei prezzi di Speech-to-Text.
Come funzionano i prezzi di Speech-to-Text
I prezzi di Speech-to-Text si basano sulla versione dell'API, sui canali, sui metodi batch e su eventuali costi aggiuntivi dei servizi Google Cloud, come l'archiviazione.
API Speech-to-Text V1
La versione 1 offre la residenza dei dati solo per più regioni. I modelli includono short, long, telefonia e video. La versione 1 non include l'audit log. I nuovi clienti ricevono 300 $ di crediti gratuiti e 60 minuti al mese per trascrivere e analizzare l'audio gratuitamente, senza consumare i crediti.
0,024 $
al minuto
API Speech-to-Text V2
La versione 2 offre la residenza dei dati per regioni singole e multiple. I modelli includono short, long, telefonia, video e Chirp. La versione 2 include audit log e supporto per chiavi di crittografia gestite dal cliente.
0,016 $
al minuto
Visualizza i dettagli dei prezzi di Speech-to-Text.