L'API Cloud Speech-to-Text V2 e Chirp sono ora in disponibilità generale con un nuovo livello di prezzo inferiore. Scopri di più 
Vai a

Speech-to-Text

Converti con precisione la voce in testo, utilizzando un'API basata sulle migliori ricerche e tecnologie AI di Google.

I nuovi clienti ricevono 300 $ di crediti gratuiti da spendere per Speech-to-Text. Tutti i clienti hanno 60 minuti di tempo al mese per trascrivere e analizzare l'audio gratuitamente, senza consumare i crediti.

  • Trascrivi i tuoi contenuti in modo accurato

  • Sfrutta il potenziale della voce per migliorare l'esperienza utente

  • Migliora il servizio offerto, con insight basati sulle interazioni con i clienti

  • Inizia con il nostro tutorial nella console

Vantaggi

Accuratezza all'avanguardia

Sfrutta i più avanzati algoritmi di rete neurale per il deep learning offerti da Google per il riconoscimento vocale automatico (ASR).

Personalizzazione semplificata dei modelli

Sperimenta, crea e gestisci risorse personalizzate con la UI Speech-to-Text.

Deployment flessibile dei modelli

Esegui il deployment di ASR ogni volta che ti serve, nel cloud con l'API oppure on-premise con Speech-to-Text on-prem.

Demo

Metti alla prova Speech-to-Text

Come in questa demo, puoi integrare facilmente la trascrizione del parlato nelle tue applicazioni con l'API Speech-to-Text.

Funzionalità principali

Funzionalità principali

Adattamento vocale

Fornisci suggerimenti per massimizzare l'accuratezza della trascrizione di parole e frasi settoriali o raramente utilizzate. Usa le classi per convertire automaticamente i numeri vocali in indirizzi, anni, valute e molto altro ancora.

Modelli specifici del dominio

Scegli da una selezione di modelli addestrati per il controllo vocale, le chiamate telefoniche e la trascrizione di video, ottimizzati per i requisiti di qualità specifici del dominio. 

Confronto semplificato della qualità

Sperimenta l'audio vocale con la nostra interfaccia utente facile da usare. Prova diverse configurazioni per ottimizzare qualità e accuratezza.

Speech on-device

Esegui gli algoritmi di riconoscimento e sintesi vocale di Google Cloud localmente su qualsiasi dispositivo, indipendentemente dalla connessione a internet. Prometti agli utenti che i loro dati vocali non lasceranno mai il loro dispositivo.

Modello di base per Speech-to-Text

Crea applicazioni vocali per un pubblico globale con modelli vocali basati su Chirp, il modello di base di Google Cloud per la sintesi vocale addestrato con milioni di ore di dati audio e miliardi di frasi di testo. 

Visualizza tutte le funzionalità

Documentazione

Tutorial e risorse per iniziare

Tutorial
Tutorial nella console su Speech-to-Text

Scopri come aggiungere Speech-to-Text alle app esistenti. Inizia con il nostro tutorial nella console.

Nozioni di base su Google Cloud
Nozioni di base su Speech-to-Text

Scopri i concetti fondamentali di Speech-to-Text.

Guida rapida
Guida rapida: utilizzo dell'interfaccia utente di Speech-to-Text

Impara a configurare progetto e autorizzazione, a creare e perfezionare una trascrizione e a utilizzare questa configurazione nella console.

Guida rapida
Guida rapida: utilizzo dello strumento gcloud

Invia una richiesta di trascrizione di audio a Speech-to-Text utilizzando lo strumento gcloud dalla riga di comando.

Best practice
Best practice

Esamina le best practice per la trascrizione di audio con Speech-to-Text.

Tutorial
ML onramp

Scopri tutorial e codelab di Speech-to-Text e molto altro.

Nozioni di base su Google Cloud
Lingue supportate

Scopri quali lingue sono disponibili per Speech-to-Text, oltre alle funzionalità e ai modelli di riconoscimento disponibili per ognuna.

Nozioni di base su Google Cloud
Speech-to-Text on-prem

Scopri di più su Speech-to-Text on-prem, che consente l'integrazione semplice della tecnologia di riconoscimento vocale di Google nelle soluzioni on-premise.

Casi d'uso

Casi d'uso

Caso d'uso
Migliora il servizio clienti

Potenzia il sistema di assistenza clienti aggiungendo la IVR (risposta vocale interattiva) e le conversazioni con gli agenti ai tuoi call center. Esegui l'analisi dei dati delle conversazioni per acquisire più insight sulle chiamate e sui clienti. Speech-to-Text e i suoi modelli avanzati di chiamata stanno già supportando la potente soluzione di Google Cloud, Contact Center AI.

Flusso di lavoro: i dati si spostano dai dati audio del contact center attraverso i prodotti Google Cloud: da Cloud Storage alla (1) trascrizione con l'API Speech-to-Text, all'API Natural Language, (2) all'analisi con Cloud Data Loss Prevention, (3) all'oscuramento delle PII con BigQuery. Quindi il flusso si sposta in entrambe le direzioni: (4) dall'archiviazione in BigQuery (5) all'esecuzione di query e alla visualizzazione con la funzione di visualizzazione dei dati delle chiamate, e viceversa.
Caso d'uso
Abilita il controllo vocale

Implementa comandi vocali, come "alza il volume", e ricerche vocali, come "qual è la temperatura a Milano?". In abbinamento all'API Text-to-Speech, puoi offrire esperienze attivate con la voce nelle applicazioni IoT (internet of Things).

Flusso di lavoro del controllo vocale utilizzando l'API Speech-to-Text Il flusso parte dal (1) comando vocale dell'utente al dispositivo dell'utente con un flusso bidirezionale verso (0) l'identità protetta univoca con Cloud IoT Core e un flusso bidirezionale verso Cloud Functions per (2) passare alla trascrizione con l'API Speech-to-Text e ad AutoML Natural Language con (3) l'estrazione di entità e intent, per tornare a Cloud Functions e al dispositivo dell'utente.
Caso d'uso
Trascrivi contenuti multimediali

Trascrivi audio e video per includere i sottotitoli e migliorare la copertura e l'esperienza del tuo pubblico. Aggiungi sottotitoli in tempo reale ai tuoi contenuti in streaming. Il nostro modello di trascrizione video è ideale per l'indicizzazione o la sottotitolazione di contenuti video e/o multispeaker e utilizza una tecnologia di machine learning simile a quella su cui si basano i sottotitoli di YouTube.

Flusso di lavoro della trascrizione di contenuti multimediali: lo stream audio di input passa attraverso (1) i sottotitoli in tempo reale da Google Kubernetes Engine all'API Speech-to-Text e attraverso (2) la valutazione della trascrizione in Deep Learning VM e in Firestore al team di moderazione dei contenuti o attraverso (3) l'archiviazione e l'utilizzo al dispositivo per la trasmissione di didascalie.

Tutte le funzionalità

Tutte le funzionalità

Vocabolario globale Sostieni la tua base utenti globale con l'ampio supporto per le lingue di Speech-to-Text disponibile per oltre 125 lingue e varianti.
Riconoscimento vocale di audio in streaming Ottieni i risultati del riconoscimento vocale in tempo reale mentre l'API elabora l'input audio trasmesso dal microfono della tua applicazione o inviato da un file audio pre-registrato (incorporato o tramite Cloud Storage).
Adattamento vocale Personalizza il riconoscimento vocale per trascrivere termini specifici del dominio e parole rare fornendo suggerimenti e aumenta l'accuratezza della trascrizione di parole o frasi specifiche. Puoi convertire automaticamente i numeri vocali in indirizzi, anni, valute e altro ancora utilizzando le classi.
Speech-to-Text on-prem Ottieni il pieno controllo dell'infrastruttura e dei dati vocali protetti mentre utilizzi la tecnologia di riconoscimento vocale di Google on-premise, direttamente nei tuoi data center privati. Contatta il team di vendita per iniziare.
Riconoscimento multicanale Speech-to-Text è in grado di riconoscere canali distinti in situazioni multicanale (ad esempio, videoconferenze) e annotare le trascrizioni per mantenere l'ordine.
Resistenza al rumore Speech-to-Text può gestire audio rumorosi provenienti da diversi ambienti senza la necessità di ulteriore eliminazione del rumore.
Modelli specifici del dominio Scegli da una selezione di modelli addestrati per il controllo vocale, le chiamate telefoniche e la trascrizione dei video ottimizzati per i requisiti di qualità specifici del dominio. Ad esempio, il nostro modello avanzato per le chiamate telefoniche è ottimizzato per l'audio proveniente da telefonate, ad esempio quelle registrate con una frequenza di campionamento pari a 8 kHz.
Filtro dei contenuti Il filtro per il linguaggio volgare ti consente di rilevare contenuti inappropriati o non professionali nei dati audio ed escludere termini volgari nei risultati testuali.
Valutazione delle trascrizioni Carica i tuoi dati vocali e trascrivili senza codice. Valuta la qualità eseguendo l'iterazione della tua configurazione.
Punteggiatura automatica (beta) Speech-to-Text utilizza la punteggiatura corretta per le trascrizioni (ad es. virgole, punti interrogativi e punti).
Speaker Diarization (beta) Chi ha detto cosa? Ora puoi ricevere previsioni automatiche relative a quale parlante in una conversazione ha pronunciato una determinata frase.

Prezzi

Prezzi

I prezzi di Speech-to-Text sono calcolati in base alla quantità di audio elaborato correttamente dal servizio ogni mese, misurato in incrementi di un secondo.