Speech-to-Text

Converti con precisione la voce in testo utilizzando un'API basata sulle tecnologie AI di Google.

  • action/check_circle_24px Creato con Sketch.

    Trascrivi i tuoi contenuti in tempo reale o dai file archiviati

  • action/check_circle_24px Creato con Sketch.

    Offri un'esperienza utente migliore per i prodotti attraverso i comandi vocali

  • action/check_circle_24px Creato con Sketch.

    Acquisisci insight dalle interazioni con i clienti per migliorare il tuo servizio

Vantaggi

Accuratezza all'avanguardia

Applica i più avanzati algoritmi di rete neurale di deep learning di Google per il riconoscimento vocale automatico (ASR).

Copertura globale

Vai incontro ai tuoi utenti ovunque si trovino, a livello globale, grazie alla funzionalità di riconoscimento vocale che supporta oltre 125 lingue e varianti.

Deployment flessibile

Esegui il deployment del riconoscimento vocale ovunque tu ne abbia bisogno, che sia nel cloud con l'API o on-premise con Speech-to-Text On-Prem.

Demo

Metti al lavoro Speech-to-Text

Come in questa demo, puoi integrare facilmente la trascrizione del parlato nelle tue applicazioni con l'API Speech-to-Text.

Funzionalità principali

Funzionalità principali

Adattamento vocale

Personalizza il riconoscimento vocale per trascrivere termini specifici del dominio e parole rare fornendo suggerimenti e aumenta l'accuratezza della trascrizione di parole o frasi specifiche. Puoi convertire automaticamente i numeri vocali in indirizzi, anni, valute e altro ancora utilizzando le classi.

Modelli specifici del dominio

Scegli da una selezione di modelli addestrati per il controllo vocale e la trascrizione di video e chiamate telefoniche, ottimizzati per i requisiti di qualità specifici del dominio. Ad esempio, il nostro modello avanzato per le chiamate telefoniche è ottimizzato per l'audio proveniente da telefonate, come quelle registrate con una frequenza di campionamento pari a 8 kHz.

Riconoscimento vocale di audio in streaming

Ottieni i risultati del riconoscimento vocale in tempo reale mentre l'API elabora l'input audio trasmesso dal microfono della tua applicazione o inviato da un file audio pre-registrato (incorporato o tramite Cloud Storage).

Speech-to-Text On-Prem

Ottieni il pieno controllo dell'infrastruttura e dei dati vocali protetti mentre utilizzi la tecnologia di riconoscimento vocale di Google on-premise, direttamente nei tuoi data center privati. Contatta il team di vendita per iniziare.

Visualizza tutte le funzionalità

Clienti

Novità

Novità

Iscriviti alle newsletter di Google Cloud per ricevere aggiornamenti su prodotti, informazioni sugli eventi, offerte speciali e molto altro.

Documentazione

Documentazione

Nozioni di base su Google Cloud
Nozioni di base su Speech-to-Text

Scopri i concetti fondamentali di Speech-to-Text.

Guida rapida
Guida rapida: utilizzo dello strumento gcloud

Invia una richiesta di trascrizione di audio a Speech-to-Text utilizzando lo strumento gcloud dalla riga di comando.

Best practice
Best practice

Esamina le best practice per la trascrizione di audio con Speech-to-Text.

Nozioni di base su Google Cloud
Lingue supportate

Scopri quali lingue sono disponibili per Speech-to-Text, oltre alle funzionalità e ai modelli di riconoscimento disponibili per ognuna.

Nozioni di base su Google Cloud
Speech-to-Text On-Prem

Scopri di più su Speech-to-Text On-Prem, che consente l'integrazione semplice della tecnologia di riconoscimento vocale di Google nelle soluzioni on-premise.

Casi d'uso

Casi d'uso

Caso d'uso
Migliora il servizio clienti

Potenzia il sistema di assistenza clienti aggiungendo la IVR (risposta vocale interattiva) e le conversazioni con gli agenti ai tuoi call center. Esegui l'analisi dei dati delle conversazioni per acquisire più insight sulle chiamate e sui clienti. Speech-to-Text e i suoi modelli avanzati di chiamata stanno già supportando la potente soluzione di Google Cloud, Contact Center AI.

Flusso di lavoro: i dati si spostano dai dati audio del contact center attraverso i prodotti Google Cloud: da Cloud Storage alla (1) trascrizione con l'API Speech-to-Text, all'API Natural Language, (2) all'analisi con Cloud Data Loss Prevention, (3) all'oscuramento delle PII con BigQuery. Quindi il flusso si sposta in entrambe le direzioni: (4) dall'archiviazione in BigQuery (5) all'esecuzione di query e alla visualizzazione con la funzione di visualizzazione dei dati delle chiamate, e viceversa.
Caso d'uso
Abilita il controllo vocale

Implementa comandi vocali, come "alza il volume", e ricerche vocali, come "qual è la temperatura a Parigi?". In abbinamento all'API Text-to-Speech, puoi offrire esperienze attivate con la voce nelle applicazioni IoT (Internet of Things).

Flusso di lavoro del controllo vocale utilizzando l'API Speech-to-Text Il flusso parte dal (1) comando vocale dell'utente al dispositivo dell'utente con un flusso bidirezionale verso (0) l'identità protetta univoca con Cloud IoT Core e un flusso bidirezionale verso Cloud Functions per (2) passare alla trascrizione con l'API Speech-to-Text e ad AutoML Natural Language con (3) l'estrazione di entità e intent, per tornare a Cloud Functions e al dispositivo dell'utente.
Caso d'uso
Trascrivi contenuti multimediali

Trascrivi audio e video per includere i sottotitoli e migliorare la copertura e l'esperienza del tuo pubblico. Aggiungi sottotitoli in tempo reale ai tuoi contenuti in streaming. Il nostro modello di trascrizione video è ideale per l'indicizzazione o la sottotitolazione di contenuti video e/o multispeaker e utilizza una tecnologia di machine learning simile a quella su cui si basano i sottotitoli di YouTube.

Flusso di lavoro della trascrizione di contenuti multimediali: lo stream audio di input passa attraverso (1) i sottotitoli in tempo reale da Google Kubernetes Engine all'API Speech-to-Text e attraverso (2) la valutazione della trascrizione in Deep Learning VM e in Firestore al team di moderazione dei contenuti o attraverso (3) l'archiviazione e l'utilizzo al dispositivo per la trasmissione di didascalie.

Tutte le funzionalità

Tutte le funzionalità

Vocabolario globale Sostieni la tua base utenti globale con l'ampio supporto per le lingue di Speech-to-Text disponibile per oltre 125 lingue e varianti.
Riconoscimento vocale di audio in streaming Ottieni i risultati del riconoscimento vocale in tempo reale mentre l'API elabora l'input audio trasmesso dal microfono della tua applicazione o inviato da un file audio pre-registrato (incorporato o tramite Cloud Storage).
Adattamento vocale Personalizza il riconoscimento vocale per trascrivere termini specifici del dominio e parole rare fornendo suggerimenti e aumenta l'accuratezza della trascrizione di parole o frasi specifiche. Puoi convertire automaticamente i numeri vocali in indirizzi, anni, valute e altro ancora utilizzando le classi.
Speech-to-Text On-Prem Ottieni il pieno controllo dell'infrastruttura e dei dati vocali protetti mentre utilizzi la tecnologia di riconoscimento vocale di Google on-premise, direttamente nei tuoi data center privati. Contatta il team di vendita per iniziare.
Riconoscimento multicanale Speech-to-Text è in grado di riconoscere canali distinti in situazioni multicanale (ad esempio, videoconferenze) e annotare le trascrizioni per mantenere l'ordine.
Resistenza al rumore Speech-to-Text può gestire audio rumorosi provenienti da diversi ambienti senza la necessità di ulteriore eliminazione del rumore.
Modelli specifici del dominio Scegli da una selezione di modelli addestrati per il controllo vocale, le chiamate telefoniche e la trascrizione dei video ottimizzati per i requisiti di qualità specifici del dominio. Ad esempio, il nostro modello avanzato per le chiamate telefoniche è ottimizzato per l'audio proveniente da telefonate, ad esempio quelle registrate con una frequenza di campionamento pari a 8 kHz.
Filtro dei contenuti Il filtro per il linguaggio volgare ti consente di rilevare contenuti inappropriati o non professionali nei dati audio ed escludere termini volgari nei risultati testuali.
Rilevamento automatico della lingua (beta) Specifica fino a quattro codici lingua e Speech-to-Text identificherà la lingua parlata corretta in scenari multilingue.
Punteggiatura automatica (beta) Speech-to-Text utilizza la punteggiatura corretta per le trascrizioni (ad es. virgole, punti interrogativi e punti).
Speaker Diarization (beta) Chi ha detto cosa? Ora puoi ricevere previsioni automatiche relative a quale parlante in una conversazione ha pronunciato una determinata frase.

Prezzi

Prezzi

I primi 60 minuti di contenuti Speech-to-Text elaborati correttamente ogni mese sono gratuiti, dopodiché il prezzo viene calcolato ogni 15 secondi di audio. Le tariffe specifiche variano a seconda del modello utilizzato, della presenza del logging dei dati e del numero di canali audio.