Speech-to-Text

Converti con precisione la voce in testo utilizzando un'API basata sulle tecnologie AI di Google.

Fai una prova gratuita
  • action/check_circle_24px Creato con Sketch.

    Trascrivi i tuoi contenuti in modo accurato

  • action/check_circle_24px Creato con Sketch.

    Offri un'esperienza utente migliore per i prodotti attraverso i comandi vocali

  • action/check_circle_24px Creato con Sketch.

    Acquisisci informazioni avanzate dalle interazioni con i clienti per migliorare il tuo servizio

Accuratezza all'avanguardia

Applica i più avanzati algoritmi di rete neurale di deep learning di Google per il riconoscimento vocale automatico (ASR).

Copertura globale

Incontra i tuoi utenti ovunque si trovino, a livello globale, grazie alla funzionalità di riconoscimento vocale che supporta oltre 125 lingue e varianti.

Innovazione accelerata

Collega il meglio delle tecnologie Google con Text-to-Speech e Natural Language per generare casi d'uso come bot di voce e analisi del sentiment per il parlato.

Usa Speech-to-Text

Funzionalità principali

Adattamento vocale

Personalizza il riconoscimento vocale per trascrivere termini specifici del dominio e parole rare fornendo suggerimenti e aumenta l'accuratezza della trascrizione di parole o frasi specifiche. Puoi convertire automaticamente i numeri vocali in indirizzi, anni, valute e altro ancora utilizzando le classi.

Modelli specifici del dominio

Scegli da una selezione di modelli addestrati per il controllo vocale, le chiamate telefoniche e la trascrizione dei video ottimizzati per i requisiti di qualità specifici del dominio. Ad esempio, il nostro modello avanzato per le chiamate telefoniche è ottimizzato per l'audio proveniente da telefonate, ad esempio quelle registrate con una frequenza di campionamento pari a 8 kHz.

Streaming del riconoscimento vocale

Ottieni i risultati del riconoscimento vocale in tempo reale mentre l'API elabora l'input audio trasmesso dal microfono della tua applicazione o inviato da un file audio pre-registrato (incorporato o tramite Cloud Storage).

Visualizza tutte le funzionalità

Clienti

Castbox utilizza Speech-to-Text per fornire il suo servizio di ricerca audio per i podcast.
Leggi la storia

La storia in breve

  • Possibilità per gli utenti di cercare parole o frasi nei contenuti audio

  • Accuratezza della conversione dell'audio in testo superiore al 96%

  • Query di ricerca tipiche con una latenza di soli 50 millisecondi

Settore

  • Tecnologia

Documentazione

Nozioni di base su Google Cloud
Nozioni di base su Speech-to-Text

Scopri i concetti fondamentali di Speech-to-Text.

Guida rapida
Guida rapida: utilizzo dello strumento gcloud

Invia una richiesta di trascrizione di audio a Speech-to-Text utilizzando lo strumento gcloud dalla riga di comando.

Best practice
Best practice

Ripassa le best practice per la trascrizione di audio con Speech-to-Text.

Tutorial
ML onramp

Scopri tutorial e codelab di Speech-to-Text e molto altro.

Nozioni di base su Google Cloud
Lingue supportate

Scopri quali lingue sono disponibili per Speech-to-Text, oltre alle funzionalità e ai modelli di riconoscimento disponibili per ognuna.

Casi d'uso

Caso d'uso
Migliorare il servizio clienti

Potenzia il sistema di assistenza clienti aggiungendo la Risposta Vocale Interattiva (IVR) e le conversazioni con gli agenti ai tuoi call center. Esegui l'analisi dei dati delle conversazioni per ottenere maggiori informazioni sulle chiamate e sui clienti. Speech-to-Text e i suoi modelli avanzati di chiamata stanno già supportando la potente soluzione di Google Cloud, Contact Center AI.

Utilizzare Contact Center AI con la tecnologia Speech-to-Text per migliorare il servizio di assistenza clienti
Caso d'uso
Abilitare il controllo vocale

Implementa i comandi vocali come "alza il volume" e la ricerca vocale, ad esempio "qual è la temperatura a Parigi?" In abbinamento all'API Text-to-Speech è possibile offrire esperienze attivate con la voce nelle applicazioni IoT (Internet of Things).

Flusso di lavoro del controllo vocale utilizzando l'API Speech-to-Text
Caso d'uso
Trascrivere contenuti multimediali

Trascrivi audio e video per includere i sottotitoli e aumenta la copertura e l'esperienza del tuo pubblico. Aggiungi sottotitoli in tempo reale ai tuoi contenuti in streaming. Il nostro modello di trascrizione video è ideale per l'indicizzazione o la sottotitolazione di contenuti video e/o multispeaker e utilizza una tecnologia di machine learning simile a quella su cui si basano i sottotitoli di YouTube.

Flusso di lavoro di trascrizione dei contenuti multimediali

Tutte le funzionalità

Vocabolario globale Sostieni la tua base utenti globale con l'ampio supporto per le lingue di Speech-to-Text disponibile per oltre 125 lingue e varianti.
Streaming del riconoscimento vocale Ottieni i risultati del riconoscimento vocale in tempo reale mentre l'API elabora l'input audio trasmesso dal microfono della tua applicazione o inviato da un file audio pre-registrato (incorporato o tramite Cloud Storage).
Adattamento vocale Personalizza il riconoscimento vocale per trascrivere termini specifici del dominio e parole rare fornendo suggerimenti e aumenta l'accuratezza della trascrizione di parole o frasi specifiche. Puoi convertire automaticamente i numeri vocali in indirizzi, anni, valute e altro ancora utilizzando le classi.
Riconoscimento multicanale Speech-to-Text è in grado di riconoscere canali distinti in situazioni multicanale (ad esempio, videoconferenze) e annotare le trascrizioni per mantenere l'ordine.
Resistenza al rumore Speech-to-Text può gestire audio rumorosi provenienti da diversi ambienti senza la necessità di ulteriore eliminazione del rumore.
Modelli specifici del dominio Scegli da una selezione di modelli addestrati per il controllo vocale, le chiamate telefoniche e la trascrizione dei video ottimizzati per i requisiti di qualità specifici del dominio. Ad esempio, il nostro modello avanzato per le chiamate telefoniche è ottimizzato per l'audio proveniente da telefonate, ad esempio quelle registrate con una frequenza di campionamento pari a 8 kHz.
Filtro dei contenuti Il filtro per il linguaggio volgare ti consente di rilevare contenuti inappropriati o non professionali nei dati audio ed escludere termini volgari nei risultati testuali.
Rilevamento automatico della lingua (beta) Specifica fino a quattro codici lingua e Speech-to-Text identificherà la lingua parlata corretta in scenari multilingue.
Punteggiatura automatica (beta) Speech-to-Text utilizza la punteggiatura corretta per le trascrizioni (ad es. virgole, punti interrogativi e punti).
Speaker Diarization (beta) Chi ha detto cosa? Ora puoi ricevere previsioni automatiche relative a quale parlante in una conversazione ha pronunciato una determinata frase.

Prezzi

I prezzi di Speech-to-Text vengono calcolati per 15 secondi di audio elaborato dopo un livello gratuito di 60 minuti.