Prova Gemini 3, il nostro modello migliore per ragionamento, programmazione e comprensione multimodale in Gemini Enterprise Agent Platform

Speech-to-Text

Trasforma il parlato in testo con Google AI

Converti l'audio in trascrizioni di testo e integra il riconoscimento vocale nelle applicazioni grazie ad API facili da usare.

I nuovi clienti ricevono anche fino a 300 $ di crediti senza costi per provare Speech-to-Text e altri prodotti Google Cloud.

Funzionalità

AI vocale avanzata

Speech-to-Text può utilizzare Chirp 3, il foundation model di Google Cloud per la sintesi vocale, addestrato con milioni di ore di dati audio e miliardi di frasi di testo. Ciò è in contrasto con le tecniche tradizionali di riconoscimento vocale che si concentrano su grandi quantità di dati supervisionati specifici per lingua. Queste tecniche migliorano il riconoscimento e la trascrizione di più lingue parlate e accenti.

Supporto per oltre 85 lingue e varianti

Crea per una base utenti globale con un ampio supporto linguistico. Trascrivi dati audio brevi, lunghi e persino in streaming. Speech-to-Text offre inoltre agli utenti deployment più precisi e globali per la trascrizione con Chirp 3, la nuova generazione di modelli vocali universali.

Chirp 3: la trascrizione è stata creata utilizzando l'addestramento autonomo su milioni di ore di audio e 28 miliardi di frasi di testo in più di 100 lingue.

Trascrivi audio breve, lungo o in streaming

Visualizza la guida

Riconoscimento vocale di audio in streaming

Ottieni i risultati del riconoscimento vocale in tempo reale mentre l'API elabora l'input audio trasmesso dal microfono della tua applicazione o inviato da un file audio pre-registrato (incorporato o tramite Cloud Storage).

Riconoscimento vocale e trascrizione basati sull'IA

Speech-to-Text utilizza l'adattamento del modello per migliorare l'accuratezza delle parole usate di frequente, ampliare il vocabolario disponibile per la trascrizione e migliorare la trascrizione da audio rumorosi. L'adattamento del modello consente agli utenti di personalizzare Speech-to-Text per riconoscere parole o frasi specifiche più spesso rispetto ad altre opzioni che altrimenti potrebbero essere suggerite. Ad esempio, potresti indirizzare Speech-to-Text a trascrivere "distinto" piuttosto che "d'istinto".

Conformità alle normative e alla sicurezza pronte all'uso

L'API Speech-to-Text v2 offre ai clienti Business ed Enterprise ulteriori requisiti normativi e di sicurezza, fin dal primo avvio. La residenza dei dati consente di chiamare modelli di trascrizione tramite un servizio completamente regionalizzato che sfrutta le regioni di Google Cloud come Singapore e Belgio. I log per la generazione e la trascrizione delle risorse sono resi facilmente disponibili nella console Google Cloud. L'API Speech-to-Text v2 offre una crittografia di livello aziendale con chiavi di crittografia gestite dal cliente per tutte le risorse, oltre alla trascrizione batch.

Adattamento vocale

Personalizza il riconoscimento vocale per trascrivere termini specifici del dominio e parole rare fornendo suggerimenti e aumenta l'accuratezza della trascrizione di parole o frasi specifiche. Puoi convertire automaticamente i numeri vocali in indirizzi, anni, valute e altro ancora utilizzando le classi.

Speech-to-Text On-Prem

Ottieni il pieno controllo dell'infrastruttura e dei dati vocali protetti mentre utilizzi la tecnologia di riconoscimento vocale di Google on-premise, direttamente nei tuoi data center privati. Contatta il team di vendita per iniziare.

Riconoscimento multicanale

Speech-to-Text è in grado di riconoscere canali distinti in situazioni multicanale (ad esempio, videoconferenze) e annotare le trascrizioni per mantenere l'ordine.

Resistenza al rumore

Speech-to-Text può gestire audio rumorosi provenienti da diversi ambienti senza la necessità di ulteriore cancellazione del rumore.

Modelli specifici del dominio

Scegli da una selezione di modelli addestrati per il controllo vocale, le chiamate telefoniche e la trascrizione dei video ottimizzati per i requisiti di qualità specifici del dominio. Ad esempio, il nostro modello avanzato per le chiamate telefoniche è ottimizzato per l'audio proveniente da telefonate, ad esempio quelle registrate con una frequenza di campionamento pari a 8 kHz.

Filtro dei contenuti

Il filtro per il linguaggio volgare ti consente di rilevare contenuti inappropriati o non professionali nei dati audio ed escludere termini volgari nei risultati testuali.

Valutazione delle trascrizioni

Carica i tuoi dati vocali e trascrivili senza codice. Valuta la qualità eseguendo l'iterazione della tua configurazione.

Punteggiatura automatica (beta)

Speech-to-Text utilizza la punteggiatura corretta per le trascrizioni, ad esempio fornendo virgole, punti interrogativi e punti.

Diarizzazione degli interlocutori

Chi ha detto cosa? Ora puoi ricevere previsioni automatiche relative a quale parlante in una conversazione ha pronunciato una determinata frase.

Confronta il modello Chirp di Speech-to-Text nell'API e in Agent Studio

Prodotto	Che cos'è	Ideale per	Funzionalità principali
Chirp 3: trascrizione in Agent Platform	Una Graphic User Interface basata sul web, no-code e semplice da usare.	Testa rapidamente i file audio, crea prototipi in poco tempo, crea trascrizioni audio e carica audio o registrazioni direttamente in un browser web.	- Rilevamento e trascrizione di più lingue migliorati - Supporto della trascrizione in oltre 85 lingue e varianti - Supporto della diarizzazione degli interlocutori e dell'adattamento del modello - Riconoscimento vocale automatico, trascrizione dell'audio in testo - Rilevamento e trascrizione di più lingue
Chirp 3: trascrizione sull'API Speech-to-Text V2	Un'API che rappresenta la nuova generazione del modello Speech-to-Text universale di Google, che unifica i dati disponibili in più lingue.	Creazione di applicazioni scalabili di livello enterprise. Facile integrazione delle trascrizioni nel software esistente.	- Rilevamento e trascrizione di più lingue migliorati - Supporto della trascrizione in oltre 85 lingue e varianti - Supporto della diarizzazione degli interlocutori e dell'adattamento del modello - Riconoscimento vocale automatico, trascrizione dell'audio in testo - Rilevamento e trascrizione di più lingue

Chirp 3: trascrizione in Agent Platform

Che cos'è

Una Graphic User Interface basata sul web, no-code e semplice da usare.

Ideale per

Testa rapidamente i file audio, crea prototipi in poco tempo, crea trascrizioni audio e carica audio o registrazioni direttamente in un browser web.

Funzionalità principali

- Rilevamento e trascrizione di più lingue migliorati

- Supporto della trascrizione in oltre 85 lingue e varianti

- Supporto della diarizzazione degli interlocutori e dell'adattamento del modello

- Riconoscimento vocale automatico, trascrizione dell'audio in testo

- Rilevamento e trascrizione di più lingue

Chirp 3: trascrizione sull'API Speech-to-Text V2

Che cos'è

Un'API che rappresenta la nuova generazione del modello Speech-to-Text universale di Google, che unifica i dati disponibili in più lingue.

Ideale per

Creazione di applicazioni scalabili di livello enterprise.

Facile integrazione delle trascrizioni nel software esistente.

Funzionalità principali

- Rilevamento e trascrizione di più lingue migliorati

- Supporto della trascrizione in oltre 85 lingue e varianti

- Supporto della diarizzazione degli interlocutori e dell'adattamento del modello

- Riconoscimento vocale automatico, trascrizione dell'audio in testo

- Rilevamento e trascrizione di più lingue

Come funziona

Speech-to-Text prevede tre metodi principali per eseguire il riconoscimento vocale: sincrono, asincrono e in streaming. Ogni metodo restituisce risultati testuali a seconda che sia necessaria la trascrizione in fase di post-elaborazione, periodicamente o in tempo reale. In breve, inserisci i dati audio e ricevi una risposta testuale.

Aggiungi la conversione della voce in testo all'app

Scopri come aggiungere Speech-to-Text alle app esistenti.

Demo

Testa l'API Speech-to-Text

Crea rapidamente una trascrizione audio a partire dal caricamento di un file o parlando direttamente nel microfono.

Utilizzi comuni

Trascrivi audio

Crea una trascrizione audio

Scopri come utilizzare l'API Speech-to-Text dalla console Google Cloud, creando una trascrizione audio in pochi passaggi. Puoi anche trascrivere audio in streaming, brevi e lunghi.

Anteprima del caricamento di Speech-to-Text

Tutorial, guide rapide e lab

Crea una trascrizione audio

Scopri come utilizzare l'API Speech-to-Text dalla console Google Cloud, creando una trascrizione audio in pochi passaggi. Puoi anche trascrivere audio in streaming, brevi e lunghi.

Anteprima del caricamento di Speech-to-Text

Aggiungi sottotitoli ai video usando l'IA

Crea sottotitoli per i video utilizzando l'IA

Trascrivi audio e video per includere i sottotitoli codificati. Aggiungi sottotitoli ai contenuti esistenti o in tempo reale ai contenuti in streaming. Il nostro Chirp 3: Transcription è ideale per l'indicizzazione o la sottotitolazione di contenuti video e/o multispeaker e utilizza una tecnologia di machine learning simile a quella di YouTube per i sottotitoli dei video.

Questo tutorial mostra come utilizzare l'API Speech-to-Text e l'API Translation dei servizi AI Google Cloud per aggiungere sottotitoli ai video e fornire sottotitoli localizzati in altre lingue.

Tutorial, guide rapide e lab

Crea sottotitoli per i video utilizzando l'IA

Trascrivi audio e video per includere i sottotitoli codificati. Aggiungi sottotitoli ai contenuti esistenti o in tempo reale ai contenuti in streaming. Il nostro Chirp 3: Transcription è ideale per l'indicizzazione o la sottotitolazione di contenuti video e/o multispeaker e utilizza una tecnologia di machine learning simile a quella di YouTube per i sottotitoli dei video.

Questo tutorial mostra come utilizzare l'API Speech-to-Text e l'API Translation dei servizi AI Google Cloud per aggiungere sottotitoli ai video e fornire sottotitoli localizzati in altre lingue.

Aggiungi Speech-to-Text alle app

Come aggiungere Speech-to-Text alle app

Scopri come abilitare in modo facile e veloce Speech-to-Text per la tua applicazione con Google Cloud. Questo video spiega come aggiungere l'IA alla tua applicazione senza avere una vasta esperienza con i modelli di machine learning. Utilizzando l'API Speech-to-Text preaddestrata, potrai abilitare in modo facile e veloce l'IA per la tua applicazione.

Trascrizione avanzata basata sull'interfaccia utente di IA e API di Google

Aggiungi il controllo vocale alle app

Tutorial, guide rapide e lab

Come aggiungere Speech-to-Text alle app

Scopri come abilitare in modo facile e veloce Speech-to-Text per la tua applicazione con Google Cloud. Questo video spiega come aggiungere l'IA alla tua applicazione senza avere una vasta esperienza con i modelli di machine learning. Utilizzando l'API Speech-to-Text preaddestrata, potrai abilitare in modo facile e veloce l'IA per la tua applicazione.

Aggiungi il controllo vocale alle app

Traduci l'audio in testo

Lingua, voce, testo e traduzione con le API Google Cloud

In questo corso userai l'API Speech-to-Text per trascrivere un file audio in un file di testo, tradurlo con l'API Google Cloud Translation e creare audio di sintesi vocale con Natural Language AI.

Tutorial, guide rapide e lab

Lingua, voce, testo e traduzione con le API Google Cloud

In questo corso userai l'API Speech-to-Text per trascrivere un file audio in un file di testo, tradurlo con l'API Google Cloud Translation e creare audio di sintesi vocale con Natural Language AI.

Prezzi

Come funzionano i prezzi di Speech-to-Text	I prezzi di Speech-to-Text si basano sulla versione dell'API, sui canali, sui metodi batch e su eventuali costi aggiuntivi dei servizi Google Cloud, come l'archiviazione.
Versione API	Servizio e funzionalità	Prezzi
API Speech-to-Text V2	La versione 2 offre la residenza dei dati per i deployment di Chirp 3 sia in una singola regione che in più regioni. La versione 2 include audit log e supporto per chiavi di crittografia gestite dal cliente.	0,016 $ al minuto

Come funzionano i prezzi di Speech-to-Text

I prezzi di Speech-to-Text si basano sulla versione dell'API, sui canali, sui metodi batch e su eventuali costi aggiuntivi dei servizi Google Cloud, come l'archiviazione.

Versione API

Servizio e funzionalità

Prezzi

API Speech-to-Text V2

La versione 2 offre la residenza dei dati per i deployment di Chirp 3 sia in una singola regione che in più regioni. La versione 2 include audit log e supporto per chiavi di crittografia gestite dal cliente.

0,016 $

al minuto

Visualizza i dettagli dei prezzi di Speech-to-Text.

Come funzionano i prezzi di Speech-to-Text

I prezzi di Speech-to-Text si basano sulla versione dell'API, sui canali, sui metodi batch e su eventuali costi aggiuntivi dei servizi Google Cloud, come l'archiviazione.

API Speech-to-Text V2

Servizio e funzionalità

La versione 2 offre la residenza dei dati per i deployment di Chirp 3 sia in una singola regione che in più regioni. La versione 2 include audit log e supporto per chiavi di crittografia gestite dal cliente.

Prezzi

0,016 $

al minuto

Visualizza i dettagli dei prezzi di Speech-to-Text.

Calcolatore prezzi

Stima i costi mensili di Speech-to-Text, inclusi i prezzi e le tariffe specifici per regione.

Preventivo personalizzato

Per ricevere un preventivo personalizzato per la tua organizzazione, contatta il nostro team di vendita.

Speech-to-Text

Trasforma il parlato in testo con Google AI

Caratteristiche principali del prodotto

AI vocale avanzata

Supporto per oltre 85 lingue e varianti

Riconoscimento vocale di audio in streaming

Riconoscimento vocale e trascrizione basati sull'IA

Conformità alle normative e alla sicurezza pronte all'uso

Adattamento vocale

Speech-to-Text On-Prem

Riconoscimento multicanale

Resistenza al rumore

Modelli specifici del dominio

Filtro dei contenuti

Valutazione delle trascrizioni

Punteggiatura automatica (beta)

Diarizzazione degli interlocutori

Testa l'API Speech-to-Text

Trascrivi audio

Crea una trascrizione audio

Tutorial, guide rapide e lab

Crea una trascrizione audio

Aggiungi sottotitoli ai video usando l'IA

Crea sottotitoli per i video utilizzando l'IA

Tutorial, guide rapide e lab

Crea sottotitoli per i video utilizzando l'IA

Aggiungi Speech-to-Text alle app

Come aggiungere Speech-to-Text alle app

Tutorial, guide rapide e lab

Come aggiungere Speech-to-Text alle app

Traduci l'audio in testo

Lingua, voce, testo e traduzione con le API Google Cloud

Tutorial, guide rapide e lab

Lingua, voce, testo e traduzione con le API Google Cloud

Calcolatore prezzi

Preventivo personalizzato

Inizia la tua proof of concept

I nuovi clienti ricevono fino a 300 $ di crediti senza costi per provare Speech-to-Text e altri prodotti Google Cloud

Hai un progetto di grandi dimensioni?

Speech-to-Text On-Prem

Nozioni di base su Speech-to-Text

Esempi di codice Speech-to-Text