Questa pagina mostra come trascrivere file audio lunghi (più di un minuto) in testo utilizzando l'API Speech-to-Text e il riconoscimento vocale asincrono.
Informazioni sul riconoscimento vocale asincrono
Il riconoscimento vocale batch avvia un'operazione di elaborazione audio a lunga esecuzione. Usa il riconoscimento vocale asincrono per trascrivere audio più lunghi di 60 secondi. Per un audio più breve, il riconoscimento vocale sincrono è più semplice e veloce. Il limite massimo per il riconoscimento vocale asincrono è di 480 minuti (8 ore).
Il riconoscimento vocale batch è in grado di trascrivere solo l'audio memorizzato in Cloud Storage. L'output della trascrizione può essere fornito in linea nella risposta (per le richieste di riconoscimento batch di un singolo file) o scritto in Cloud Storage.
La richiesta di riconoscimento batch restituisce un elemento Operation
contenente informazioni sull'elaborazione del riconoscimento batch della richiesta. Puoi
eseguire il polling dell'operazione per sapere quando è stata completata e
sono disponibili le trascrizioni.
Prima di iniziare
- Accedi al tuo account Google Cloud. Se non conosci Google Cloud, crea un account per valutare le prestazioni dei nostri prodotti in scenari reali. I nuovi clienti ricevono anche 300 $di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Abilita le API Speech-to-Text.
-
Assicurati di disporre dei seguenti ruoli nel progetto: Cloud Speech Administrator
Verifica i ruoli
-
Nella console Google Cloud, vai alla pagina IAM.
Vai a IAM - Seleziona il progetto.
-
Nella colonna Entità, individua la riga contenente il tuo indirizzo email.
Se il tuo indirizzo email non è in questa colonna, significa che non disponi di alcun ruolo.
- Nella colonna Ruolo per la riga contenente il tuo indirizzo email, controlla se l'elenco dei ruoli include quelli richiesti.
Concedi i ruoli
-
Nella console Google Cloud, vai alla pagina IAM.
Vai a IAM - Seleziona il progetto.
- Fai clic su Concedi l'accesso.
- Nel campo Nuove entità, inserisci il tuo indirizzo email.
- Nell'elenco Seleziona un ruolo, scegli un ruolo.
- Per concedere altri ruoli, fai clic su Aggiungi un altro ruolo e aggiungi ciascun ruolo aggiuntivo.
- Fai clic su Salva.
-
- Installa Google Cloud CLI.
-
Per initialize gcloud CLI, esegui questo comando:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Assicurati che la fatturazione sia attivata per il tuo progetto Google Cloud.
-
Abilita le API Speech-to-Text.
-
Assicurati di disporre dei seguenti ruoli nel progetto: Cloud Speech Administrator
Verifica i ruoli
-
Nella console Google Cloud, vai alla pagina IAM.
Vai a IAM - Seleziona il progetto.
-
Nella colonna Entità, individua la riga contenente il tuo indirizzo email.
Se il tuo indirizzo email non è in questa colonna, significa che non disponi di alcun ruolo.
- Nella colonna Ruolo per la riga contenente il tuo indirizzo email, controlla se l'elenco dei ruoli include quelli richiesti.
Concedi i ruoli
-
Nella console Google Cloud, vai alla pagina IAM.
Vai a IAM - Seleziona il progetto.
- Fai clic su Concedi l'accesso.
- Nel campo Nuove entità, inserisci il tuo indirizzo email.
- Nell'elenco Seleziona un ruolo, scegli un ruolo.
- Per concedere altri ruoli, fai clic su Aggiungi un altro ruolo e aggiungi ciascun ruolo aggiuntivo.
- Fai clic su Salva.
-
- Installa Google Cloud CLI.
-
Per initialize gcloud CLI, esegui questo comando:
gcloud init
-
Crea credenziali di autenticazione locali per il tuo Account Google:
gcloud auth application-default login
Le librerie client possono utilizzare le credenziali predefinite dell'applicazione per autenticarsi facilmente con le API di Google e inviare richieste a queste API. Con Credenziali predefinite dell'applicazione, puoi testare l'applicazione in locale ed eseguirne il deployment senza modificare il codice sottostante. Per ulteriori informazioni, consulta <atrack-type="common generate" l10n-attrs-original-order="href,track-type,track-name" l10n-encrypted-href="WDE63JFVMK0YqIWBqG8nCycgwkRfOeEqRvzYs1N+2tJUEhcZvE5WLink-reference for AuthenticatehcZvE5WLink-reference for Authenticate
Assicurati inoltre di aver installato la libreria client.
Abilita l'accesso a Cloud Storage
Speech-to-Text utilizza un account di servizio per accedere ai file in Cloud Storage. Per impostazione predefinita, l'account di servizio ha accesso ai file di Cloud Storage nello stesso progetto.
L'indirizzo email dell'account di servizio è il seguente:
service-PROJECT_NUMBER@gcp-sa-speech.iam.gserviceaccount.com
Per trascrivere i file di Cloud Storage in un altro progetto, puoi concedere a questo account di servizio il ruolo di Agente di servizio Speech-to-Text nell'altro progetto:
gcloud projects add-iam-policy-binding PROJECT_ID \
--member=serviceAccount:service-PROJECT_NUMBER@gcp-sa-speech.iam.gserviceaccount.com \
--role=roles/speech.serviceAgent
Per ulteriori informazioni sul criterio IAM del progetto, consulta Gestire l'accesso a progetti, cartelle e organizzazioni.
Puoi anche concedere all'account di servizio un accesso più granulare concedendo l'autorizzazione a un bucket Cloud Storage specifico:
gsutil iam ch serviceAccount:service-PROJECT_NUMBER@gcp-sa-speech.iam.gserviceaccount.com:admin \
gs://BUCKET_NAME
Per ulteriori informazioni sulla gestione dell'accesso a Cloud Storage, consulta Creare e gestire gli controllo dell'accesso dell'accesso nella documentazione di Cloud Storage.
Riconoscimento batch con risultati in linea
Ecco un esempio di riconoscimento vocale batch su un file audio in Cloud Storage e lettura dei risultati della trascrizione in linea dalla risposta:
Python
Esegui il riconoscimento batch e scrivi i risultati in Cloud Storage
Ecco un esempio di riconoscimento vocale batch su un file audio in Cloud Storage e lettura dei risultati della trascrizione dal file di output in Cloud Storage. Tieni presente che il file scritto in Cloud Storage è un messaggio BatchRecognizeResults
in formato JSON:
Python
Esecuzione del riconoscimento batch su più file
Ecco un esempio di riconoscimento vocale batch su più file audio in Cloud Storage e lettura dei risultati della trascrizione dai file di output in Cloud Storage:
Python
Attiva raggruppamento dinamico con riconoscimento batch
Il raggruppamento dinamico in batch consente una trascrizione a costi inferiori per una latenza maggiore. Questa funzionalità è disponibile solo per il riconoscimento batch.
Ecco un esempio di riconoscimento batch su un file audio in Cloud Storage con il raggruppamento dinamico abilitato:
Python
Esegui l'override delle funzionalità di riconoscimento per file
Per impostazione predefinita, il riconoscimento batch utilizza la stessa configurazione di riconoscimento per ogni file nella richiesta di riconoscimento batch. Se file diversi richiedono configurazioni o funzionalità diverse, puoi eseguire l'override della configurazione per singolo file utilizzando il campo config
nel messaggio [BatchRecognizeFileMetadata
][batch-file-metadata-grpc]. Consulta la documentazione relativa ai riconoscimenti per un esempio di sostituzione delle funzionalità di riconoscimento.
Esegui la pulizia
Per evitare che al tuo account Google Cloud vengano addebitati costi relativi alle risorse utilizzate in questa pagina, segui questi passaggi.
-
Facoltativo: revoca le credenziali di autenticazione che hai creato ed elimina il file delle credenziali locale.
gcloud auth application-default revoke
-
Facoltativo: revoca le credenziali dallgcloud CLI.
gcloud auth revoke
Console
gcloud
Elimina un progetto Google Cloud:
gcloud projects delete PROJECT_ID
Passaggi successivi
- Consulta la documentazione di riferimento per il riconoscimento batch.
- Scopri come trascrivere audio in streaming.
- Esercitati a trascrivere file audio brevi.
- Trascrizione di file audio con Chirp.
- Per prestazioni ottimali, precisione e altri suggerimenti, consulta la documentazione sulle best practice.