Scegli una funzione di trascrizione
Questo documento fornisce un confronto delle funzioni di trascrizione disponibili in BigQuery ML, ovvero ML.GENERATE_TEXT
e ML.TRANSCRIBE
.
Puoi utilizzare le informazioni contenute in questo documento per decidere quale funzione utilizzare nei casi in cui le funzioni abbiano funzionalità sovrapposte.
A livello generale, la differenza tra queste funzioni è la seguente:
ML.GENERATE_TEXT
è una buona scelta per la trascrizione di clip audio di durata massima di 10 minuti e puoi utilizzarla anche per eseguire attività di elaborazione del linguaggio naturale (NLP). La trascrizione audio conML.GENERATE_TEXT
è meno costosa rispetto aML.TRANSCRIBE
quando utilizzi il modellogemini-1.5-flash
.ML.TRANSCRIBE
è una buona scelta per eseguire la trascrizione su clip audio di durata superiore a 10 minuti. Supporta inoltre un numero maggiore di lingue rispetto aML.GENERATE_TEXT
.
Modelli supportati
I modelli supportati sono i seguenti:
ML.GENERATE_TEXT
: puoi utilizzare un sottoinsieme dei modelli Vertex AI Gemini per generare testo. Per ulteriori informazioni sui modelli supportati, consulta la sintassiML.GENERATE_TEXT
.ML.TRANSCRIBE
: utilizzi il modello predefinito dell'API Speech-to-Text. L'utilizzo dell'API Document AI consente di accedere alla trascrizione con il modello vocale Chirp.
Attività supportate
Le attività supportate sono le seguenti:
ML.GENERATE_TEXT
: puoi eseguire attività di trascrizione audio ed elaborazione del linguaggio naturale (NLP).ML.TRANSCRIBE
: puoi eseguire la trascrizione audio.
Prezzi
I prezzi sono i seguenti:
ML.GENERATE_TEXT
: per i prezzi dei modelli Vertex AI che utilizzi con questa funzione, consulta Prezzi di Vertex AI. L'ottimizzazione supervisionata dei modelli supportati viene addebitata in dollari per ora nodo. Per ulteriori informazioni, consulta Prezzi dell'addestramento personalizzato di Vertex AI.ML.TRANSCRIBE
: per i prezzi del servizio Cloud AI che utilizzi con questa funzione, consulta Prezzi dell'API Speech-to-Text.
Ottimizzazione supervisionata
L'ottimizzazione supervisionata è supportata come segue:
ML.GENERATE_TEXT
: l'ottimizzazione supervisionata è supportata per alcuni modelli.ML.TRANSCRIBE
: l'ottimizzazione supervisionata non è supportata.
Limite di query al minuto (QPM)
I limiti QPM sono i seguenti:
ML.GENERATE_TEXT
: 60 QPM nella regioneus-central1
predefinita per i modelligemini-1.5-pro
e 200 QPM nella regioneus-central1
predefinita per i modelligemini-1.5-flash
. Per ulteriori informazioni, consulta Quota di IA generativa su Vertex AI.ML.TRANSCRIBE
: 900 QPM per progetto. Per ulteriori informazioni, consulta Quote e limiti.
Per aumentare la quota, consulta Richiedere una quota superiore.
Limite di token
I limiti per i token sono i seguenti:
ML.GENERATE_TEXT
: 700 token di input e 8196 token di output. Questo limite di token di output indica cheML.GENERATE_TEXT
ha un limite di circa 39 minuti per un singolo clip audio.ML.TRANSCRIBE
: nessun limite di token. Tuttavia, questa funzione ha un limite di 480 minuti per un singolo clip audio.
Lingue supportate
Le lingue supportate sono:
ML.GENERATE_TEXT
: supporta le stesse lingue di Gemini.ML.TRANSCRIBE
: supporta tutte le lingue supportate da Speech-to-Text.
Disponibilità per regione
La disponibilità per regione è la seguente:
ML.GENERATE_TEXT
: disponibile in tutte le regioni di Generative AI per Vertex AI.ML.TRANSCRIBE
: disponibile nelle regioni multipleEU
eUS
per tutti i riconoscitori vocali.