Questa pagina è stata tradotta dall'API Cloud Translation.

Scegli una funzione di trascrizione

Questo documento fornisce un confronto delle funzioni di trascrizione disponibili in BigQuery ML, ovvero ML.GENERATE_TEXT e ML.TRANSCRIBE.

Puoi utilizzare le informazioni contenute in questo documento per decidere quale funzione utilizzare nei casi in cui le funzioni abbiano funzionalità sovrapposte.

A livello generale, la differenza tra queste funzioni è la seguente:

ML.GENERATE_TEXT è una buona scelta per la trascrizione di clip audio di durata massima di 10 minuti e puoi utilizzarla anche per eseguire attività di elaborazione del linguaggio naturale (NLP). La trascrizione audio con ML.GENERATE_TEXT è meno costosa rispetto a ML.TRANSCRIBE se utilizzi il modello gemini-1.5-flash.
ML.TRANSCRIBE è una buona scelta per eseguire la trascrizione su clip audio di durata superiore a 10 minuti. Supporta inoltre un numero maggiore di lingue rispetto a ML.GENERATE_TEXT.

Modelli supportati

I modelli supportati sono i seguenti:

ML.GENERATE_TEXT: puoi utilizzare un sottoinsieme dei modelli Vertex AI Gemini per generare testo. Per ulteriori informazioni sui modelli supportati, consulta la sintassi ML.GENERATE_TEXT.
ML.TRANSCRIBE: utilizzi il modello predefinito dell'API Speech-to-Text. L'utilizzo dell'API Document AI consente di accedere alla trascrizione con il modello vocale Chirp.

Attività supportate

Le attività supportate sono le seguenti:

ML.GENERATE_TEXT: puoi eseguire attività di trascrizione audio ed elaborazione del linguaggio naturale (NLP).
ML.TRANSCRIBE: puoi eseguire la trascrizione audio.

Prezzi

I prezzi sono i seguenti:

ML.GENERATE_TEXT: per i prezzi dei modelli Vertex AI che utilizzi con questa funzione, consulta Prezzi di Vertex AI. L'ottimizzazione supervisionata dei modelli supportati viene addebitata in dollari per ora nodo. Per ulteriori informazioni, consulta Prezzi dell'addestramento personalizzato di Vertex AI.
ML.TRANSCRIBE: per i prezzi del servizio Cloud AI che utilizzi con questa funzione, consulta Prezzi dell'API Speech-to-Text.

Ottimizzazione supervisionata

L'ottimizzazione supervisionata è supportata come segue:

ML.GENERATE_TEXT: l'ottimizzazione supervisionata è supportata per alcuni modelli.
ML.TRANSCRIBE: l'ottimizzazione supervisionata non è supportata.

Limite di query al minuto (QPM)

I limiti di QPM sono i seguenti:

ML.GENERATE_TEXT: 60 QPM nella regione us-central1 predefinita per i modelli gemini-1.5-pro e 200 QPM nella regione us-central1 predefinita per i modelli gemini-1.5-flash. Per ulteriori informazioni, consulta Quota di IA generativa su Vertex AI.
ML.TRANSCRIBE: 900 QPM per progetto. Per ulteriori informazioni, consulta Quote e limiti.

Per aumentare la quota, consulta la sezione Richiedere un aggiustamento della quota.

Limite di token

I limiti per i token sono i seguenti:

ML.GENERATE_TEXT: 700 token di input e 8196 token di output. Questo limite di token di output indica che ML.GENERATE_TEXT ha un limite di circa 39 minuti per un singolo clip audio.
ML.TRANSCRIBE: nessun limite di token. Tuttavia, questa funzione ha un limite di 480 minuti per un singolo clip audio.

Lingue supportate

Le lingue supportate sono:

ML.GENERATE_TEXT: supporta le stesse lingue di Gemini.
ML.TRANSCRIBE: supporta tutte le lingue supportate da Speech-to-Text.

Disponibilità per regione

La disponibilità per regione è la seguente:

ML.GENERATE_TEXT: disponibile in tutte le regioni di Generative AI per Vertex AI.
ML.TRANSCRIBE: disponibile nelle regioni multiple EU e US per tutti i riconoscitori vocali.