Scegli una funzione di trascrizione

Questo documento fornisce un confronto delle funzioni di trascrizione disponibili in BigQuery ML, ovvero ML.GENERATE_TEXT e ML.TRANSCRIBE.

Puoi utilizzare le informazioni contenute in questo documento per decidere quale funzione utilizzare nei casi in cui le funzioni abbiano funzionalità sovrapposte.

A livello generale, la differenza tra queste funzioni è la seguente:

  • ML.GENERATE_TEXT è una buona scelta per la trascrizione di clip audio di durata massima di 10 minuti e puoi utilizzarla anche per eseguire attività di elaborazione del linguaggio naturale (NLP). La trascrizione audio con ML.GENERATE_TEXT è meno costosa rispetto a ML.TRANSCRIBE quando utilizzi il modello gemini-1.5-flash.

  • ML.TRANSCRIBE è una buona scelta per eseguire la trascrizione su clip audio di durata superiore a 10 minuti. Supporta inoltre un numero maggiore di lingue rispetto a ML.GENERATE_TEXT.

Modelli supportati

I modelli supportati sono i seguenti:

  • ML.GENERATE_TEXT: puoi utilizzare un sottoinsieme dei modelli Vertex AI Gemini per generare testo. Per ulteriori informazioni sui modelli supportati, consulta la sintassi ML.GENERATE_TEXT.
  • ML.TRANSCRIBE: utilizzi il modello predefinito dell'API Speech-to-Text. L'utilizzo dell'API Document AI consente di accedere alla trascrizione con il modello vocale Chirp.

Attività supportate

Le attività supportate sono le seguenti:

  • ML.GENERATE_TEXT: puoi eseguire attività di trascrizione audio ed elaborazione del linguaggio naturale (NLP).
  • ML.TRANSCRIBE: puoi eseguire la trascrizione audio.

Prezzi

I prezzi sono i seguenti:

Ottimizzazione supervisionata

L'ottimizzazione supervisionata è supportata come segue:

  • ML.GENERATE_TEXT: l'ottimizzazione supervisionata è supportata per alcuni modelli.
  • ML.TRANSCRIBE: l'ottimizzazione supervisionata non è supportata.

Limite di query al minuto (QPM)

I limiti QPM sono i seguenti:

  • ML.GENERATE_TEXT: 60 QPM nella regione us-central1 predefinita per i modelli gemini-1.5-pro e 200 QPM nella regione us-central1 predefinita per i modelli gemini-1.5-flash. Per ulteriori informazioni, consulta Quota di IA generativa su Vertex AI.
  • ML.TRANSCRIBE: 900 QPM per progetto. Per ulteriori informazioni, consulta Quote e limiti.

Per aumentare la quota, consulta Richiedere una quota superiore.

Limite di token

I limiti per i token sono i seguenti:

  • ML.GENERATE_TEXT: 700 token di input e 8196 token di output. Questo limite di token di output indica che ML.GENERATE_TEXT ha un limite di circa 39 minuti per un singolo clip audio.
  • ML.TRANSCRIBE: nessun limite di token. Tuttavia, questa funzione ha un limite di 480 minuti per un singolo clip audio.

Lingue supportate

Le lingue supportate sono:

Disponibilità per regione

La disponibilità per regione è la seguente:

  • ML.GENERATE_TEXT: disponibile in tutte le regioni di Generative AI per Vertex AI.
  • ML.TRANSCRIBE: disponibile nelle regioni multiple EU e US per tutti i riconoscitori vocali.