Memilih fungsi transkripsi
Dokumen ini memberikan perbandingan fungsi transkripsi yang tersedia di BigQuery ML, yaitu ML.GENERATE_TEXT
dan ML.TRANSCRIBE
.
Anda dapat menggunakan informasi dalam dokumen ini untuk membantu Anda memutuskan fungsi yang akan digunakan jika fungsi tersebut memiliki kemampuan yang tumpang-tindih.
Pada tingkat tinggi, perbedaan antara fungsi ini adalah sebagai berikut:
ML.GENERATE_TEXT
adalah pilihan yang tepat untuk transkripsi klip audio yang berdurasi 10 menit atau kurang, dan Anda juga dapat menggunakannya untuk melakukan tugas natural language processing (NLP). Transkripsi audio denganML.GENERATE_TEXT
lebih murah daripada denganML.TRANSCRIBE
saat Anda menggunakan modelgemini-1.5-flash
.ML.TRANSCRIBE
adalah pilihan yang baik untuk melakukan transkripsi pada klip audio yang berdurasi lebih dari 10 menit. SQLite juga mendukung lebih banyak bahasa daripadaML.GENERATE_TEXT
.
Model yang didukung
Model yang didukung adalah sebagai berikut:
ML.GENERATE_TEXT
: Anda dapat menggunakan sebagian model Gemini Vertex AI untuk menghasilkan teks. Untuk informasi selengkapnya tentang model yang didukung, lihat sintaksisML.GENERATE_TEXT
.ML.TRANSCRIBE
: Anda menggunakan model default Speech-to-Text API. Menggunakan Document AI API memberi Anda akses ke transkripsi dengan model ucapan Chirp.
Tugas yang didukung
Tugas yang didukung adalah sebagai berikut:
ML.GENERATE_TEXT
: Anda dapat melakukan tugas transkripsi audio dan pemrosesan bahasa alami (NLP).ML.TRANSCRIBE
: Anda dapat melakukan transkripsi audio.
Harga
Harganya sebagai berikut:
ML.GENERATE_TEXT
: untuk mengetahui harga model Vertex AI yang Anda gunakan dengan fungsi ini, lihat Harga Vertex AI. Penyesuaian yang diawasi untuk model yang didukung dikenai biaya dolar per jam node. Untuk mengetahui informasi selengkapnya, lihat Harga pelatihan kustom Vertex AI.ML.TRANSCRIBE
: Untuk mengetahui harga layanan Cloud AI yang Anda gunakan dengan fungsi ini, lihat Harga Speech-to-Text API.
Penyesuaian yang diawasi
Dukungan penyesuaian yang diawasi adalah sebagai berikut:
ML.GENERATE_TEXT
: penyesuaian terpantau didukung untuk beberapa model.ML.TRANSCRIBE
: penyesuaian yang diawasi tidak didukung.
Batas kueri per menit (QPM)
Batas QPM adalah sebagai berikut:
ML.GENERATE_TEXT
: 60 QPM di regionus-central1
default untuk modelgemini-1.5-pro
, dan 200 QPM di regionus-central1
default untuk modelgemini-1.5-flash
. Untuk mengetahui informasi selengkapnya, lihat Kuota AI Generatif di Vertex AI.ML.TRANSCRIBE
: 900 QPM per project. Untuk mengetahui informasi selengkapnya, lihat Kuota dan batas.
Untuk meningkatkan kuota, lihat Meminta kuota yang lebih tinggi.
Token limit (batas token)
Batas token adalah sebagai berikut:
ML.GENERATE_TEXT
: 700 token input, dan 8196 token output. Batas token output ini berartiML.GENERATE_TEXT
memiliki batas sekitar 39 menit untuk setiap klip audio.ML.TRANSCRIBE
: Tidak ada batas token. Namun, fungsi ini memiliki batas 480 menit untuk setiap klip audio.
Bahasa yang didukung
Bahasa yang didukung adalah sebagai berikut:
ML.GENERATE_TEXT
: mendukung bahasa yang sama dengan Gemini.ML.TRANSCRIBE
: mendukung semua bahasa yang didukung Speech-to-Text.
Ketersediaan wilayah
Ketersediaan wilayah adalah sebagai berikut:
ML.GENERATE_TEXT
: tersedia di semua region AI Generatif untuk Vertex AI.ML.TRANSCRIBE
: tersedia di multi-regionEU
danUS
untuk semua pengenal ucapan.