Halaman ini diterjemahkan oleh Cloud Translation API.

Memilih fungsi transkripsi

Dokumen ini memberikan perbandingan fungsi transkripsi yang tersedia di BigQuery ML, yaitu ML.GENERATE_TEXT dan ML.TRANSCRIBE.

Anda dapat menggunakan informasi dalam dokumen ini untuk membantu Anda memutuskan fungsi yang akan digunakan jika fungsi tersebut memiliki kemampuan yang tumpang-tindih.

Pada tingkat tinggi, perbedaan antara fungsi ini adalah sebagai berikut:

ML.GENERATE_TEXT adalah pilihan yang tepat untuk transkripsi klip audio yang berdurasi 10 menit atau kurang, dan Anda juga dapat menggunakannya untuk melakukan tugas natural language processing (NLP). Transkripsi audio dengan ML.GENERATE_TEXT lebih murah daripada dengan ML.TRANSCRIBE saat Anda menggunakan model gemini-1.5-flash.
ML.TRANSCRIBE adalah pilihan yang baik untuk melakukan transkripsi pada klip audio yang berdurasi lebih dari 10 menit. PostgreSQL juga mendukung lebih banyak bahasa daripada ML.GENERATE_TEXT.

Model yang didukung

Model yang didukung adalah sebagai berikut:

ML.GENERATE_TEXT: Anda dapat menggunakan subset model Gemini Vertex AI untuk membuat teks. Untuk informasi selengkapnya tentang model yang didukung, lihat sintaksis ML.GENERATE_TEXT.
ML.TRANSCRIBE: Anda menggunakan model default Speech-to-Text API. Menggunakan Document AI API memberi Anda akses ke transkripsi dengan model ucapan Chirp.

Tugas yang didukung

Tugas yang didukung adalah sebagai berikut:

ML.GENERATE_TEXT: Anda dapat melakukan tugas transkripsi audio dan pemrosesan bahasa alami (NLP).
ML.TRANSCRIBE: Anda dapat melakukan transkripsi audio.

Harga

Harganya sebagai berikut:

ML.GENERATE_TEXT: untuk mengetahui harga model Vertex AI yang Anda gunakan dengan fungsi ini, lihat Harga Vertex AI. Penyesuaian yang diawasi untuk model yang didukung dikenai biaya dolar per jam node. Untuk mengetahui informasi selengkapnya, lihat Harga pelatihan kustom Vertex AI.
ML.TRANSCRIBE: Untuk mengetahui harga layanan Cloud AI yang Anda gunakan dengan fungsi ini, lihat Harga Speech-to-Text API.

Penyesuaian yang diawasi

Dukungan penyesuaian yang diawasi adalah sebagai berikut:

ML.GENERATE_TEXT: penyesuaian terpantau didukung untuk beberapa model.
ML.TRANSCRIBE: penyesuaian yang diawasi tidak didukung.

Batas kueri per menit (QPM)

Batas QPM adalah sebagai berikut:

ML.GENERATE_TEXT: 60 QPM di region us-central1 default untuk model gemini-1.5-pro, dan 200 QPM di region us-central1 default untuk model gemini-1.5-flash. Untuk mengetahui informasi selengkapnya, lihat Kuota AI Generatif di Vertex AI.
ML.TRANSCRIBE: 900 QPM per project. Untuk mengetahui informasi selengkapnya, lihat Kuota dan batas.

Untuk meningkatkan kuota, lihat Meminta kuota yang lebih tinggi.

Token limit (batas token)

Batas token adalah sebagai berikut:

ML.GENERATE_TEXT: 700 token input, dan 8196 token output. Batas token output ini berarti ML.GENERATE_TEXT memiliki batas sekitar 39 menit untuk setiap klip audio.
ML.TRANSCRIBE: Tidak ada batas token. Namun, fungsi ini memiliki batas 480 menit untuk setiap klip audio.

Bahasa yang didukung

Bahasa yang didukung adalah sebagai berikut:

ML.GENERATE_TEXT: mendukung bahasa yang sama dengan Gemini.
ML.TRANSCRIBE: mendukung semua bahasa yang didukung Speech-to-Text.

Ketersediaan wilayah

Ketersediaan wilayah adalah sebagai berikut:

ML.GENERATE_TEXT: tersedia di semua region AI Generatif untuk Vertex AI.
ML.TRANSCRIBE: tersedia di multi-region EU dan US untuk semua pengenal ucapan.