Halaman ini diterjemahkan oleh Cloud Translation API.

Ringkasan model ucapan kustom

Model Speech-to-Text kustom membantu Anda melakukan fine-tuning model pengenalan ucapan sesuai kebutuhan spesifik Anda. Layanan ini dirancang untuk meningkatkan akurasi dan relevansi layanan pengenalan ucapan dalam berbagai lingkungan dan kasus penggunaan, menggunakan data audio dan teks khusus domain Anda.

Model Speech-to-Text Kustom dapat diakses melalui Konsol Google Cloud dan API kami. Dengan fitur ini, Anda akan dapat melatih, mengevaluasi, dan men-deploy model ucapan khusus di lingkungan yang terintegrasi tanpa kode. Untuk pelatihan, Anda hanya perlu menyediakan data audio yang representatif dengan kondisi audio Anda, tanpa transkripsi referensi sebagai set pelatihan. Namun, Anda harus menyediakan data audio dan transkripsi referensinya sebagai bagian dari set evaluasi.

Membuat dan menggunakan model Speech-to-Text kustom melibatkan langkah-langkah berikut:

Siapkan dan upload data pelatihan di bucket Cloud Storage.
Latih model kustom baru.
Men-deploy dan mengelola model kustom Anda menggunakan endpoint.
Gunakan dan evaluasi model kustom Anda di aplikasi Anda.

Bagaimana cara kerjanya

Anda dapat menggunakan model Speech-to-Text Kustom untuk meningkatkan model transkripsi dasar guna meningkatkan pengenalan transkripsi. Beberapa kondisi audio, termasuk sirene, musik, dan suara bising di latar belakang yang berlebihan dapat menimbulkan tantangan akustik. Aksen tertentu atau kosakata yang tidak biasa, seperti nama produk, juga dapat memengaruhi kualitas terjemahan.

Setiap model Speech-to-Text Kustom menggunakan arsitektur berbasis Conformer yang telah dilatih sebelumnya sebagai model dasar yang dilatih dengan data eksklusif dari bahasa yang umum digunakan. Selama proses pelatihan, model dasar disesuaikan dengan mengadaptasi sebagian besar bobot asli untuk meningkatkan pengenalan kosakata khusus domain dan kondisi audio khusus untuk aplikasi Anda.

Untuk pelatihan model Speech-to-Text Kustom yang efektif, Anda harus memberikan:

Minimal 100 jam audio data pelatihan, baik audio saja atau audio dengan transkrip teks yang sesuai sebagai data sebenarnya. Data ini sangat penting untuk fase pelatihan awal, sehingga model dapat mempelajari secara komprehensif nuansa pola ucapan dan kosakata. Untuk mengetahui detailnya, lihat Membuat set data kebenaran dasar.
Kumpulan data terpisah yang berisi minimal 10 jam audio data validasi, dengan transkrip teks yang sesuai sebagai kebenaran dasar. Anda dapat mempelajari lebih lanjut format yang diharapkan dan konvensi data sebenarnya yang harus diikuti dalam petunjuk penyiapan data kami.

Setelah pelatihan berhasil, Anda dapat men-deploy model Speech-to-Text Kustom di endpoint dengan sekali klik, dan menggunakannya secara langsung melalui Cloud Speech-to-Text V2 API untuk inferensi dan tolok ukur.

Model, bahasa, dan wilayah yang didukung

Model Speech-to-Text kustom mendukung kombinasi model dan bahasa serta lokalitas berikut untuk pelatihan:

Bahasa	BCP-47	Model dasar
Jerman (Jerman)	de-DE	`latest_long`
Inggris (Australia)	en-AU	`latest_long`
Inggris (Inggris Raya)	en-GB	`latest_long`
Inggris (India)	en-IN	`latest_long`
Inggris (Amerika Serikat)	en-US	`latest_long`
Spanyol (Amerika Serikat)	es-US	`latest_long`
Spanyol (Spanyol)	es-ES	`latest_long`
Prancis (Kanada)	fr-CA	`latest_long`
Prancis (Prancis)	fr-FR	`latest_long`
Hindi (India)	hi-IN	`latest_long`
Italia (Italia)	it-IT	`latest_long`
Jepang (Jepang)	ja-JP	`latest_long`
Korea (Korea Selatan)	ko-KR	`latest_long`
Belanda (Belanda)	nl-NL	`latest_long`
Portugis (Brasil)	pt-BR	`latest_long`
Portugis (Portugal)	pt-PT	`latest_long`

Selain itu, untuk mematuhi persyaratan residensi data Anda, kami menawarkan hardware pelatihan dan deployment di berbagai region. Hardware khusus didukung dalam kombinasi model dan wilayah berikut:

Model dasar	Google Cloud Region	Tugas yang didukung
`latest_long`	`us-east1`	Pelatihan dan Deployment
`latest_long`	`europe-west4`	Pelatihan dan Deployment

Kuota

Untuk pelatihan model Speech-to-Text Kustom, setiap project harus memiliki kuota default yang cukup untuk menjalankan beberapa tugas pelatihan secara serentak dan dimaksudkan untuk memenuhi kebutuhan sebagian besar project tanpa penyesuaian tambahan. Google Cloud Namun, jika Anda perlu menjalankan lebih banyak tugas pelatihan serentak atau memerlukan resource komputasi atau pelabelan yang lebih ekstensif, minta kuota tambahan.

Untuk model Speech-to-Text Kustom yang melayani deployment endpoint, setiap endpoint memiliki batas teoretis 20 kueri per detik (QPS). Jika throughput yang lebih tinggi diperlukan, minta kuota penayangan tambahan.

Harga

Membuat dan menggunakan model Speech-to-Text Kustom melibatkan biaya tertentu yang terutama didasarkan pada resource yang digunakan selama pelatihan dan deployment model berikutnya. Secara khusus, model Speech-to-Text Kustom akan menimbulkan biaya berikut dalam siklus proses model umum:

Pelatihan: Anda akan dikenai biaya untuk jumlah jam pelatihan model. Waktu ini sebanding dengan jumlah jam audio dalam set data pelatihan. Sebagai aturan, pelatihan memerlukan sepersepuluh dari jumlah jam audio dalam set data.
Deployment: Anda akan ditagih untuk setiap jam model di-deploy di endpoint.
Inferensi: Anda akan ditagih untuk jumlah detik audio yang di-streaming untuk transkripsi, sesuai dengan penagihan Speech-to-Text umum.

Memahami biaya ini sangat penting untuk penganggaran dan alokasi resource yang efektif. Untuk mengetahui informasi selengkapnya, di bagian model Custom Speech-to-Text, lihat Harga Cloud Speech-to-Text.

Langkah berikutnya

Ikuti referensi untuk memanfaatkan model ucapan kustom dalam aplikasi Anda: