Ringkasan model ucapan kustom

Model Speech-to-Text kustom membantu Anda menyesuaikan model pengenalan ucapan sesuai kebutuhan spesifik Anda. Layanan ini dirancang untuk meningkatkan akurasi dan relevansi layanan pengenalan ucapan di beragam lingkungan dan kasus penggunaan, menggunakan data audio dan teks khusus domain Anda.

Model Speech-to-Text Kustom yang dapat diakses di konsol Google Cloud dan API kami dapat melatih, mengevaluasi, dan men-deploy model ucapan khusus dalam lingkungan yang terintegrasi tanpa kode. Untuk pelatihan, Anda hanya perlu menyediakan data audio yang representatif dengan kondisi audio Anda, tanpa transkripsi referensi sebagai set pelatihan. Namun, Anda harus menyediakan data audio dan transkripsi referensinya sebagai bagian dari set evaluasi.

Membuat dan menggunakan model Speech-to-Text kustom melibatkan langkah-langkah berikut:

  1. Menyiapkan dan mengupload data pelatihan dalam bucket Cloud Storage.
  2. Latih model kustom baru.
  3. Deploy dan kelola model kustom menggunakan endpoint.
  4. Menggunakan dan mengevaluasi model kustom dalam aplikasi Anda.

Cara kerjanya

Anda dapat menggunakan model Speech-to-Text Kustom untuk meningkatkan model transkripsi dasar guna meningkatkan pengenalan transkripsi. Beberapa kondisi audio, termasuk sirene, musik, dan suara bising di latar belakang yang berlebihan dapat menimbulkan tantangan akustik. Aksen tertentu atau kosakata yang tidak biasa, dan nama produk tersebut juga bisa.

Setiap model Speech-to-Text Kustom menggunakan arsitektur berbasis Conformer yang telah dilatih sebelumnya sebagai model dasar yang dilatih dengan data eksklusif dari bahasa yang umum diucapkan. Selama proses pelatihan, model dasar disesuaikan dengan menyesuaikan sejumlah besar bobot asli untuk meningkatkan pengenalan kosakata khusus domain dan kondisi audio khusus untuk aplikasi Anda.

Agar pelatihan model Speech-to-Text Kustom yang efektif, Anda harus memberikan:

  • Minimal 100 jam audio data pelatihan, baik audio saja atau audio dengan transkrip teks yang sesuai sebagai kebenaran dasar. Data ini sangat penting untuk fase pelatihan awal, sehingga model ini dapat mempelajari nuansa pola ucapan dan kosakata secara komprehensif. Untuk mengetahui detailnya, lihat Membuat set data kebenaran dasar.
  • Set data terpisah yang berisi minimal 10 jam audio data validasi, dengan transkrip teks yang sesuai sebagai kebenaran dasar. Anda dapat mempelajari lebih lanjut format dan konvensi kebenaran dasar yang diharapkan yang harus diikuti dalam petunjuk persiapan data kami.

Setelah pelatihan berhasil, Anda dapat men-deploy model Speech-to-Text Kustom di endpoint dengan sekali klik, dan menggunakannya langsung melalui Cloud Speech-to-Text V2 API untuk inferensi dan benchmark.

Model, bahasa, dan wilayah yang didukung

Model Speech-to-Text kustom mendukung kombinasi model, bahasa, dan lokalitas berikut untuk pelatihan:

Pemodelan bahasa BCP-47 Model dasar

Jerman (Jerman)

de-DE

latest_long

Inggris (Australia)

en-AU

latest_long

Inggris (Inggris Raya)

en-GB

latest_long

Inggris (India)

en-IN

latest_long

Inggris (Amerika Serikat)

en-US

latest_long

Spanyol (Amerika Serikat)

es-US

latest_long

Spanyol (Spanyol)

es-ES

latest_long

Bahasa Prancis (Kanada)

fr-CA

latest_long

Prancis (Prancis)

fr-FR

latest_long

Hindi (India)

hi-IN

latest_long

Italia (Italia)

it-IT

latest_long

Jepang (Jepang)

ja-JP

latest_long

Korea (Korea Selatan)

ko-KR

latest_long

Belanda (Belanda)

nl-NL

latest_long

Portugis (Brasil)

pt-BR

latest_long

Portugis (Portugal)

pt-PT

latest_long

Selain itu, untuk mematuhi persyaratan residensi data Anda, kami menawarkan pelatihan dan deployment hardware di berbagai wilayah. Hardware khusus didukung dalam kombinasi model dan wilayah berikut:

Model dasar Region Google Cloud Tugas yang didukung

latest_long

us-east1

Pelatihan dan Deployment

latest_long

europe-west4

Pelatihan dan Deployment

Kuota

Untuk pelatihan model Speech-to-Text Kustom, setiap project Google Cloud harus memiliki kuota default yang cukup untuk menjalankan beberapa tugas pelatihan secara serentak dan dimaksudkan untuk memenuhi kebutuhan sebagian besar project tanpa penyesuaian tambahan. Namun, jika Anda perlu menjalankan lebih banyak tugas pelatihan serentak, atau memerlukan resource komputasi atau pelabelan yang lebih ekstensif, mintalah kuota tambahan.

Untuk model Speech-to-Text Kustom yang melayani deployment endpoint, setiap endpoint memiliki batas teoritis 20 kueri per detik (QPS). Jika throughput yang lebih tinggi diperlukan, minta kuota penayangan tambahan.

Harga

Pembuatan dan penggunaan model Speech-to-Text Kustom memerlukan biaya tertentu yang terutama didasarkan pada resource yang digunakan selama pelatihan dan deployment model berikutnya. Secara khusus, model Speech-to-Text Kustom akan dikenai biaya berikut dalam siklus proses model umum:

  • Pelatihan: Anda akan ditagih untuk jumlah jam pelatihan model. Waktu ini sebanding dengan jumlah jam audio dalam set data pelatihan. Biasanya, pelatihan membutuhkan sepersepuluh dari jumlah jam audio dalam set data.
  • Deployment: Anda akan dikenai biaya untuk setiap jam model di-deploy di endpoint.
  • Inferensi: Anda akan dikenai biaya untuk jumlah detik streaming audio untuk transkripsi, sesuai dengan penagihan umum Speech-to-Text.

Memahami biaya-biaya ini sangat penting untuk penganggaran dan alokasi sumber daya yang efektif. Untuk mengetahui informasi selengkapnya, di bagian model Speech-to-Text Kustom, lihat Harga Cloud Speech-to-Text.

Langkah selanjutnya

Ikuti referensi untuk memanfaatkan model ucapan kustom di aplikasi Anda: