Ringkasan model ucapan kustom

Model Speech-to-Text kustom membantu Anda menyesuaikan model pengenalan ucapan dengan kebutuhan spesifik Anda. Layanan ini dirancang untuk meningkatkan akurasi dan relevansi layanan pengenalan ucapan di berbagai lingkungan dan kasus penggunaan, menggunakan data audio dan teks khusus domain Anda.

Model Speech-to-Text Kustom dapat diakses melalui Konsol Google Cloud dan API kami. Dengan fitur ini, Anda akan dapat melatih, mengevaluasi, dan men-deploy model ucapan khusus di lingkungan yang terintegrasi tanpa kode. Untuk pelatihan, Anda hanya perlu menyediakan data audio yang representatif dengan kondisi audio Anda, tanpa transkripsi referensi sebagai set pelatihan. Namun, Anda harus menyediakan data audio dan transkripsi referensinya sebagai bagian dari set evaluasi.

Membuat dan menggunakan model Speech-to-Text kustom memerlukan langkah-langkah berikut:

  1. Menyiapkan dan mengupload data pelatihan di bucket Cloud Storage.
  2. Melatih model kustom baru.
  3. Men-deploy dan mengelola model kustom menggunakan endpoint.
  4. Gunakan dan evaluasi model kustom di aplikasi Anda.

Cara kerjanya

Anda dapat menggunakan model Speech-to-Text Kustom untuk menambah model transkripsi dasar guna meningkatkan pengenalan transkripsi. Beberapa kondisi audio, termasuk sirine, musik, dan suara bising di latar belakang yang berlebihan dapat menimbulkan tantangan akustik. Aksen tertentu atau kosakata yang tidak biasa, nama produk tersebut juga dapat.

Setiap model Speech-to-Text Kustom menggunakan arsitektur berbasis Conformer yang telah dilatih sebelumnya sebagai model dasar yang dilatih dengan data eksklusif dari bahasa yang umum digunakan. Selama proses pelatihan, model dasar akan disesuaikan dengan menyesuaikan persentase yang signifikan dari bobot asli untuk meningkatkan pengenalan kosakata khusus domain dan kondisi audio khusus untuk aplikasi Anda.

Untuk pelatihan model Ucapan ke Teks Kustom yang efektif, Anda harus menyediakan:

  • Minimal 100 jam audio data pelatihan, baik audio saja atau audio dengan transkrip teks yang sesuai sebagai ground truth. Data ini sangat penting untuk fase pelatihan awal, sehingga model dapat mempelajari nuansa pola ucapan dan kosakata secara komprehensif. Untuk mengetahui detailnya, lihat Membuat set data ground truth.
  • Set data terpisah yang berisi setidaknya 10 jam data validasi audio, dengan transkrip teks yang sesuai sebagai kebenaran nyata. Anda dapat mempelajari lebih lanjut format yang diharapkan dan konvensi ground truth yang harus diikuti dalam petunjuk persiapan data kami.

Setelah pelatihan berhasil, Anda dapat men-deploy model Speech-to-Text Kustom di endpoint dengan sekali klik, dan menggunakannya langsung melalui Cloud Speech-to-Text V2 API untuk inferensi dan benchmark.

Model, bahasa, dan wilayah yang didukung

Model Speech-to-Text kustom mendukung kombinasi model, bahasa, dan lokalitas berikut untuk pelatihan:

Bahasa BCP-47 Model dasar

Jerman (Jerman)

de-DE

latest_long

Inggris (Australia)

en-AU

latest_long

Inggris (Inggris Raya)

en-GB

latest_long

Inggris (India)

en-IN

latest_long

Inggris (Amerika Serikat)

en-US

latest_long

Spanyol (Amerika Serikat)

es-US

latest_long

Spanyol (Spanyol)

es-ES

latest_long

Prancis (Kanada)

fr-CA

latest_long

Prancis (Prancis)

fr-FR

latest_long

Hindi (India)

hi-IN

latest_long

Italia (Italia)

it-IT

latest_long

Jepang (Jepang)

ja-JP

latest_long

Korea (Korea Selatan)

ko-KR

latest_long

Belanda (Belanda)

nl-NL

latest_long

Portugis (Brasil)

pt-BR

latest_long

Portugis (Portugal)

pt-PT

latest_long

Selain itu, untuk mematuhi persyaratan residensi data Anda, kami menawarkan hardware pelatihan dan deployment di berbagai region. Hardware khusus didukung dalam kombinasi model dan region berikut:

Model dasar Google Cloud Wilayah Tugas yang didukung

latest_long

us-east1

Pelatihan dan Deployment

latest_long

europe-west4

Pelatihan dan Deployment

Kuota

Untuk pelatihan model Speech-to-Text Kustom, setiap Google Cloud project harus memiliki kuota default yang cukup untuk menjalankan beberapa tugas pelatihan secara serentak dan dimaksudkan untuk memenuhi kebutuhan sebagian besar project tanpa penyesuaian tambahan. Namun, jika Anda perlu menjalankan lebih banyak tugas pelatihan serentak atau memerlukan resource komputasi atau pemberian label yang lebih luas, minta kuota tambahan.

Untuk model Speech-to-Text Kustom yang menayangkan deployment endpoint, setiap endpoint memiliki batas teoretis 20 kueri per detik (QPS). Jika throughput yang lebih tinggi diperlukan, minta kuota penayangan tambahan.

Harga

Membuat dan menggunakan model Speech-to-Text Kustom melibatkan biaya tertentu yang terutama didasarkan pada resource yang digunakan selama pelatihan dan deployment model berikutnya. Secara khusus, model Speech-to-Text Kustom akan dikenai biaya berikut dalam siklus proses model standar:

  • Pelatihan: Anda akan ditagih berdasarkan jumlah jam pelatihan model. Waktu ini sebanding dengan jumlah jam audio dalam set data pelatihan. Sebagai aturan, pelatihan memerlukan sepersepuluh jumlah jam audio dalam set data.
  • Deployment: Anda akan ditagih untuk setiap jam saat model di-deploy di endpoint.
  • Inferensi: Anda akan ditagih berdasarkan jumlah detik audio yang di-streaming untuk transkripsi, sesuai dengan penagihan Speech-to-Text umum.

Memahami biaya ini sangat penting untuk penganggaran dan alokasi resource yang efektif. Untuk mengetahui informasi selengkapnya, di bagian Model Speech-to-Text Kustom, lihat Harga Cloud Speech-to-Text.

Langkah berikutnya

Ikuti referensi untuk memanfaatkan model ucapan kustom dalam aplikasi Anda: