Pelajari cara menyiapkan data audio dan teks untuk menyempurnakan model Speech-to-Text Kustom di konsol Google Cloud Speech. Kualitas data pelatihan Anda memengaruhi efektivitas model yang Anda buat. Anda harus menyusun berbagai set data yang berisi konteks audio dan teks representatif yang secara langsung relevan dengan respons model selama waktu inferensi dalam produksi, termasuk derau dan kosakata yang tidak biasa.
Agar pelatihan model Speech-to-Text Kustom yang efektif, Anda memerlukan:
- Minimal 100 jam audio data pelatihan, baik audio saja atau dengan transkrip teks yang sesuai sebagai kebenaran dasar. Data ini sangat penting untuk fase pelatihan awal, sehingga model ini dapat mempelajari nuansa pola ucapan dan kosakata. Untuk mengetahui detailnya, lihat Membuat set data kebenaran dasar
- Set data terpisah yang berisi minimal 10 jam audio data validasi, dengan transkrip teks yang sesuai sebagai kebenaran dasar.
Sebelum memulai
Pastikan Anda telah mendaftar untuk mendapatkan akun Google Cloud, membuat project Google Cloud, dan mengaktifkan Speech-to-Text API:
- Buka Cloud Storage.
- Buat bucket jika Anda belum memilikinya.
Membuat set data
Untuk membuat set data, Anda perlu membuat dua subdirektori di bucket Cloud Storage pilihan Anda. Ikuti konvensi penamaan sederhana:
- Buat subdirektori training_dataset untuk menyimpan semua file pelatihan Anda.
- Buat subdirektori validation_dataset untuk menyimpan semua file pelatihan Anda.
- Upload file audio dan teks dalam direktori dengan mengikuti Panduan anotasi kebenaran dasar.
Panduan set data
- Untuk pelatihan dan validasi, format file yang didukung adalah
.wav
untuk file audio dalam encoding LINEAR16 dan.txt
untuk file teks, jika tersedia. Hindari karakter non-ASCII dalam nama file. - File audio dalam direktori yang sama harus disediakan dalam file TXT terpisah, masing-masing dengan nama yang sama dengan file WAV yang sesuai, misalnya, my_file_1.wav, my_file_1.txt. Hanya boleh ada satu file transkripsi per file audio.
Data pelatihan
- Semua file untuk pelatihan harus disediakan pada direktori yang sama, tanpa folder bertingkat.
- Opsional: Jika tersedia, berikan transkripsi ke file audio. Tidak perlu stempel waktu.
- Pastikan durasi audio kumulatif file audio Anda lebih dari 100 jam. Jika tidak, tugas pelatihan akan gagal.
Berikut adalah contoh tampilan struktur direktori setelah file diupload sebagai set data pelatihan:
├── training_dataset │ ├── example_1.wav │ ├── example_1.txt │ ├── example_2.wav │ ├── example_2.txt │ ├── example_3.wav (Note: Audio only instance, without corresponding text) │ └── example_4.wav (Note: Audio only instance, without corresponding text)
Data validasi
- Semua file untuk validasi disediakan di direktori yang sama dengan nama validation_dataset tanpa folder bertingkat.
- Audio validasi tidak boleh berdurasi lebih dari 30 detik.
- Berikan transkripsi kebenaran dasar untuk setiap file audio di direktori yang sama dalam file TXT terpisah.
Berikut adalah contoh tampilan struktur direktori setelah file diupload sebagai set data validasi:
├── validation_dataset │ ├── example_1.wav │ ├── example_1.txt │ ├── example_2.wav │ └── example_2.txt
Panduan anotasi kebenaran dasar
Lihat petunjuk pemformatan berikut.
Numbers
Kardinal dan ordinal harus ditranskripsikan hanya dalam digit.
- Audio: "Kumpulan kartu memiliki lima puluh dua kartu, tiga belas peringkat dari empat setelan, berlian, hati, dan sekop"
- Teks kebenaran dasar: "Satu set kartu memiliki 52 kartu, 13 peringkat dari empat setelan, berlian, hati, dan sekop"
Mata uang dan satuan
Transkripsikan teks seperti yang biasanya ditulis dalam lokalitas transkripsi. Singkatkan semua unit yang mengikuti nilai numerik. Jika konteksnya jelas bahwa angka atau urutan angka mengacu pada mata uang atau waktu, format seperti itu.
Tanggal dan waktu
Transkripsikan dalam bentuk umum untuk tanggal dan waktu yang digunakan dalam bahasa transkripsi. Tulis waktu dalam format hh:mm
, jika memungkinkan.
Alamat
Transkripsikan dengan nama lengkap lokasi, jalan, dan negara bagian, misalnya, dengan singkatan jika diucapkan secara eksplisit. Entitas dan lokasi harus ditranskripsikan menggunakan koma di antara entitas tersebut.
Nama dan aksen yang tepat
Transkripsikan menggunakan ejaan dan tanda baca resmi. Jika nama pribadi memiliki beberapa ejaan dan konteksnya tidak membantu, gunakan ejaan yang paling sering.
Merek, nama produk, dan judul media
Transkripsikan teks sebagaimana diformat secara resmi dan paling umum ditulis.
Interjeksi
Tawa atau vokalisasi non-suara lainnya harus ditranskripsikan menggunakan hingga tiga suku kata. Tawa yang termasuk dalam ucapan harus diabaikan sepenuhnya. Contoh:
- Audio: "ha ha ha ha ha"
- Teks kebenaran dasar: "hahaha"
Beberapa pembicara
Jangan memisahkannya dengan tag pembicara, karena pemisahan umumnya tidak didukung.
Langkah selanjutnya
Ikuti referensi untuk memanfaatkan model ucapan kustom di aplikasi Anda:
- Melatih dan mengelola model kustom Anda
- Men-deploy dan mengelola endpoint model
- Menggunakan model kustom
- Mengevaluasi model kustom