Menyiapkan data pelatihan

Pelajari cara menyiapkan data audio dan teks untuk meningkatkan kualitas model Speech-to-Text Kustom di Google Cloud konsol Speech. Kualitas data pelatihan Anda memengaruhi efektivitas model yang Anda buat. Anda harus menyusun set data yang beragam yang berisi konteks audio dan teks representatif yang relevan secara langsung dengan apa yang akan direspons model selama waktu inferensi dalam produksi, termasuk derau dan kosakata yang tidak biasa.

Untuk pelatihan model Ucapan ke Teks Kustom yang efektif, Anda memerlukan:

  • Minimal 100 jam audio data pelatihan, baik audio saja atau dengan transkrip teks yang sesuai sebagai ground truth. Data ini sangat penting untuk fase pelatihan awal, sehingga model dapat mempelajari nuansa pola ucapan dan kosakata. Untuk mengetahui detailnya, lihat Membuat set data ground truth
  • Set data terpisah yang berisi setidaknya 10 jam data validasi audio, dengan transkrip teks yang sesuai sebagai kebenaran nyata.

Sebelum memulai

Pastikan Anda telah mendaftar ke akun Google Cloud , membuat project Google Cloud , dan mengaktifkan Speech-to-Text API:

  1. Buka Cloud Storage.
  2. Buat bucket, jika Anda belum memilikinya.

Membuat set data

Untuk membuat set data, Anda harus membuat dua subdirektori di bucket Cloud Storage pilihan Anda. Ikuti konvensi penamaan yang sederhana:

  1. Buat subdirektori training_dataset untuk menyimpan semua file pelatihan Anda.
  2. Buat subdirektori validation_dataset untuk menyimpan semua file pelatihan Anda.
  3. Upload file audio dan teks Anda di direktori dengan mengikuti Panduan anotasi kebenaran nyata.

Panduan set data

  • Untuk pelatihan dan validasi, format file yang didukung adalah .wav untuk file audio dalam encoding LINEAR16 dan .txt untuk file teks, jika tersedia. Hindari karakter non-ASCII dalam nama file.
  • File audio dalam direktori yang sama harus disediakan dalam file TXT terpisah, masing-masing dengan nama yang sama dengan file WAV yang sesuai, misalnya, my_file_1.wav, my_file_1.txt. Hanya boleh ada satu file transkripsi per file audio.

Data pelatihan

  • Semua file untuk pelatihan harus disediakan dalam direktori yang sama, tanpa folder bertingkat.
  • Opsional: Jika tersedia, berikan transkripsi ke file audio. Stempel waktu tidak diperlukan.
  • Pastikan durasi audio kumulatif file audio Anda lebih dari 100 jam. Jika tidak, tugas pelatihan akan gagal.

Berikut adalah contoh tampilan struktur direktori setelah file diupload sebagai set data pelatihan:

├── training_dataset
│   ├── example_1.wav
│   ├── example_1.txt
│   ├── example_2.wav
│   ├── example_2.txt
│   ├── example_3.wav (Note: Audio only instance, without corresponding text)
│   └── example_4.wav (Note: Audio only instance, without corresponding text)

Data validasi

  • Semua file untuk validasi disediakan di direktori yang sama bernama validation_dataset tanpa folder bertingkat.
  • Durasi audio validasi tidak boleh lebih dari 30 detik.
  • Berikan transkripsi ground truth untuk setiap file audio dalam direktori yang sama dalam file TXT terpisah.

Berikut adalah contoh tampilan struktur direktori setelah file diupload sebagai set data validasi:

├── validation_dataset
│   ├── example_1.wav
│   ├── example_1.txt
│   ├── example_2.wav
│   └── example_2.txt

Panduan anotasi kebenaran dasar

Lihat petunjuk pemformatan berikut.

Numbers

Angka kardinal dan ordinal hanya boleh ditranskripsikan dalam angka.

  • Audio: "Setiap set kartu berisi lima puluh dua kartu, tiga belas peringkat dari empat jenis kartu, yaitu wajik, hati, sekop, dan berlian"
  • Teks ground truth: "Sepak kartu berisi 52 kartu, 13 peringkat dari empat jenis kartu, yaitu wajik, hati, sekop, dan berlian"

Mata uang dan satuan

Transkripsikan seperti yang biasa ditulis dalam lokalitas transkripsi. Singkatkan semua unit yang mengikuti nilai numerik. Jika jelas dari konteks bahwa angka atau urutan angka mengacu pada mata uang atau waktu, formatlah seperti itu.

Tanggal dan waktu

Transkripsikan dalam bentuk umum untuk tanggal dan waktu yang digunakan dalam bahasa transkripsi. Tulis waktu dalam format hh:mm, jika memungkinkan.

Alamat

Transkripsikan dengan nama lengkap lokasi, jalan, dan negara bagian, misalnya, dengan singkatan saat diucapkan secara eksplisit. Entitas dan lokasi harus ditranskripsikan menggunakan koma di antara keduanya.

Nama dan aksen yang tepat

Transkripsikan menggunakan ejaan dan tanda baca resmi. Jika nama pribadi dapat memiliki beberapa ejaan dan konteks tidak membantu, gunakan ejaan yang paling sering digunakan.

Merek, nama produk, dan judul media

Transkripsikan karena formatnya resmi dan biasanya ditulis.

Interjeksi

Tawa atau vokalisasi non-ucapan lainnya harus ditranskripsikan menggunakan maksimal tiga suku kata. Tawa yang disertakan dalam ucapan harus diabaikan sepenuhnya. Contoh:

  • Audio: "ha ha ha ha ha"
  • Teks ground truth: "hahaha"

Beberapa pembicara

Jangan pisahkan dengan tag pembicara, karena diarisasi umumnya tidak didukung.

Langkah berikutnya

Ikuti referensi untuk memanfaatkan model ucapan kustom dalam aplikasi Anda: