Halaman ini diterjemahkan oleh Cloud Translation API.

Menyiapkan data pelatihan

Pelajari cara menyiapkan data audio dan teks untuk melakukan fine-tuning model Speech-to-Text Kustom di Google Cloud konsol Speech. Kualitas data pelatihan Anda memengaruhi efektivitas model yang Anda buat. Anda harus menyusun set data beragam yang berisi konteks audio dan teks representatif yang relevan secara langsung dengan apa yang akan direspons model selama waktu inferensi dalam produksi, termasuk derau dan kosakata yang tidak biasa.

Untuk pelatihan model Speech-to-Text Kustom yang efektif, Anda memerlukan:

Minimal 100 jam audio data pelatihan, baik hanya audio atau dengan transkrip teks yang sesuai sebagai data sebenarnya. Data ini sangat penting untuk fase pelatihan awal, sehingga model mempelajari nuansa pola ucapan dan kosakata. Untuk mengetahui detailnya, lihat Membuat set data kebenaran dasar
Kumpulan data terpisah yang berisi minimal 10 jam audio data validasi, dengan transkrip teks yang sesuai sebagai kebenaran dasar.

Sebelum memulai

Pastikan Anda telah mendaftar ke akun Google Cloud , membuat project Google Cloud , dan mengaktifkan Speech-to-Text API:

Buka Cloud Storage.
Buat bucket jika Anda belum memilikinya.

Membuat set data

Untuk membuat set data, Anda harus membuat dua subdirektori di bucket Cloud Storage pilihan Anda. Ikuti konvensi penamaan yang sederhana:

Buat subdirektori training_dataset untuk menyimpan semua file pelatihan Anda.
Buat subdirektori validation_dataset untuk menyimpan semua file pelatihan Anda.
Upload file audio dan teks Anda di direktori dengan mengikuti Pedoman anotasi kebenaran nyata.

Panduan set data

Untuk pelatihan dan validasi, format file yang didukung adalah .wav untuk file audio dalam encoding LINEAR16 dan .txt untuk file teks, jika tersedia. Hindari karakter non-ASCII dalam nama file.
File audio di direktori yang sama harus disediakan dalam file TXT terpisah, masing-masing dengan nama yang sama dengan file WAV yang sesuai, misalnya, my_file_1.wav, my_file_1.txt. Hanya boleh ada satu file transkripsi per file audio.

Data pelatihan

Semua file untuk pelatihan harus disediakan di direktori yang sama, tanpa folder bertingkat.
Opsional: Jika tersedia, berikan transkripsi ke file audio. Tidak memerlukan stempel waktu.
Pastikan durasi audio kumulatif file audio Anda lebih dari 100 jam. Jika tidak, tugas pelatihan akan gagal.

Berikut adalah contoh tampilan struktur direktori setelah file diupload sebagai set data pelatihan:

├── training_dataset
│   ├── example_1.wav
│   ├── example_1.txt
│   ├── example_2.wav
│   ├── example_2.txt
│   ├── example_3.wav (Note: Audio only instance, without corresponding text)
│   └── example_4.wav (Note: Audio only instance, without corresponding text)

Data validasi

Semua file untuk validasi disediakan dalam direktori yang sama bernama validation_dataset tanpa folder bertingkat.
Durasi audio validasi tidak boleh lebih dari 30 detik.
Berikan transkripsi sebenarnya untuk setiap file audio dalam direktori yang sama dalam file TXT terpisah.

Berikut adalah contoh tampilan struktur direktori setelah file diupload sebagai set data validasi:

├── validation_dataset
│   ├── example_1.wav
│   ├── example_1.txt
│   ├── example_2.wav
│   └── example_2.txt

Panduan anotasi kebenaran dasar

Lihat petunjuk pemformatan berikut.

Numbers

Bilangan kardinal dan ordinal hanya boleh ditranskripsikan dalam digit.

Audio: "A deck of cards has fifty two cards, thirteen ranks of the four suits, diamonds, hearts, and spades" (Satu set kartu memiliki lima puluh dua kartu, tiga belas peringkat dari empat jenis kartu, berlian, hati, dan sekop)
Teks sebenarnya: "Satu set kartu memiliki 52 kartu, 13 peringkat dari empat jenis kartu, berlian, hati, dan sekop"

Mata uang dan satuan

Transkripsikan sebagaimana biasanya ditulis dalam lokalitas transkripsi. Singkat semua satuan yang mengikuti nilai numerik. Jika dari konteksnya jelas bahwa angka atau urutan angka merujuk pada mata uang atau waktu, formatlah seperti itu.

Tanggal dan waktu

Transkripsikan dalam bentuk umum untuk tanggal dan waktu yang digunakan dalam bahasa transkripsi. Tulis waktu dalam format hh:mm, jika memungkinkan.

Alamat

Transkripsikan dengan nama lengkap lokasi, jalan, dan negara bagian, misalnya, dengan singkatan jika diucapkan secara eksplisit. Entitas dan lokasi harus ditranskripsikan menggunakan koma di antaranya.

Nama yang benar dan aksen

Transkripsikan menggunakan ejaan dan tanda baca resmi. Jika nama pribadi dapat memiliki beberapa ejaan dan konteks tidak membantu, gunakan ejaan yang paling sering digunakan.

Nama merek, nama produk, dan judul media

Transkripsikan sebagaimana format resminya dan cara penulisannya yang paling umum.

Interjeksi

Tawa atau vokalisasi non-ucapan lainnya harus ditranskripsikan menggunakan hingga tiga suku kata. Tawa yang disertakan dalam ucapan harus diabaikan sepenuhnya. Contoh:

Audio: "ha ha ha ha ha"
Teks sebenarnya: "hahaha"

Beberapa pembicara

Jangan memisahkan kata-kata tersebut dengan tag pembicara, karena diarisasi umumnya tidak didukung.

Langkah berikutnya

Ikuti referensi untuk memanfaatkan model ucapan kustom dalam aplikasi Anda: