Set data berisi sampel perwakilan dari jenis konten yang ingin Anda terjemahkan, sebagai pasangan kalimat yang cocok dalam bahasa sumber dan target. Set data berfungsi sebagai input untuk melatih model.
Langkah-langkah utama dalam membangun set data adalah:
- Buat set data dan identifikasi bahasa sumber dan target.
- Impor pasangan kalimat ke dalam set data.
Sebuah project dapat memiliki beberapa set data, yang masing-masing digunakan untuk melatih model terpisah. Anda bisa mendapatkan daftar set data yang tersedia dan menghapus set data yang tidak diperlukan lagi.
Membuat set data
Langkah pertama dalam membuat model kustom adalah membuat set data kosong yang pada akhirnya akan menyimpan data pelatihan untuk model tersebut. Saat membuat set data, Anda mengidentifikasi bahasa sumber dan target untuk model tersebut. Untuk mengetahui informasi selengkapnya tentang varian dan bahasa yang didukung, silakan melihat Dukungan bahasa untuk model kustom.
UI web
UI AutoML Translation memungkinkan Anda membuat set data baru dan mengimpor item ke dalamnya dari halaman yang sama.
Buka UI AutoML Translation.
Pilih project tempat Anda mengaktifkan AutoML Translation dari menu drop-down di kanan atas batang judul.
Di tab Set data, klik Buat set data.
Dalam dialog Buat set data, lakukan tindakan berikut:
- Masukkan nama untuk set data.
Pilih bahasa sumber dan target dari menu drop-down. Saat Anda memilih bahasa Terjemahkan dari, bahasa Terjemahkan ke yang tersedia akan muncul.
Klik Buat. Tab Impor akan terbuka.
REST
Mengirim permintaan buat set data
Berikut ini cara mengirim permintaan POST
ke
metode project.locations.datasets/create
.
Contoh ini menggunakan token akses untuk akun layanan yang disiapkan untuk project menggunakan Google Cloud CLI.
Sebelum menggunakan data permintaan apa pun, ganti nilai berikut ini:
- project-id: project ID Google Cloud Platform Anda
- dataset-name: nama set data baru
- source-language-code: bahasa sumber terjemahan, sebagai kode ISO 639-1, misalnya 'en'
- target-language-code: target bahasa terjemahan, sebagai kode ISO 639-1, misalnya 'es'
Metode HTTP dan URL:
POST https://automl.googleapis.com/v1/projects/project-id/locations/us-central1/datasets
Isi JSON permintaan:
{ "displayName": "dataset-name", "translationDatasetMetadata": { "sourceLanguageCode": "source-language-code", "targetLanguageCode": "target-language-code" } }
Untuk mengirim permintaan, luaskan salah satu opsi berikut:
Anda akan melihat respons JSON yang mirip dengan berikut ini:
{ "name": "projects/project-number/locations/us-central1/operations/operation-id", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1.OperationMetadata", "createTime": "2019-10-01T22:13:48.155710Z", "updateTime": "2019-10-01T22:13:48.155710Z", "createDatasetDetails": {} } }
Mendapatkan hasil
Untuk mendapatkan hasil permintaan, Anda harus mengirim permintaan GET
ke
resource operations
. Berikut ini cara mengirim permintaan
tersebut.
Sebelum menggunakan data permintaan apa pun, ganti nilai berikut ini:
- operation-name: nama operasi seperti yang ditampilkan dalam respons terhadap panggilan asli ke API
- project-id: project ID Google Cloud Platform Anda
Metode HTTP dan URL:
GET https://automl.googleapis.com/v1/operation-name
Untuk mengirim permintaan, luaskan salah satu opsi berikut:
Anda akan melihat respons JSON yang mirip dengan berikut ini:
{ "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1.OperationMetadata", "createTime": "2019-10-01T22:13:48.155710Z", "updateTime": "2019-10-01T22:13:52.321072Z", ... }, "done": true, "response": { "@type": "resource-type", "name": "resource-name" } }
Go
Guna mempelajari cara menginstal dan menggunakan library klien untuk AutoML Translation, silakan melihat library klien AutoML Translation. Untuk mengetahui informasi selengkapnya, silakan melihat dokumentasi referensi API Go Cloud Translation.
Untuk melakukan autentikasi ke AutoML Translation, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, silakan melihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Java
Guna mempelajari cara menginstal dan menggunakan library klien untuk AutoML Translation, silakan melihat library klien AutoML Translation. Untuk mengetahui informasi selengkapnya, silakan melihat dokumentasi referensi API Java Cloud Translation.
Untuk melakukan autentikasi ke AutoML Translation, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, silakan melihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Guna mempelajari cara menginstal dan menggunakan library klien untuk AutoML Translation, silakan melihat library klien AutoML Translation. Untuk mengetahui informasi selengkapnya, silakan melihat dokumentasi referensi API Node.js Cloud Translation.
Untuk melakukan autentikasi ke AutoML Translation, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, silakan melihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Python
Guna mempelajari cara menginstal dan menggunakan library klien untuk AutoML Translation, silakan melihat library klien AutoML Translation. Untuk mengetahui informasi selengkapnya, silakan melihat dokumentasi referensi API Python Cloud Translation.
Untuk melakukan autentikasi ke AutoML Translation, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, silakan melihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Bahasa tambahan
C# : Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi AutoML Translation untuk .NET.
PHP : Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi AutoML Translation untuk PHP.
Ruby : Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi AutoML Translation untuk Ruby.
Mengimpor item ke dalam set data
Setelah membuat set data, Anda dapat mengimpor pasangan kalimat pelatihan ke dalamnya. Untuk mengetahui detail tentang penyiapan data pelatihan, silakan melihat Menyiapkan data pelatihan.
UI web
UI AutoML Translation memungkinkan Anda membuat set data baru dan mengimpor item ke dalamnya dari halaman yang sama (silakan melihat: Membuat set data). Langkah-langkah di bawah ini mengimpor item ke set data yang sudah ada.
Setelah membuat folder set data, upload data Anda.Upload pasangan kalimat yang akan digunakan untuk melatih model.
Pada tab Impor, Anda dapat mengupload file TSV atau TMX dari komputer lokal atau dari Cloud Storage. Untuk file yang diimpor secara lokal, setelah memilih file, klik Jelajah. Daftar folder akan muncul. Pilih folder tempat Anda ingin mengupload file. Direktori yang dihosting di Cloud Storage ini diperlukan untuk menjamin residensi data.
Pilih kotak centang untuk Gunakan file terpisah untuk pelatihan, validasi, dan pengujian (lanjutan) jika Anda ingin mengupload file terpisah yang berisi pasangan kalimat. Opsi ini direkomendasikan jika set data Anda memiliki lebih dari 100.000 pasangan kalimat. Anda harus mengalokasikan maksimal 10.000 pasangan kalimat untuk set validasi dan pengujian. Jika tidak, AutoML Translation akan menampilkan error.
Klik Lanjutkan.
Anda akan kembali ke halaman Set data. Set data Anda menampilkan animasi yang menunjukkan bahwa proses impor dokumen sedang berlangsung. Setelah set data berhasil diupload, Anda akan menerima pesan di alamat email yang digunakan untuk mendaftar ke program tersebut.
Tinjau set data.
Setelah data berhasil diimpor, pilih set data dari tab Set data untuk melihat detail set data. Tab Kalimat diaktifkan dan menampilkan nama set data. Pasangan kalimat dicantumkan. Setiap pasangan ditetapkan ke "pelatihan", "validasi", atau "pengujian", yang menunjukkan pada stage pemrosesan mana pasangan kalimat akan digunakan.
REST
Gunakan
metode projects.locations.datasets.importData
untuk mengimpor item ke set data.
Sebelum menggunakan data permintaan apa pun, ganti nilai berikut ini:
- dataset-name: nama set data Anda, seperti yang ditampilkan oleh API saat membuat set data
- bucket-name: bucket Cloud Storage yang berisi CSV input yang mendeskripsikan set data Anda
- csv-file-name: nama file CSV input yang mendeskripsikan set data Anda
- project-id: project ID Google Cloud Platform Anda
Metode HTTP dan URL:
POST https://automl.googleapis.com/v1/dataset-name:importData
Isi JSON permintaan:
{ "inputConfig": { "gcsSource": { "inputUris": "gs://bucket-name/csv-file-name" } } }
Untuk mengirim permintaan, luaskan salah satu opsi berikut:
Anda akan melihat respons JSON yang mirip dengan berikut ini:
{ "name": "projects/project-number/locations/us-central1/operations/operation-id", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1beta1.OperationMetadata", "createTime": "2018-04-27T01:28:36.128120Z", "updateTime": "2018-04-27T01:28:36.128150Z", "cancellable": true } }
Go
Guna mempelajari cara menginstal dan menggunakan library klien untuk AutoML Translation, silakan melihat library klien AutoML Translation. Untuk mengetahui informasi selengkapnya, silakan melihat dokumentasi referensi API Go Cloud Translation.
Untuk melakukan autentikasi ke AutoML Translation, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, silakan melihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Java
Guna mempelajari cara menginstal dan menggunakan library klien untuk AutoML Translation, silakan melihat library klien AutoML Translation. Untuk mengetahui informasi selengkapnya, silakan melihat dokumentasi referensi API Java Cloud Translation.
Untuk melakukan autentikasi ke AutoML Translation, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, silakan melihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Guna mempelajari cara menginstal dan menggunakan library klien untuk AutoML Translation, silakan melihat library klien AutoML Translation. Untuk mengetahui informasi selengkapnya, silakan melihat dokumentasi referensi API Node.js Cloud Translation.
Untuk melakukan autentikasi ke AutoML Translation, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, silakan melihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Python
Guna mempelajari cara menginstal dan menggunakan library klien untuk AutoML Translation, silakan melihat library klien AutoML Translation. Untuk mengetahui informasi selengkapnya, silakan melihat dokumentasi referensi API Python Cloud Translation.
Untuk melakukan autentikasi ke AutoML Translation, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, silakan melihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Bahasa tambahan
C# : Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi AutoML Translation untuk .NET.
PHP : Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi AutoML Translation untuk PHP.
Ruby : Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi AutoML Translation untuk Ruby.
Setelah membuat dan mengisi set data, Anda siap untuk melatih model (silakan melihat: Membuat dan mengelola model).
Mengelola set data
Membuat daftar set data
Sebuah project dapat mencakup banyak set data. Bagian ini menjelaskan cara mengambil daftar set data yang tersedia untuk sebuah project.
UI web
Untuk melihat daftar set data yang tersedia menggunakan UI AutoML Translation, klik link Set data di bagian atas menu navigasi sebelah kiri.
Untuk melihat set data project yang berbeda, pilih project dari menu drop-down di kanan atas batang judul.
REST
Sebelum menggunakan data permintaan apa pun, ganti nilai berikut ini:
- project-id: project ID Google Cloud Platform Anda
Metode HTTP dan URL:
GET https://automl.googleapis.com/v1/projects/project-id/locations/us-central1/datasets
Untuk mengirim permintaan, luaskan salah satu opsi berikut:
Anda akan melihat respons JSON yang mirip dengan berikut ini:
{ "datasets": [ { "name": "projects/project-number/locations/us-central1/datasets/dataset-id", "displayName": "dataset-display-name", "createTime": "2019-10-01T22:47:38.347689Z", "etag": "AB3BwFpPWn6klFqJ867nz98aXr_JHcfYFQBMYTf7rcO-JMi8Ez4iDSNrRW4Vv501i488", "translationDatasetMetadata": { "sourceLanguageCode": "source-language", "targetLanguageCode": "target-language" } }, ... ] }
Go
Guna mempelajari cara menginstal dan menggunakan library klien untuk AutoML Translation, silakan melihat library klien AutoML Translation. Untuk mengetahui informasi selengkapnya, silakan melihat dokumentasi referensi API Go Cloud Translation.
Untuk melakukan autentikasi ke AutoML Translation, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, silakan melihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Java
Guna mempelajari cara menginstal dan menggunakan library klien untuk AutoML Translation, silakan melihat library klien AutoML Translation. Untuk mengetahui informasi selengkapnya, silakan melihat dokumentasi referensi API Java Cloud Translation.
Untuk melakukan autentikasi ke AutoML Translation, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, silakan melihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Guna mempelajari cara menginstal dan menggunakan library klien untuk AutoML Translation, silakan melihat library klien AutoML Translation. Untuk mengetahui informasi selengkapnya, silakan melihat dokumentasi referensi API Node.js Cloud Translation.
Untuk melakukan autentikasi ke AutoML Translation, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, silakan melihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Python
Guna mempelajari cara menginstal dan menggunakan library klien untuk AutoML Translation, silakan melihat library klien AutoML Translation. Untuk mengetahui informasi selengkapnya, silakan melihat dokumentasi referensi API Python Cloud Translation.
Untuk melakukan autentikasi ke AutoML Translation, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, silakan melihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Bahasa tambahan
C# : Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi AutoML Translation untuk .NET.
PHP : Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi AutoML Translation untuk PHP.
Ruby : Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi AutoML Translation untuk Ruby.
Menghapus set data
UI web
Di UI AutoML Translation, klik link Set data di bagian atas menu navigasi sebelah kiri untuk menampilkan daftar set data yang tersedia.
Klik menu tiga titik di ujung kanan baris yang ingin Anda hapus, lalu pilih Hapus.
Klik Konfirmasi di kotak dialog konfirmasi.
REST
- Ganti dataset-name dengan nama lengkap set data Anda, dari respons saat membuat set data. Nama lengkap memiliki format:
projects/{project-id}/locations/us-central1/datasets/{dataset-id}
Sebelum menggunakan data permintaan apa pun, ganti nilai berikut ini:
- dataset-name: nama set data yang ingin Anda hapus, dalam format
project/project-id/locations/us-central1/datasets/dataset-id
Metode HTTP dan URL:
DELETE https://automl.googleapis.com/v1/dataset-name
Untuk mengirim permintaan, luaskan salah satu opsi berikut:
Anda akan melihat respons JSON yang mirip dengan berikut ini:
{ "name": "projects/project-number/locations/us-central1/operations/operation-id", "metadata": { "@type": "type.googleapis.com/google.cloud.automl.v1.OperationMetadata", "createTime": "2019-10-02T16:43:03.923442Z", "updateTime": "2019-10-02T16:43:03.923442Z", "deleteDetails": {} }, "done": true, "response": { "@type": "type.googleapis.com/google.protobuf.Empty" } }
Go
Guna mempelajari cara menginstal dan menggunakan library klien untuk AutoML Translation, silakan melihat library klien AutoML Translation. Untuk mengetahui informasi selengkapnya, silakan melihat dokumentasi referensi API Go Cloud Translation.
Untuk melakukan autentikasi ke AutoML Translation, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, silakan melihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Java
Guna mempelajari cara menginstal dan menggunakan library klien untuk AutoML Translation, silakan melihat library klien AutoML Translation. Untuk mengetahui informasi selengkapnya, silakan melihat dokumentasi referensi API Java Cloud Translation.
Untuk melakukan autentikasi ke AutoML Translation, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, silakan melihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Guna mempelajari cara menginstal dan menggunakan library klien untuk AutoML Translation, silakan melihat library klien AutoML Translation. Untuk mengetahui informasi selengkapnya, silakan melihat dokumentasi referensi API Node.js Cloud Translation.
Untuk melakukan autentikasi ke AutoML Translation, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, silakan melihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Python
Guna mempelajari cara menginstal dan menggunakan library klien untuk AutoML Translation, silakan melihat library klien AutoML Translation. Untuk mengetahui informasi selengkapnya, silakan melihat dokumentasi referensi API Python Cloud Translation.
Untuk melakukan autentikasi ke AutoML Translation, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, silakan melihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Bahasa tambahan
C# : Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi AutoML Translation untuk .NET.
PHP : Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi AutoML Translation untuk PHP.
Ruby : Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi AutoML Translation untuk Ruby.
Masalah impor
Saat Anda membuat set data, AutoML Translation mungkin menghapus pasangan kalimat jika terlalu panjang atau jika pasangan tersebut sama persis dalam bahasa sumber dan target.
Untuk pasangan kalimat yang terlalu panjang, sebaiknya bagi kalimat menjadi maksimal sekitar 200 kata, lalu buat ulang set data untuk menyertakan pasangan yang dihapus. Saat memproses data Anda, AutoML Translation menggunakan proses internal untuk membuat token data input, yang dapat meningkatkan ukuran kalimat. Data berupa token ini yang digunakan AutoML Translation untuk mengukur ukuran data. Oleh karena itu, batas 200 kata adalah perkiraan untuk panjang maksimum.
Untuk pasangan kalimat yang sama dalam bahasa sumber dan target, Anda dapat menghapusnya dari set data. Jika Anda ingin agar kalimat ini tidak diterjemahkan, gunakan referensi glosarium untuk membuat kamus kustom yang menentukan cara AutoML Translation menangani istilah tertentu.