Membuat dan mengelola set data

Set data berisi sampel perwakilan dari jenis konten yang ingin diterjemahkan, sebagai pasangan segmen yang cocok dalam bahasa sumber dan target. Set data berfungsi sebagai input untuk melatih model.

Sebuah project dapat memiliki beberapa set data; masing-masing dapat digunakan untuk melatih model yang terpisah.

Membuat set data

Buat set data untuk menampung data pelatihan bagi model Anda. Saat membuat set data, tentukan bahasa sumber dan target dari data pelatihan Anda. Untuk informasi lebih lanjut mengenai varian dan bahasa yang didukung, silakan melihat Dukungan bahasa untuk model kustom.

UI web

Konsol AutoML Translation dapat Anda gunakan untuk membuat set data baru dan mengimpor item ke dalamnya.
  1. Buka konsol AutoML Translation.

    Buka halaman Translation

  2. Di panel navigasi, klik Set Data.

  3. Di halaman Set Data, klik Buat Set Data.

  4. Dalam dialog Buat Set Data, tentukan detail tentang set data:

    • Masukkan nama untuk set data.
    • Pilih bahasa sumber dan target dari menu drop-down.
    • Klik Buat.

REST

Contoh berikut menunjukkan cara mengirim permintaan POST ke metode project.locations.datasets/create.

Sebelum menggunakan salah satu data permintaan, buat pengganti berikut:

  • PROJECT_ID: ID project Google Cloud Anda.
  • LOCATION: Region tempat set data akan berada, seperti us-central1.
  • DATASET_NAME: Nama untuk set data.
  • SOURCE_LANG_CODE: Kode bahasa yang menentukan bahasa sumber set data.
  • TARGET_LANG_CODE: Kode bahasa yang menentukan bahasa target set data.

Metode HTTP dan URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Isi JSON permintaan:

{
  "display_name": "DATASET_NAME",
  "source_language_code": "SOURCE_LANG_CODE",
  "target_language_code": "TARGET_LANG_CODE"
}

Untuk mengirim permintaan, perluas salah satu opsi berikut:

Anda akan melihat respons JSON yang mirip dengan berikut ini:

{
  "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID"
}

Bahasa tambahan

C# : Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk .NET.

PHP : Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk PHP.

Ruby : Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk Ruby.

Mengimpor segmen ke set data

Setelah membuat set data, Anda dapat mengimpor pasangan segmen ke dalam set data. Untuk detail tentang menyiapkan data sumber, lihat Menyiapkan data pelatihan.

UI web

Langkah-langkah berikut akan mengimpor item ke dalam set data yang ada.

  1. Buka konsol AutoML Translation.

    Buka halaman Translation

  2. Di panel navigasi, klik Set Data.

  3. Dari daftar set data, klik nama set data yang ingin tambahkan dengan data pelatihan.

  4. Buka tab Import.

  5. Upload pasangan segmen yang akan digunakan untuk membuat model.

    Upload file dari komputer lokal Anda ke bucket Cloud Storage atau pilih file yang sudah ada dari Cloud Storage.

    Secara default, Cloud Translation secara otomatis membagi data Anda menjadi set pelatihan, validasi, dan pengujian. Jika Anda ingin mengupload file terpisah untuk setiap bagian, pilih Gunakan file terpisah untuk pelatihan, validasi, dan pengujian (tingkat lanjut). Gunakan opsi ini jika set data Anda memiliki lebih dari 100.000 pasangan segmen agar tidak melebihi batas maksimum 10.000 pasangan segmen untuk set validasi dan pengujian.

  6. Klik Lanjutkan.

    Setelah proses impor selesai, Anda dapat melihat pasangan kalimat yang diimpor di tab Kalimat set data. Anda juga dapat memfilter segmen menurut pemisahan (pelatihan, validasi, atau pengujian).

REST

Gunakan metode projects.locations.datasets.importData untuk mengimpor item ke set data.

Sebelum menggunakan salah satu data permintaan, buat pengganti berikut:

  • PROJECT_ID: ID project Google Cloud Anda.
  • LOCATION: Region tempat set data akan berada, seperti us-central1.
  • DATASET_ID: ID set data yang akan ditambahkan dengan data.
  • FILE_DISPLAY_NAME: Nama file yang berisi data yang akan diimpor.
  • USAGE: Menentukan pemisahan data untuk pasangan segmen ini (TRAIN, VALIDATION, atau TEST).
  • FILE_PATH: Jalur ke file data sumber di Cloud Storage.

Metode HTTP dan URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData

Isi JSON permintaan:

{
  "input_config": {
    "input_files": [
      {
        "display_name": "FILE_DISPLAY_NAME",
        "usage": "USAGE",
        "gcs_source": {
          "input_uris": "gs://FILE_PATH"
        }
      },
      ...
    ]
  }
}

Untuk mengirim permintaan, perluas salah satu opsi berikut:

Anda akan melihat respons JSON yang mirip dengan berikut ini:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Bahasa tambahan

C# : Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk .NET.

PHP : Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk PHP.

Ruby : Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk Ruby.

Setelah membuat dan mengisi set data, Anda dapat melatih model. Untuk mengetahui informasi selengkapnya, lihat Membuat dan mengelola model).

Masalah saat mengimpor

Saat Anda membuat set data, AutoML Translation mungkin menghapus pasangan segmen jika terlalu panjang, jika segmen dalam bahasa sumber dan target identik (tidak diterjemahkan), atau jika ada duplikat (beberapa segmen dengan teks bahasa sumber).

Untuk pasangan segmen yang terlalu panjang, sebaiknya bagi segmen menjadi sekitar 200 kata atau kurang, lalu buat ulang set data. Batas 200 kata adalah perkiraan untuk panjang maksimum. Saat memproses data Anda, AutoML Translation menggunakan proses internal untuk membuat token data input, yang dapat meningkatkan ukuran segmen. Data berupa token ini digunakan AutoML Translation untuk mengukur ukuran data.

Untuk pasangan segmen yang identik, hapus pasangan segmen tersebut dari set data Anda. Jika Anda ingin mencegah beberapa segmen diterjemahkan, gunakan resource glosarium untuk membuat kamus kustom.

Mengekspor data

Anda dapat mengekspor pasangan segmen dari set data yang ada ke bucket Cloud Storage.

UI web

  1. Buka konsol AutoML Translation.

    Buka halaman Translation

  2. Di panel navigasi, klik Set Data untuk melihat daftar set data Anda.

  3. Klik nama set data yang datanya ingin Anda ekspor.

  4. Di halaman detail set data, klik Export data.

  5. Pilih tujuan Cloud Storage tempat file TSV yang diekspor disimpan.

  6. Klik Export.

    AutoML Translation menghasilkan file TSV yang diberi nama sesuai dengan set pada set datanya (kereta, validasi, dan pengujian).

REST

Gunakan metode projects.locations.datasets.exportData untuk mengekspor data ke Cloud Storage sebagai file TSV.

Sebelum menggunakan salah satu data permintaan, buat pengganti berikut:

  • PROJECT_ID: ID project Google Cloud Anda.
  • LOCATION: Region tempat set data yang akan diekspor berada, seperti us-central1.
  • DATASET_ID: ID set data yang akan diekspor.
  • DESTINATION_DIRECTORY: Jalur Cloud Storage tempat output dikirim.

Metode HTTP dan URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData

Isi JSON permintaan:

{
  "output_config": {
    "gcs_destination": {
      "output_uri_prefix": "gs://DESTINATION_DIRECTORY"
    }
  }
}

Untuk mengirim permintaan, perluas salah satu opsi berikut:

Anda akan melihat respons JSON yang mirip dengan berikut ini:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Bahasa tambahan

C# : Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk .NET.

PHP : Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk PHP.

Ruby : Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk Ruby.

Mencantumkan set data

Cantumkan set data yang tersedia di project Anda.

UI web

Untuk melihat daftar set data yang tersedia menggunakan konsol AutoML Translation, klik Set Data dari panel navigasi.

Untuk melihat set data project yang berbeda, pilih project dari menu drop-down di kanan atas batang judul.

REST

Sebelum menggunakan salah satu data permintaan, buat pengganti berikut:

  • PROJECT_ID: ID project Google Cloud Anda.
  • LOCATION: Region tempat set data yang akan dicantumkan berada, seperti us-central1.

Metode HTTP dan URL:

GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Untuk mengirim permintaan, perluas salah satu opsi berikut:

Anda akan melihat respons JSON yang mirip dengan berikut ini:

{
  "datasets": [
    {
      "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID",
      "displayName": "DATASET_NAME",
      "sourceLanguageCode": "SOURCE_LANG_CODE",
      "targetLanguageCode": "TARGET_LANG_CODE",
      "exampleCount": 8720,
      "createTime": "2022-10-19T23:24:34.734549Z",
      "updateTime": "2022-10-19T23:24:35.357525Z"
    },
    ...
  ]
}

Bahasa tambahan

C# : Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk .NET.

PHP : Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk PHP.

Ruby : Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk Ruby.

Menghapus set data

UI web

  1. Di Konsol AutoML Translation, klik Set Data dari panel navigasi untuk menampilkan daftar set data yang tersedia.

  2. Untuk menghapus set data, pilih Lainnya > Hapus.

  3. Klik Konfirmasi di kotak dialog konfirmasi.

REST

Sebelum menggunakan salah satu data permintaan, buat pengganti berikut:

  • PROJECT_ID: ID project Google Cloud Anda.
  • LOCATION: Region tempat set data yang akan dicantumkan berada, seperti us-central1.
  • DATASET_ID: ID set data yang akan dihapus.

Metode HTTP dan URL:

DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID

Untuk mengirim permintaan, perluas salah satu opsi berikut:

Anda akan melihat respons JSON yang mirip dengan berikut ini:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata"
  },
  "done": true
}

Bahasa tambahan

C# : Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk .NET.

PHP : Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk PHP.

Ruby : Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk Ruby.