Membuat dan mengelola set data

Set data berisi sampel perwakilan dari jenis konten yang ingin diterjemahkan, sebagai pasangan segmen yang cocok dalam bahasa sumber dan target. Set data berfungsi sebagai input untuk melatih model.

Sebuah project dapat memiliki beberapa set data; masing-masing dapat digunakan untuk melatih model yang terpisah.

Membuat set data

Buat set data untuk menampung data pelatihan bagi model Anda. Saat membuat set data, tentukan bahasa sumber dan target dari data pelatihan Anda. Untuk informasi lebih lanjut mengenai varian dan bahasa yang didukung, silakan melihat Dukungan bahasa untuk model kustom.

UI web

Konsol AutoML Translation dapat Anda gunakan untuk membuat set data baru dan mengimpor item ke dalamnya.
  1. Buka konsol AutoML Translation.

    Buka halaman Translation

  2. Di panel navigasi, klik Set Data.

  3. Di halaman Set Data, klik Buat Set Data.

  4. Dalam dialog Buat Set Data, tentukan detail tentang set data:

    • Masukkan nama untuk set data.
    • Pilih bahasa sumber dan target dari menu drop-down.
    • Klik Create.

REST

Contoh berikut menunjukkan cara mengirim permintaan POST ke metode project.locations.datasets/create.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • PROJECT_ID: Project ID Google Cloud Anda.
  • LOCATION: Region tempat set data akan berada, seperti us-central1.
  • DATASET_NAME: Nama untuk set data.
  • SOURCE_LANG_CODE: Kode bahasa yang menentukan bahasa sumber set data.
  • TARGET_LANG_CODE: Kode bahasa yang menentukan bahasa target set data.

Metode HTTP dan URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Meminta isi JSON:

{
  "display_name": "DATASET_NAME",
  "source_language_code": "SOURCE_LANG_CODE",
  "target_language_code": "TARGET_LANG_CODE"
}

Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:

Anda akan menerima respons JSON yang mirip dengan yang berikut ini:

{
  "name": "projects/PROJECT_NAME/locations/LOCATION/operations/OPERATION_ID"
}

Bahasa tambahan

C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk .NET.

PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk PHP.

Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk Ruby.

Mengimpor segmen ke set data

Setelah membuat set data, Anda dapat mengimpor pasangan segmen ke dalam set data. Untuk detail tentang menyiapkan data sumber, lihat Menyiapkan data pelatihan.

Untuk setiap file, konsol Google Cloud memungkinkan Anda memberi tag pada pasangan segmen yang diimpor dengan satu atau beberapa pasangan nilai kunci. Pemberian tag memudahkan Anda menemukan dan memfilter segmen berdasarkan sumber. Misalnya, pasangan nilai kunci dapat berupa Domain:costmetics atau Year:2020.

Anda dapat menambahkan tag saat mengimpor segmen melalui konsol Google Cloud ; pemberian tag tidak didukung oleh API. Selain itu, Anda tidak dapat mengubah tag atau menambahkan tag ke segmen yang telah diimpor.

UI Web

Langkah-langkah berikut akan mengimpor item ke dalam set data yang ada.

  1. Buka konsol AutoML Translation.

    Buka halaman Translation

  2. Di panel navigasi, klik Set Data.

  3. Dari daftar set data, klik nama set data yang ingin tambahkan dengan data pelatihan.

  4. Buka tab Import.

  5. Tambahkan file untuk mengimpor pasangan segmen guna pelatihan model.

    Upload file dari komputer lokal Anda ke bucket Cloud Storage atau pilih file yang sudah ada dari Cloud Storage.

    Secara default, Cloud Translation secara otomatis membagi data Anda menjadi set pelatihan, validasi, dan pengujian. Jika Anda ingin mengupload file terpisah untuk setiap bagian, pilih Gunakan file terpisah untuk pelatihan, validasi, dan pengujian (tingkat lanjut). Gunakan opsi ini jika set data Anda memiliki lebih dari 100.000 pasangan segmen agar tidak melebihi batas maksimum 10.000 pasangan segmen untuk set validasi dan pengujian.

  6. Untuk menambahkan tag ke pasangan segmen, luaskan Tag (opsional).

    1. Dari daftar file, klik Edit untuk menambahkan satu atau beberapa tag ke semua pasangan segmen untuk file tertentu.

    2. Di panel Tags, klik Add tag.

    3. Masukkan kunci dan nilai. Anda dapat memfilter segmen berdasarkan pasangan nilai kunci ini.

    4. Untuk menambahkan tag lainnya, klik Tambahkan tag.

    5. Klik Lanjutkan setelah Anda selesai menambahkan tag.

  7. Klik Lanjutkan untuk mengimpor pasangan segmen.

    Setelah proses impor selesai, Anda dapat melihat pasangan kalimat yang diimpor di tab Kalimat set data. Anda memfilter segmen menurut pemisahan (pelatihan, validasi, atau pengujian) dan menurut satu atau beberapa tag.

REST

Gunakan metode projects.locations.datasets.importData untuk mengimpor item ke set data.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • PROJECT_ID: Project ID Google Cloud Anda.
  • LOCATION: Region tempat set data akan berada, seperti us-central1.
  • DATASET_ID: ID set data yang akan ditambahkan dengan data.
  • FILE_DISPLAY_NAME: Nama file yang berisi data yang akan diimpor.
  • USAGE: Menentukan pemisahan data untuk pasangan segmen ini (TRAIN, VALIDATION, atau TEST).
  • FILE_PATH: Jalur ke file data sumber di Cloud Storage.

Metode HTTP dan URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:importData

Meminta isi JSON:

{
  "input_config": {
    "input_files": [
      {
        "display_name": "FILE_DISPLAY_NAME",
        "usage": "USAGE",
        "gcs_source": {
          "input_uris": "gs://FILE_PATH"
        }
      },
      ...
    ]
  }
}

Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:

Anda akan menerima respons JSON yang mirip dengan yang berikut ini:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Bahasa tambahan

C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk .NET.

PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk PHP.

Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk Ruby.

Setelah membuat dan mengisi set data, Anda dapat melatih model. Untuk mengetahui informasi selengkapnya, lihat Membuat dan mengelola model).

Masalah saat mengimpor

Saat Anda membuat set data, AutoML Translation mungkin menghapus pasangan segmen jika terlalu panjang, jika segmen dalam bahasa sumber dan target identik (tidak diterjemahkan), atau jika ada duplikat (beberapa segmen dengan teks bahasa sumber).

Untuk pasangan segmen yang terlalu panjang, sebaiknya bagi segmen menjadi sekitar 200 kata atau kurang, lalu buat ulang set data. Batas 200 kata adalah perkiraan untuk panjang maksimum. Saat memproses data Anda, AutoML Translation menggunakan proses internal untuk membuat token data input, yang dapat meningkatkan ukuran segmen. Data berupa token ini digunakan AutoML Translation untuk mengukur ukuran data.

Untuk pasangan segmen yang identik, hapus pasangan segmen tersebut dari set data Anda. Jika Anda ingin mencegah beberapa segmen diterjemahkan, gunakan resource glosarium untuk membuat kamus kustom.

Mengekspor data

Anda dapat mengekspor pasangan segmen dari set data yang ada ke bucket Cloud Storage.

UI web

  1. Buka konsol AutoML Translation.

    Buka halaman Translation

  2. Di panel navigasi, klik Set Data untuk melihat daftar set data Anda.

  3. Klik nama set data yang datanya ingin Anda ekspor.

  4. Di halaman detail set data, klik Export data.

  5. Pilih tujuan Cloud Storage tempat file TSV yang diekspor disimpan.

  6. Klik Export.

    AutoML Translation menghasilkan file TSV yang diberi nama sesuai dengan set pada set datanya (kereta, validasi, dan pengujian).

REST

Gunakan metode projects.locations.datasets.exportData untuk mengekspor data ke Cloud Storage sebagai file TSV.

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • PROJECT_ID: Project ID Google Cloud Anda.
  • LOCATION: Region tempat set data yang akan diekspor berada, seperti us-central1.
  • DATASET_ID: ID set data yang akan diekspor.
  • DESTINATION_DIRECTORY: Jalur Cloud Storage tempat output dikirim.

Metode HTTP dan URL:

POST https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID:exportData

Meminta isi JSON:

{
  "output_config": {
    "gcs_destination": {
      "output_uri_prefix": "gs://DESTINATION_DIRECTORY"
    }
  }
}

Untuk mengirim permintaan Anda, perluas salah satu opsi berikut:

Anda akan menerima respons JSON yang mirip dengan yang berikut ini:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID"
}

Bahasa tambahan

C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk .NET.

PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk PHP.

Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk Ruby.

Mencantumkan set data

Cantumkan set data yang tersedia di project Anda.

UI web

Untuk melihat daftar set data yang tersedia menggunakan konsol AutoML Translation, klik Set Data dari panel navigasi.

Untuk melihat set data project yang berbeda, pilih project dari menu drop-down di kanan atas batang judul.

REST

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • PROJECT_ID: Project ID Google Cloud Anda.
  • LOCATION: Region tempat set data yang akan dicantumkan berada, seperti us-central1.

Metode HTTP dan URL:

GET https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets

Untuk mengirim permintaan, perluas salah satu opsi berikut:

Anda akan menerima respons JSON yang mirip dengan yang berikut ini:

{
  "datasets": [
    {
      "name": "projects/PROJECT_NUMBER/locations/us-central1/datasets/DATASET_ID",
      "displayName": "DATASET_NAME",
      "sourceLanguageCode": "SOURCE_LANG_CODE",
      "targetLanguageCode": "TARGET_LANG_CODE",
      "exampleCount": 8720,
      "createTime": "2022-10-19T23:24:34.734549Z",
      "updateTime": "2022-10-19T23:24:35.357525Z"
    },
    ...
  ]
}

Bahasa tambahan

C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk .NET.

PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk PHP.

Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk Ruby.

Menghapus set data

UI web

  1. Di Konsol AutoML Translation, klik Set Data dari panel navigasi untuk menampilkan daftar set data yang tersedia.

  2. Untuk menghapus set data, pilih Lainnya > Hapus.

  3. Klik Konfirmasi di kotak dialog konfirmasi.

REST

Sebelum menggunakan salah satu data permintaan, lakukan penggantian berikut:

  • PROJECT_ID: Project ID Google Cloud Anda.
  • LOCATION: Region tempat set data yang akan dicantumkan berada, seperti us-central1.
  • DATASET_ID: ID set data yang akan dihapus.

Metode HTTP dan URL:

DELETE https://translation.googleapis.com/v3/projects/PROJECT_ID/locations/LOCATION/datasets/DATASET_ID

Untuk mengirim permintaan, perluas salah satu opsi berikut:

Anda akan menerima respons JSON yang mirip dengan yang berikut ini:

{
  "name": "projects/PROJECT_NUMBER/locations/LOCATION/operations/OPERATION_ID",
  "metadata": {
    "@type": "type.googleapis.com/google.cloud.translation.v3.DeleteDatasetMetadata"
  },
  "done": true
}

Bahasa tambahan

C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk .NET.

PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk PHP.

Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Cloud Translation untuk Ruby.