Membuat tugas evaluasi berkelanjutan

Tugas evaluasi berkelanjutan menentukan cara Layanan Pelabelan Data AI Platform melakukan evaluasi berkelanjutan pada versi model yang telah Anda deploy ke AI Platform Prediction. Saat Anda membuat tugas evaluasi untuk versi model, dua hal mulai terjadi:

  • Saat versi model menayangkan prediksi online, input dan output untuk beberapa prediksi ini akan disimpan dalam tabel BigQuery.
  • Pada interval reguler, tugas evaluasi berkelanjutan berjalan, yang melakukan tugas berikut:
    1. Tugas ini membuat set data Layanan Pemberian Label Data dengan semua baris baru di BigQuery sejak operasi terakhir.
    2. (Opsional) Tugas mengirimkan permintaan pelabelan agar peninjau manual memberikan label kebenaran dasar untuk prediksi.
    3. Tugas ini menghitung serangkaian metrik evaluasi, yang dapat Anda lihat di konsol Google Cloud.

Sebelum memulai

Sebelum memulai, Anda harus men-deploy versi model ke AI Platform Prediction yang memenuhi persyaratan model tertentu. Anda juga harus mengaktifkan Google Cloud API tertentu. Baca Sebelum Anda memulai evaluasi berkelanjutan untuk mempelajari cara memenuhi persyaratan ini.

Mengonfigurasi opsi dasar

Bagian berikut menjelaskan cara membuka halaman pembuatan tugas dan mengonfigurasi detail dasar untuk tugas evaluasi Anda.

Untuk membuat tugas evaluasi versi model, buka halaman untuk versi model tersebut di konsol Google Cloud, lalu buka halaman pembuatan tugas:

  1. Buka halaman AI Platform models di konsol Google Cloud:

    Buka halaman model AI Platform

  2. Klik nama model yang berisi versi model yang ingin Anda buat tugas evaluasinya.

  3. Klik nama versi model yang ingin Anda buatkan tugas evaluasi. Akun tersebut tidak boleh memiliki tugas evaluasi yang terlampir.

  4. Klik tab Evaluasi. Kemudian, klik Siapkan tugas evaluasi.

Menentukan deskripsi, tujuan model, label, dan persentase sampling

Langkah-langkah berikut menjelaskan detail konfigurasi dasar yang harus Anda tentukan dalam formulir pembuatan tugas:

  1. Tambahkan deskripsi untuk tugas evaluasi Anda di kolom Deskripsi tugas.

  2. Tentukan jenis tugas yang dilakukan model machine learning Anda di kolom Tujuan model. Pelajari lebih lanjut jenis model machine learning yang didukung oleh evaluasi berkelanjutan.

    • Jika model Anda melakukan klasifikasi, tentukan apakah model tersebut melakukan klasifikasi label tunggal atau klasifikasi multilabel di kolom Jenis klasifikasi.
    • Jika model Anda melakukan deteksi objek gambar, tentukan intersection-over-union (IOU) minimum antara 0 dan 1. Ini menentukan seberapa mirip kotak pembatas yang diprediksi model Anda harus dibandingkan dengan kotak pembatas kebenaran dasar agar dianggap sebagai prediksi yang benar.
  3. Di kolom Prediction label file path, tentukan jalur ke file CSV di Cloud Storage yang berisi kemungkinan label untuk prediksi model Anda. File ini menentukan kumpulan spesifikasi anotasi untuk model Anda. Pelajari cara menyusun file ini.

  4. Di kolom Persentase sampel harian, tentukan persentase prediksi yang ditayangkan oleh versi model yang ingin Anda ekspor ke BigQuery dan dianalisis sebagai bagian dari evaluasi berkelanjutan.

    Selain itu, tentukan Batas sampel harian untuk menetapkan jumlah maksimum prediksi yang ingin Anda ambil sampelnya selama satu periode evaluasi.

    Misalnya, Anda mungkin ingin mengambil sampel 10% prediksi untuk evaluasi berkelanjutan. Namun, jika Anda mendapatkan banyak prediksi pada hari tertentu, Anda harus memastikan bahwa Anda tidak pernah mengambil sampel lebih dari 100 prediksi untuk tugas penilaian yang dijalankan pada hari tersebut. (Prediksi dalam jumlah besar mungkin memerlukan waktu lama bagi peninjau manual untuk melabeli dan menimbulkan lebih banyak biaya Layanan Pelabelan Data daripada yang Anda harapkan.)

Tentukan tabel BigQuery Anda

Di kolom BigQuery table, Anda harus menentukan nama tabel BigQuery tempat Layanan Pemberian Label Data dapat menyimpan prediksi yang diambil sampelnya dari versi model Anda.

Jika Anda menentukan nama tabel yang belum ada, Layanan Pemberian Label Data akan membuat tabel dengan skema yang benar untuk Anda.

Anda harus memberikan nama lengkap tabel dalam format berikut: bq://YOUR_PROJECT_ID.YOUR_DATASET_NAME.YOUR_TABLE_NAME

  • YOUR_PROJECT_ID harus berupa ID project tempat Anda saat ini membuat tugas evaluasi.
  • YOUR_DATASET_NAME dapat berupa nama set data BigQuery yang valid. Set data belum perlu ada.
  • YOUR_TABLE_NAME dapat berupa nama tabel BigQuery yang valid.

Jika tabel yang Anda tentukan sudah ada, tabel tersebut harus memiliki skema yang benar untuk evaluasi berkelanjutan:

Nama kolomJenisMode
modelSTRINGREQUIRED
model_versionSTRINGREQUIRED
waktuTIMESTAMPREQUIRED
raw_dataSTRINGREQUIRED
raw_predictionSTRINGNULLABLE
groundtruthSTRINGNULLABLE

Tabel tidak boleh memiliki kolom tambahan selain ini.

Menentukan kunci prediksi

Anda harus menentukan kunci ke kolom tertentu dalam input agar Layanan Pemberian Label Data dapat mengekstrak informasi yang diperlukan dari input prediksi mentah dan JSON output yang disimpan di tabel BigQuery. Pastikan versi model Anda menerima input dan menampilkan prediksi dalam format yang diperlukan. Kemudian, berikan kunci yang relevan:

  • Kunci data: Kunci ke kolom dalam input prediksi versi model Anda yang berisi data yang digunakan untuk prediksi. Jika Anda mengaktifkan pelabelan manual, Layanan Pelabelan Data akan memberikan data ini kepada peninjau manual untuk memberikan label data yang benar. Model ini juga menggunakannya untuk menampilkan perbandingan berdampingan saat Anda melihat metrik evaluasi di konsol Google Cloud.

    Jika versi model Anda melakukan klasifikasi teks atau klasifikasi umum, Anda harus memberikan kunci ini. Jika versi model Anda melakukan klasifikasi gambar atau deteksi objek gambar dan menerima gambar berenkode base64 sebagai input prediksi, Anda juga harus memberikan kunci ini.

  • Kunci referensi data: Kunci ke kolom dalam input prediksi versi model Anda yang berisi jalur Cloud Storage ke gambar. Layanan Pelabelan Data memuat image ini dan menggunakannya untuk tujuan yang sama seperti menggunakan Kunci data.

    Hanya berikan kunci ini jika versi model Anda melakukan klasifikasi gambar atau deteksi objek gambar dan menerima jalur ke gambar di Cloud Storage sebagai input prediksi. Setidaknya salah satu dari Kunci data dan Kunci referensi data harus ada.

  • Kunci label prediksi: Kunci untuk kolom dalam output prediksi versi model Anda yang berisi array label yang diprediksi. Data Labeling Service membandingkan nilai ini dengan nilai kebenaran dasar untuk menghitung metrik evaluasi seperti matriks kebingungan.

    Kolom ini wajib diisi.

  • Prediction score key: Kunci untuk kolom dalam output prediksi versi model Anda yang berisi array skor yang diprediksi. Data Labeling Service menggunakan nilai ini bersama dengan label prediksi dan label kebenaran dasar untuk menghitung metrik evaluasi seperti kurva presisi-recall.

    Kolom ini wajib diisi.

  • Kunci kotak pembatas: Kunci untuk kolom dalam output prediksi versi model Anda yang berisi array kotak pembatas. Hal ini diperlukan untuk mengevaluasi deteksi objek gambar.

    Hanya berikan kunci ini jika versi model Anda melakukan deteksi objek gambar.

Contoh kunci prediksi

Bagian berikut memberikan contoh cara memberikan kunci prediksi untuk berbagai jenis model:

Klasifikasi gambar

Contoh berenkode base64

Misalnya, versi model Anda dapat menerima input berikut:

{
  "instances": [
    {
      "image_bytes": {
        "b64": "iVBORw0KGgoAAAANSUhEUgAAAAYAAAAGCAYAAADgzO9IAAAAhUlEQVR4AWOAgZeONnHvHcXiGJDBqyDTXa+dVC888oy51F9+eRdY8NdWwYz/RyT//znEsAjEt277+syt5VMJw989DM/+H2MI/L8tVBQk4d38xcWp7ctLhi97ZCZ0rXV6yLA4b6dH59sjTq3fnji1fp4AsWS5j7PXstRg+/b3gU7N351AQgA8+jkf43sjaQAAAABJRU5ErkJggg=="
      }
    }
  ]
}

Dan anggaplah perintah tersebut menampilkan output berikut:

{
  "predictions": [
    {
      "sentiments": [
        "happy"
      ],
      "confidence": [
        "0.8"
      ]
    }
  ]
}

Kemudian, berikan kunci berikut:

  • Kunci data: image_bytes/b64
  • Kunci label prediksi: sentiments
  • Kunci skor prediksi: confidence

Contoh referensi Cloud Storage

Misalnya, versi model Anda dapat menerima input berikut:

{
  "instances": [
    {
      "image_path": "gs://cloud-samples-data/datalabeling/image/flower_1.jpeg"
    }
  ]
}

Dan anggaplah perintah tersebut menampilkan output berikut:

{
  "predictions": [
    {
      "sentiments": [
        "happy"
      ],
      "confidence": [
        "0.8"
      ]
    }
  ]
}

Kemudian, berikan kunci berikut:

  • Kunci referensi data: image_path
  • Kunci label prediksi: sentiments
  • Kunci skor prediksi: confidence

Klasifikasi teks

Misalnya, versi model Anda dapat menerima input berikut:

{
  "instances": [
    {
      "text": "If music be the food of love, play on;"
    }
  ]
}

Dan anggaplah perintah tersebut menampilkan output berikut:

{
  "predictions": [
    {
      "sentiments": [
        "happy"
      ],
      "confidence": [
        "0.8"
      ]
    }
  ]
}

Kemudian, berikan kunci berikut:

  • Kunci data: text
  • Kunci label prediksi: sentiments
  • Kunci skor prediksi: confidence

Klasifikasi umum

Misalnya, versi model Anda dapat menerima input berikut:

{
  "instances": [
    {
      "weather": [
        "sunny",
        72,
        0.22
      ]
    }
  ]
}

Dan anggaplah perintah tersebut menampilkan output berikut:

{
  "predictions": [
    {
      "sentiments": [
        "happy"
      ],
      "confidence": [
        "0.8"
      ]
    }
  ]
}

Kemudian, berikan kunci berikut:

  • Kunci data: weather
  • Kunci label prediksi: sentiments
  • Kunci skor prediksi: confidence

Deteksi objek gambar

Contoh berenkode base64

Misalnya, versi model Anda dapat menerima input berikut:

{
  "instances": [
    {
      "image_bytes": {
        "b64": "iVBORw0KGgoAAAANSUhEUgAAAAYAAAAGCAYAAADgzO9IAAAAhUlEQVR4AWOAgZeONnHvHcXiGJDBqyDTXa+dVC888oy51F9+eRdY8NdWwYz/RyT//znEsAjEt277+syt5VMJw989DM/+H2MI/L8tVBQk4d38xcWp7ctLhi97ZCZ0rXV6yLA4b6dH59sjTq3fnji1fp4AsWS5j7PXstRg+/b3gU7N351AQgA8+jkf43sjaQAAAABJRU5ErkJggg=="
      }
    }
  ]
}

Dan anggaplah perintah tersebut menampilkan output berikut:

{
  "predictions": [
    {
      "bird_locations": [
        {
          "top_left": {
            "x": 53,
            "y": 22
          },
          "bottom_right": {
            "x": 98,
            "y": 150
          }
        }
      ],
      "species": [
        "rufous hummingbird"
      ],
      "probability": [
        0.77
      ]
    }
  ]
}

Kemudian, berikan kunci berikut:

  • Kunci data: image_bytes/b64
  • Kunci label prediksi: species
  • Kunci skor prediksi: probability
  • Kunci kotak pembatas: bird_locations

Contoh referensi Cloud Storage

Misalnya, versi model Anda dapat menerima input berikut:

{
  "instances": [
    {
      "image_path": "gs://cloud-samples-data/datalabeling/image/flower_1.jpeg"
    }
  ]
}

Dan anggaplah perintah tersebut menampilkan output berikut:

{
  "predictions": [
    {
      "bird_locations": [
        {
          "top_left": {
            "x": 53,
            "y": 22
          },
          "bottom_right": {
            "x": 98,
            "y": 150
          }
        }
      ],
      "species": [
        "rufous hummingbird"
      ],
      "probability": [
        0.77
      ]
    }
  ]
}

Kemudian, berikan kunci berikut:

  • Kunci referensi data: image_path
  • Kunci label prediksi: species
  • Kunci skor prediksi: probability
  • Kunci kotak pembatas: bird_locations

Menentukan metode kebenaran dasar

Evaluasi berkelanjutan berfungsi dengan membandingkan prediksi model machine learning Anda dengan label kebenaran dasar yang dianotasi oleh manusia. Pilih cara Anda ingin membuat label kebenaran dasar dengan mengklik Metode kebenaran dasar yang diinginkan:

  • Layanan pemberian label yang dikelola Google: Jika Anda memilih opsi ini, setiap kali tugas evaluasi berjalan, Layanan Pemberian Label Data akan mengirimkan semua data sampel baru kepada peninjau manusia untuk diberi label dengan ground truth. Harga Layanan Pelabelan Data berlaku. Jika memilih opsi ini, Anda harus memberikan petunjuk PDF untuk memberi label pada input prediksi. Pelajari cara menulis petunjuk yang baik.

  • Berikan label Anda sendiri: Jika memilih opsi ini, Anda harus menambahkan label ground truth ke tabel BigQuery tugas evaluasi Anda sendiri. Anda harus menambahkan label kebenaran dasar untuk input prediksi baru yang diambil sampelnya sebelum tugas evaluasi dijalankan lagi. Secara default, tugas evaluasi berjalan setiap hari pukul 10.00 UTC, jadi Anda harus menambahkan label kebenaran dasar setiap hari untuk baris baru di tabel BigQuery sebelum waktu tersebut. Jika tidak, data tersebut tidak akan dievaluasi dan Anda akan melihat error di konsol Google Cloud.

    Ini adalah satu-satunya opsi jika versi model Anda melakukan klasifikasi umum.

Membuat tugas

Klik tombol Create untuk membuat tugas evaluasi. Input dan output prediksi akan segera mulai diambil sampelnya dari versi model ke dalam tabel BigQuery.

Langkah selanjutnya

Pelajari cara melihat metrik evaluasi.