Menyiapkan data pelatihan teks untuk ekstraksi entity

Halaman ini menjelaskan cara menyiapkan data teks yang akan digunakan dalam set data Vertex AI untuk melatih model ekstraksi entity.

Data pelatihan ekstraksi entity terdiri dari dokumen yang dianotasi dengan label yang mengidentifikasi jenis entity yang ingin diidentifikasi oleh model Anda. Misalnya, Anda dapat membuat model ekstraksi entity untuk mengidentifikasi terminologi khusus dalam dokumen hukum atau paten. Anotasi menentukan lokasi entity yang Anda berikan label dan label itu sendiri.

Jika Anda membuat anotasi dokumen terstruktur atau semi-terstruktur untuk set data yang digunakan untuk melatih model AutoML, seperti invoice atau kontrak, Vertex AI dapat mempertimbangkan posisi anotasi di halaman sebagai faktor yang berkontribusi pada label yang tepat. Misalnya, kontrak properti memiliki tanggal persetujuan dan tanggal penutupan. Vertex AI dapat belajar membedakan berbagai entity berdasarkan posisi spasial anotasi.

Persyaratan data

  • Anda harus menyediakan minimal 50, dan tidak lebih dari 100.000, dokumen pelatihan.
  • Anda harus menyediakan minimal 1, dan tidak lebih dari 100, label unik untuk menganotasi entity yang ingin Anda ekstrak.
  • Anda dapat menggunakan label untuk memberikan anotasi antara 1 dan 10 kata.
  • Nama label dapat berisi 2 hingga 30 karakter.
  • Anda dapat menyertakan anotasi dalam file JSON Lines, atau Anda dapat menambahkan anotasi nanti, menggunakan konsol Google Cloud setelah mengupload dokumen.
  • Anda dapat menyertakan dokumen secara inline atau merujuk file TXT yang ada di bucket Cloud Storage.

Praktik terbaik untuk data teks yang digunakan untuk melatih model AutoML

Rekomendasi berikut berlaku untuk set data yang digunakan dalam melatih model AutoML.

  • Gunakan setiap label minimal 200 kali dalam set data pelatihan Anda.
  • Anotasikan setiap kemunculan entity yang akan diidentifikasi oleh model Anda.

File input

Jenis file input untuk ekstraksi entity harus berupa JSON Lines. Format, nama kolom, dan jenis nilai untuk file JSON Lines ditentukan oleh file skema, yang merupakan file YAML yang dapat diakses secara publik.

Anda dapat mendownload file skema untuk ekstraksi entity dari lokasi Cloud Storage berikut:
gs://google-cloud-aiplatform/schema/dataset/ioformat/text_extraction_io_format_1.0.0.yaml

Contoh berikut menunjukkan cara menggunakan skema untuk membuat file JSON Lines Anda sendiri. Contoh ini menyertakan baris baru agar lebih mudah dibaca. Dalam file JSON, sertakan jeda baris hanya setelah setiap dokumen. Kolom dataItemResourceLabels menentukan, misalnya, ml_use dan bersifat opsional.

{
    "textSegmentAnnotations": [
      {
        "startOffset":number,
        "endOffset":number,
        "displayName": "label"
      },
      ...
    ],
    "textContent": "inline_text",
    "dataItemResourceLabels": {
      "aiplatform.googleapis.com/ml_use": "training|test|validation"
    }
}
{
    "textSegmentAnnotations": [
      {
        "startOffset":number,
        "endOffset":number,
        "displayName": "label"
      },
      ...
    ],
    "textGcsUri": "gcs_uri_to_file",
    "dataItemResourceLabels": {
      "aiplatform.googleapis.com/ml_use": "training|test|validation"
    }
}

Anda juga dapat menganotasi dokumen dengan menggunakan konsol Google Cloud. Buat file JSON Lines dengan konten saja (tanpa kolom textSegmentAnnotations); dokumen diupload ke Vertex AI tanpa anotasi apa pun.