Halaman ini diterjemahkan oleh Cloud Translation API.

Melatih dan mengevaluasi

Document AI memungkinkan Anda melatih versi pemroses baru menggunakan data pelatihan Anda sendiri dan mengevaluasi kualitas versi pemroses Anda terhadap data pengujian Anda sendiri.

Hal ini berguna jika Anda ingin menggunakan pemroses kustom. Ada prosesor Document AI untuk jenis dokumen Anda, tetapi Anda dapat melatih versi kustomnya untuk memenuhi kebutuhan Anda.

Pelatihan dan evaluasi biasanya dilakukan secara bersamaan untuk melakukan iterasi menuju versi pemroses yang berkualitas tinggi dan dapat digunakan.

Document AI

Document AI memungkinkan Anda membuat pengekstraksi kustom sendiri, yang mengekstrak entity dari dokumen dengan jenis tertentu, misalnya, item dalam menu atau nama dan informasi kontak dari resume.

Tidak seperti pemroses lainnya, pemroses kustom tidak dilengkapi dengan versi pemroses yang telah dilatih sebelumnya dan oleh karena itu, tidak dapat memproses dokumen apa pun hingga Anda melatih versi dari awal.

Untuk mulai menggunakan Document AI, lihat Membangun prosesor kustom Anda sendiri.

Melatih pemroses

Anda dapat meng-uptrain versi pemroses baru untuk meningkatkan akurasi pada data Anda, mengekstrak kolom kustom tambahan dari dokumen Anda, dan menambahkan dukungan untuk bahasa baru.

Pelatihan naik versi berfungsi dengan menerapkan transfer learning pada versi prosesor terlatih Google dan umumnya memerlukan lebih sedikit data daripada pelatihan dari awal.

Untuk memulai, lihat Melatih ulang pemroses terlatih.

Prosesor yang didukung

Tidak semua prosesor khusus mendukung pelatihan naik. Berikut adalah prosesor yang mendukung pelatihan up.

Pertimbangan dan rekomendasi data

Kualitas dan jumlah data Anda menentukan kualitas pelatihan, pelatihan ulang, dan evaluasi.

Mendapatkan sekumpulan dokumen dunia nyata yang representatif dan memberikan label berkualitas tinggi yang memadai sering kali menjadi bagian proses yang paling memakan waktu dan membutuhkan banyak sumber daya.

Jumlah dokumen

Jika semua dokumen Anda memiliki format yang serupa (misalnya, formulir tetap dengan variasi yang sangat rendah), maka lebih sedikit dokumen yang diperlukan untuk mencapai akurasi. Makin tinggi variasinya, makin banyak dokumen yang diperlukan.

Diagram berikut memberikan perkiraan kasar jumlah dokumen yang diperlukan agar Ekstraktor Dokumen Kustom mencapai skor kualitas tertentu.

Variasi rendah	Variasi tinggi

Pelabelan data

Pertimbangkan opsi untuk memberi label pada dokumen dan pastikan Anda memiliki cukup sumber daya untuk memberi anotasi pada dokumen dalam set data.

Melatih model

Prosesor ekstraktor kustom dapat menggunakan berbagai jenis model bergantung pada kasus penggunaan tertentu dan data pelatihan yang tersedia.

Model kustom: model yang menggunakan data pelatihan berlabel.
- Berbasis template: dokumen dengan tata letak tetap.
- Berbasis model: dokumen dengan beberapa variasi tata letak.
Model AI generatif: berdasarkan model dasar terlatih yang memerlukan pelatihan tambahan minimal.

Tabel berikut menggambarkan kasus penggunaan yang sesuai dengan setiap jenis model.

	Model kustom		AI Generatif
	Berbasis template	Berbasis model	AI Generatif
Variasi tata letak	Tidak ada	Rendah hingga sedang	Tinggi
Jumlah teks bentuk bebas (misalnya, paragraf dalam kontrak)	Rendah	Rendah	Tinggi
Jumlah data pelatihan yang diperlukan	Rendah	Tinggi	Rendah
Akurasi dengan data pelatihan terbatas	Lebih tinggi	Lebih rendah	Lebih tinggi

Pelajari cara Menyesuaikan prosesor dengan deskripsi properti.

Kapan harus menggunakan prosesor lain

Berikut adalah beberapa contoh saat Anda mungkin ingin mempertimbangkan opsi selain Document AI Workbench, atau menyesuaikan alur kerja Anda.

Format input berbasis teks tertentu (.txt, .html, .docx, .md, dan sebagainya) tidak didukung oleh Document AI Workbench. Pertimbangkan penawaran pemrosesan bahasa bawaan atau kustom lainnya di Google Cloud, seperti Cloud Natural Language API.
Skema Pengekstrak Dokumen Kustom mendukung hingga 150 label entitas. Jika logika bisnis Anda memerlukan lebih dari 150 entitas dalam definisi skema, pertimbangkan untuk melatih beberapa pemroses, yang masing-masing menargetkan subset entitas.

Cara melatih pemroses

Dengan asumsi bahwa Anda telah membuat pemroses yang mendukung pelatihan atau uptraining dan melabeli set data, Anda dapat melatih versi pemroses baru dari awal. Atau, Anda dapat melakukan pelatihan ulang versi prosesor baru berdasarkan versi yang sudah ada.

Melatih versi pemroses

UI Web

Di Google Cloud console, buka tab Train prosesor Anda.

Buka Galeri Prosesor
Klik Edit Skema untuk membuka halaman Kelola Label. Verifikasi label prosesor.

Label yang diaktifkan pada saat pelatihan menentukan entity yang diekstrak oleh versi pemroses baru Anda. Jika label tidak aktif dalam skema, versi pemroses tidak akan mengekstrak label tersebut, meskipun dokumen diberi label.
Di tab Train, klik View Label Stats dan verifikasi set data pengujian dan pelatihan Anda. Dokumen yang berlabel otomatis, tidak berlabel, atau tidak ditetapkan dikecualikan dari pelatihan dan evaluasi.
Klik Train new version.

Nama Versi menentukan kolom name dari processorVersion.
Klik Start training dan tunggu hingga versi prosesor baru Anda dilatih dan dievaluasi.

Anda dapat memantau progres pelatihan di tab Kelola Versi:
Klik tab Evaluate & Test untuk melihat performa versi prosesor baru Anda pada set pengujian. Untuk mengetahui informasi selengkapnya, lihat Mengevaluasi versi pemroses.

Python

Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python Document AI.

Untuk melakukan autentikasi ke Document AI, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, lihat Menyiapkan autentikasi untuk lingkungan pengembangan lokal.


from typing import Optional

from google.api_core.client_options import ClientOptions
from google.cloud import documentai  # type: ignore

# TODO(developer): Uncomment these variables before running the sample.
# project_id = 'YOUR_PROJECT_ID'
# location = 'YOUR_PROCESSOR_LOCATION' # Format is 'us' or 'eu'
# processor_id = 'YOUR_PROCESSOR_ID'
# processor_version_display_name = 'new-processor-version'
# train_data_uri = 'gs://bucket/directory/' # (Optional)
# test_data_uri = 'gs://bucket/directory/' # (Optional)


def train_processor_version_sample(
    project_id: str,
    location: str,
    processor_id: str,
    processor_version_display_name: str,
    train_data_uri: Optional[str] = None,
    test_data_uri: Optional[str] = None,
) -> None:
    # You must set the api_endpoint if you use a location other than 'us', e.g.:
    opts = ClientOptions(api_endpoint=f"{location}-documentai.googleapis.com")

    client = documentai.DocumentProcessorServiceClient(client_options=opts)

    # The full resource name of the processor
    # e.g. `projects/{project_id}/locations/{location}/processors/{processor_id}
    parent = client.processor_path(project_id, location, processor_id)

    processor_version = documentai.ProcessorVersion(
        display_name=processor_version_display_name
    )

    # If train/test data is not supplied, the default sets in the Cloud Console will be used
    input_data = documentai.TrainProcessorVersionRequest.InputData(
        training_documents=documentai.BatchDocumentsInputConfig(
            gcs_prefix=documentai.GcsPrefix(gcs_uri_prefix=train_data_uri)
        ),
        test_documents=documentai.BatchDocumentsInputConfig(
            gcs_prefix=documentai.GcsPrefix(gcs_uri_prefix=test_data_uri)
        ),
    )

    request = documentai.TrainProcessorVersionRequest(
        parent=parent, processor_version=processor_version, input_data=input_data
    )

    operation = client.train_processor_version(request=request)
    # Print operation details
    print(operation.operation.name)
    # Wait for operation to complete
    response = documentai.TrainProcessorVersionResponse(operation.result())

    metadata = documentai.TrainProcessorVersionMetadata(operation.metadata)

    print(f"New Processor Version:{response.processor_version}")
    print(f"Training Set Validation: {metadata.training_dataset_validation}")
    print(f"Test Set Validation: {metadata.test_dataset_validation}")

Men-deploy dan menggunakan versi pemroses

Anda dapat men-deploy dan mengelola versi pemroses seperti versi pemroses lainnya. Untuk mengetahui informasi selengkapnya, lihat Mengelola versi pemroses.

Setelah di-deploy, Anda dapat Mengirim permintaan pemrosesan ke pemroses kustom Anda.

Menonaktifkan atau menghapus pemroses

Jika tidak ingin lagi menggunakan prosesor, Anda dapat menonaktifkan atau menghapusnya. Jika Anda menonaktifkan prosesor, Anda dapat mengaktifkannya kembali. Jika Anda menghapus pemroses, Anda tidak dapat memulihkannya.

Di panel Document AI di sebelah kiri, klik My processors.
Klik titik vertikal di sebelah kanan nama prosesor. Klik Nonaktifkan prosesor atau Hapus prosesor.

Untuk mengetahui informasi selengkapnya, lihat Mengelola versi pemroses.

Enkripsi data pelatihan

Data pelatihan Document AI disimpan di Cloud Storage dan dapat dienkripsi dengan Kunci enkripsi yang dikelola pelanggan jika diperlukan.

Penghapusan data pelatihan

Setelah tugas pelatihan Document AI selesai, semua data pelatihan yang disimpan di Cloud Storage akan berakhir setelah periode retensi dua hari. Aktivitas penghapusan data berikutnya akan mengikuti proses yang dijelaskan dalam Penghapusan data di Google Cloud.

Harga

Tidak ada biaya untuk pelatihan atau pelatihan ulang. Anda membayar hosting dan prediksi. Untuk mengetahui informasi selengkapnya, lihat Harga Document AI.

Sebelumnya

Proses pemberian label

Berikutnya

Melatih ulang pemroses terlatih

Melatih dan mengevaluasi Tetap teratur dengan koleksi Simpan dan kategorikan konten berdasarkan preferensi Anda.