Fungsi ML.PROCESS_DOCUMENT

Dokumen ini menjelaskan fungsi ML.PROCESS_DOCUMENT, yang memungkinkan Anda memproses dokumen tidak terstruktur dari tabel objek.

Sintaksis

ML.PROCESS_DOCUMENT(
  MODEL `project_id.dataset.model_name`,
  TABLE `project_id.dataset.object_table`
)

Argumen

ML.PROCESS_DOCUMENT menggunakan argumen berikut:

  • project_id: Project ID Anda.

  • dataset: Set data BigQuery yang berisi model.

  • model: Nama model jarak jauh dengan REMOTE_SERVICE_TYPE dari CLOUD_AI_DOCUMENT_V1.

  • object_table: Nama tabel objek yang berisi URI dokumen.

    Dokumen dalam tabel objek harus merupakan jenis yang didukung. Error ditampilkan untuk setiap baris yang berisi dokumen dari jenis yang tidak didukung.

Output

ML.PROCESS_DOCUMENT menampilkan kolom berikut:

  • ml_process_document_result: nilai JSON berisi entity yang ditampilkan oleh Document AI API.
  • ml_process_document_result_status: nilai STRING yang berisi status respons API untuk baris yang sesuai. Nilai ini kosong jika operasi berhasil.
  • Kolom yang ditampilkan oleh pemroses yang ditentukan dalam model.
  • Kolom tabel objek.

Kuota

Lihat Kuota dan batas fungsi layanan Cloud AI.

Lokasi

ML.PROCESS_DOCUMENT harus berjalan di region yang sama dengan model jarak jauh yang direferensikan oleh fungsi tersebut. Anda hanya dapat membuat model berdasarkan Document AI di multi-region US dan EU.

Batasan

Fungsi ini tidak dapat memproses dokumen yang berisi lebih dari 15 halaman. Setiap baris yang berisi file tersebut akan menampilkan error.

Contoh

Contoh berikut menggunakan parser invoice untuk memproses dokumen yang direpresentasikan oleh tabel documents.

Buat model:

# Create model
CREATE OR REPLACE MODEL
`myproject.mydataset.invoice_parser`
REMOTE WITH CONNECTION `myproject.myregion.myconnection`
OPTIONS (remote_service_type = 'cloud_ai_document_v1',
document_processor='projects/project_number/locations/processor_location/processors/processor_id/processorVersions/version_id');

Proses dokumen:

SELECT *
FROM ML.PROCESS_DOCUMENT(
  MODEL `myproject.mydataset.invoice_parser`,
  TABLE `myproject.mydataset.documents`
);

Hasilnya akan mirip dengan berikut ini:

ml_process_document_result ml_process_document_status invoice_type currency ...
{"entities":[{"confidence":1,"id":"0","mentionText":"10 105,93 10,59","pageAnchor":{"pageRefs":[{"boundingPoly":{"normalizedVertices":[{"x":0.40452111,"y":0.67199326},{"x":0.74776918,"y":0.67199326},{"x":0.74776918,"y":0.68208581},{"x":0.40452111,"y":0.68208581}]}}]},"properties":[{"confidence":0.66... USD

Langkah selanjutnya