Halaman ini diterjemahkan oleh Cloud Translation API.

Mendeteksi teks dalam file

Halaman ini menunjukkan cara mendeteksi teks dalam file menggunakan Optical Character Recognition (OCR) API di perangkat air-gapped Google Distributed Cloud (GDC).

Layanan OCR Vertex AI di perangkat air-gapped GDC mendeteksi teks dalam file PDF dan TIFF menggunakan metode API BatchAnnotateFiles.

Sebelum memulai

Sebelum dapat mulai menggunakan OCR API, Anda harus memiliki project yang mengaktifkan OCR API dan memiliki kredensial yang sesuai. Anda juga dapat menginstal library klien untuk membantu Anda melakukan panggilan ke API. Untuk informasi selengkapnya, lihat Menyiapkan project pengenalan karakter.

Mendeteksi teks dengan permintaan inline

Metode BatchAnnotateFiles mendeteksi teks dari batch file PDF atau TIFF. Anda mengirimkan file yang ingin Anda deteksi teksnya secara langsung sebagai konten dalam permintaan API. Sistem menampilkan teks yang terdeteksi dalam format JSON dalam respons API.

Anda harus menentukan nilai untuk kolom dalam isi JSON permintaan API Anda. Tabel berikut berisi deskripsi kolom isi permintaan yang harus Anda berikan saat menggunakan metode API BatchAnnotateFiles untuk permintaan deteksi teks:

Kolom isi permintaan	Deskripsi kolom
`content`	File dengan teks yang akan dideteksi. Anda memberikan representasi Base64 (string ASCII) dari konten file biner Anda. Catatan: Anda hanya dapat memproses file yang disimpan secara lokal di lingkungan perangkat air-gapped GDC Anda.
`mime_type`	Jenis file sumber. Anda harus menyetelnya ke salah satu nilai berikut: `application/pdf` untuk file PDF `image/tiff` untuk file TIFF
`type`	Jenis deteksi teks yang Anda butuhkan dari file. Tentukan salah satu dari dua fitur anotasi: `TEXT_DETECTION` mendeteksi dan mengekstrak teks dari file apa pun. Respons JSON mencakup string yang diekstrak, setiap kata, dan kotak pembatasnya. `DOCUMENT_TEXT_DETECTION` juga mengekstrak teks dari file, tetapi layanan ini mengoptimalkan respons untuk teks dan dokumen yang padat. JSON mencakup informasi halaman, blok, paragraf, kata, dan jeda. Untuk mengetahui informasi selengkapnya tentang fitur anotasi ini, lihat Fitur pengenalan karakter optik.
`language_hints`	Opsional. Daftar bahasa yang akan digunakan untuk deteksi teks. Sistem menafsirkan nilai kosong untuk kolom ini sebagai deteksi bahasa otomatis. Anda tidak perlu menetapkan kolom `language_hints` untuk bahasa yang didasarkan pada alfabet Latin. Jika Anda mengetahui bahasa teks dalam file, menyetel petunjuk akan meningkatkan hasil. Bagaimana cara kerja petunjuk bahasa? Format `language_hints` menggunakan panduan pemformatan tag bahasa `BCP 47` berikut: `language` ["-" `script`] ["-" `region`] ("-" `variant`) ("-" `extension`) ["-" `privateuse`]. Misalnya, petunjuk bahasa "`en`-`t`-`i0`-`handwrit`" menentukan bahasa Inggris (`en`), singleton ekstensi transformasi (`t`), kode ekstensi transformasi mesin metode input (`i0`), dan kode transformasi tulisan tangan (`handwrit`). Ini secara kasar menyatakan bahwa bahasa tersebut adalah "Bahasa Inggris yang ditransformasi dari tulisan tangan". Anda tidak perlu menentukan kode skrip karena bahasa "`en`" mencakup `Latn`. Untuk mengetahui daftar bahasa yang didukung, lihat Bahasa yang didukung.
`pages`	Opsional. Jumlah halaman dari file yang akan diproses untuk deteksi teks. Jumlah maksimum halaman yang dapat Anda tentukan adalah lima. Jika Anda tidak menentukan jumlah halaman, layanan akan memproses lima halaman pertama file.

Membuat permintaan API inline

Buat permintaan ke API terlatih OCR menggunakan metode REST API. Atau, berinteraksi dengan OCR API terlatih dari skrip Python untuk mendeteksi teks dari file PDF atau TIFF.

Contoh berikut menunjukkan cara mendeteksi teks dalam file menggunakan OCR:

REST

Ikuti langkah-langkah berikut untuk mendeteksi teks dalam file menggunakan metode REST API:

Simpan file request.json berikut untuk isi permintaan Anda:
```
cat <<- EOF > request.json
{
  "requests": [
    {
      "input_config": {
        "content": BASE64_ENCODED_FILE,
        "mime_type": "application/pdf"
      },
      "features": [
        {
          "type": "FEATURE_TYPE"
        }
      ],
      "image_context": {
        "language_hints": [
          "LANGUAGE_HINT_1",
          "LANGUAGE_HINT_2",
          ...
        ]
      },
      "pages": []
    }
  ]
}
EOF
```
Ganti kode berikut:
- BASE64_ENCODED_FILE: representasi Base64 (string ASCII) dari konten file biner Anda. String ini dimulai dengan karakter yang terlihat mirip dengan /9j/4QAYRXhpZgAA...9tAVx/zDQDlGxn//2Q==.
- FEATURE_TYPE: jenis deteksi teks yang Anda butuhkan dari file. Nilai yang diizinkan adalah TEXT_DETECTION atau DOCUMENT_TEXT_DETECTION.
- LANGUAGE_HINT: tag bahasa BCP 47 yang akan digunakan sebagai petunjuk bahasa untuk deteksi teks, seperti en-t-i0-handwrit. Kolom ini bersifat opsional dan sistem menafsirkan nilai kosong sebagai deteksi bahasa otomatis.
Dapatkan token autentikasi.
Buat permintaan:
curl
```
curl -X POST \
  -H "Authorization: Bearer TOKEN" \
  -H "x-goog-user-project: projects/PROJECT_ID" \
  -H "Content-Type: application/json; charset=utf-8" \
  -d @request.json \
  https://ENDPOINT/v1/files:annotate
```
Ganti kode berikut:
- TOKEN: token autentikasi yang Anda peroleh.
- PROJECT_ID: project ID Anda.
- ENDPOINT: endpoint OCR yang Anda gunakan untuk organisasi Anda. Untuk mengetahui informasi selengkapnya, lihat status dan endpoint layanan.
Jika Anda berada di lingkungan pengembangan, tambahkan flag --cacert CERT_NAME ke perintah permintaan curl. Ganti CERT_NAME dengan nama file sertifikat CA, misalnya, org-1-trust-bundle-ca.cert. Untuk mengetahui informasi selengkapnya, lihat Membuat file sertifikat CA paket kepercayaan di lingkungan pengembangan.
PowerShell
```
$headers = @{
  "Authorization" = "Bearer TOKEN"
  "x-goog-user-project" = "projects/PROJECT_ID"
}

Invoke-WebRequest
  -Method POST
  -Headers $headers
  -ContentType: "application/json; charset=utf-8"
  -InFile request.json
  -Uri "ENDPOINT/v1/files:annotate" | Select-Object -Expand Content
```
Ganti kode berikut:
- TOKEN: token autentikasi yang Anda peroleh.
- ENDPOINT: endpoint OCR yang Anda gunakan untuk organisasi Anda. Untuk mengetahui informasi selengkapnya, lihat status dan endpoint layanan.

Python

Ikuti langkah-langkah berikut untuk menggunakan layanan OCR dari skrip Python guna mendeteksi teks dalam file:

Instal library klien OCR versi terbaru.
Tetapkan variabel lingkungan yang diperlukan pada skrip Python.
Lakukan autentikasi permintaan API Anda.

Tambahkan kode berikut ke skrip Python yang Anda buat:

from google.cloud import vision
import google.auth
from google.auth.transport import requests
from google.api_core.client_options import ClientOptions

audience = "https://ENDPOINT:443"
api_endpoint="ENDPOINT:443"

def vision_client(creds):
  opts = ClientOptions(api_endpoint=api_endpoint)
  return vision.ImageAnnotatorClient(credentials=creds, client_options=opts)

def main():
  creds = None
  try:
    creds, project_id = google.auth.default()
    creds = creds.with_gdch_audience(audience)
    req = requests.Request()
    creds.refresh(req)
    print("Got token: ")
    print(creds.token)
  except Exception as e:
    print("Caught exception" + str(e))
    raise e
  return creds

def vision_func(creds):
  vc = vision_client(creds)
  input_config = {"content": "BASE64_ENCODED_FILE"}
  features = [{"type_": vision.Feature.Type.FEATURE_TYPE}]
  # Each requests element corresponds to a single file. To annotate more
  # files, create a request element for each file and add it to
  # the array of requests
  req = {"input_config": input_config, "features": features}

  metadata = [("x-goog-user-project", "projects/PROJECT_ID")]

  resp = vc.annotate_file(req,metadata=metadata)

  print(resp)

if __name__=="__main__":
  creds = main()
  vision_func(creds)

Ganti kode berikut:

ENDPOINT: endpoint OCR yang Anda gunakan untuk organisasi Anda. Untuk mengetahui informasi selengkapnya, lihat status dan endpoint layanan.
BASE64_ENCODED_FILE: representasi Base64 (string ASCII) dari konten file Anda. String ini dimulai dengan karakter yang terlihat mirip dengan /9j/4QAYRXhpZgAA...9tAVx/zDQDlGxn//2Q==.
FEATURE_TYPE: jenis deteksi teks yang Anda butuhkan dari file. Nilai yang diizinkan adalah TEXT_DETECTION atau DOCUMENT_TEXT_DETECTION.
PROJECT_ID: project ID Anda.

Simpan skrip Python.
Jalankan skrip Python untuk mendeteksi teks dalam file:
```
python SCRIPT_NAME
```
Ganti SCRIPT_NAME dengan nama yang Anda berikan ke skrip Python, seperti vision.py.