Membangun solusi analisis ML vision dengan Dataflow dan Cloud Vision API

Last reviewed 2024-05-23 UTC

Dalam arsitektur referensi ini, Anda akan mempelajari kasus penggunaan, alternatif desain, dan pertimbangan desain saat men-deploy pipeline Dataflow untuk memproses file gambar dengan Cloud Vision dan menyimpan hasil yang diproses di BigQuery. Anda dapat menggunakan hasil yang disimpan tersebut untuk analisis data berskala besar dan untuk melatih model siap pakai BigQuery ML.

Dokumen arsitektur referensi ini ditujukan untuk data engineer dan ilmuwan data.

Arsitektur

Diagram berikut mengilustrasikan alur sistem untuk arsitektur referensi ini.

Arsitektur yang menunjukkan aliran informasi untuk menyerap dan memicu, memproses, serta menyimpan dan menganalisis proses.

Seperti yang ditunjukkan dalam diagram sebelumnya, informasi mengalir sebagai berikut:

  1. Penyerapan dan pemicu: Ini adalah tahap pertama dalam alur sistem tempat image pertama kali memasuki sistem. Selama tahap ini, tindakan berikut akan terjadi:

    1. Klien mengupload file gambar ke bucket Cloud Storage.
    2. Untuk setiap upload file, Cloud Storage otomatis mengirim notifikasi input dengan memublikasikan pesan ke Pub/Sub.
  2. Proses: Tahap ini segera mengikuti tahap penyerapan dan pemicu. Untuk setiap notifikasi input baru, tindakan berikut akan terjadi:

    1. Pipeline Dataflow memproses notifikasi input file ini, mengekstrak metadata file dari pesan Pub/Sub, dan mengirimkan referensi file ke Vision API untuk diproses.
    2. Vision API membaca gambar dan membuat anotasi.
    3. Pipeline Dataflow menyimpan anotasi yang dihasilkan oleh Vision API dalam tabel BigQuery.
  3. Simpan dan analisis: Ini adalah tahap akhir dalam alur. Pada tahap ini, Anda dapat melakukan hal berikut dengan hasil yang disimpan:

    1. Membuat kueri tabel BigQuery dan menganalisis anotasi yang disimpan.
    2. Gunakan BigQuery ML atau Vertex AI untuk membangun model dan menjalankan prediksi berdasarkan anotasi yang disimpan.
    3. Lakukan analisis tambahan dalam pipeline Dataflow (tidak ditampilkan di diagram ini).

Produk yang digunakan

Arsitektur referensi ini menggunakan produk Google Cloud berikut:

Kasus penggunaan

Vision API mendukung berbagai fitur pemrosesan, termasuk pelabelan gambar, deteksi wajah dan struktur, pengenalan karakter optik, pemberian tag konten vulgar, dan lainnya. Masing-masing fitur ini memungkinkan beberapa kasus penggunaan yang dapat diterapkan di berbagai industri. Dokumen ini berisi beberapa contoh sederhana tentang apa yang mungkin dilakukan saat menggunakan Vision API, tetapi spektrum kemungkinan penerapannya sangat luas.

Vision API juga menawarkan model machine learning terlatih yang canggih melalui REST API dan RPC API. Anda dapat menetapkan label ke gambar dan mengklasifikasikannya ke dalam jutaan kategori yang telah ditentukan. API ini membantu Anda mendeteksi objek, membaca teks yang dicetak dan ditulis tangan, serta membangun metadata yang berharga ke dalam katalog gambar Anda.

Arsitektur ini tidak memerlukan pelatihan model apa pun sebelum Anda dapat menggunakannya. Jika Anda memerlukan model kustom yang dilatih dengan data spesifik, Vertex AI memungkinkan Anda melatih AutoML atau model kustom untuk tujuan computer vision, seperti klasifikasi gambar dan deteksi objek. Atau, Anda dapat menggunakan Vertex AI Vision untuk lingkungan pengembangan aplikasi end-to-end yang memungkinkan Anda membangun, men-deploy, dan mengelola aplikasi computer vision.

Alternatif desain

Daripada menyimpan gambar di bucket Google Cloud Storage, proses yang menghasilkan gambar dapat memublikasikannya secara langsung ke sistem pesan—misalnya Pub/Sub—dan pipeline Dataflow dapat mengirimkan gambar secara langsung ke Vision API.

Alternatif desain ini dapat menjadi solusi yang baik untuk kasus penggunaan yang sensitif terhadap latensi, ketika Anda perlu menganalisis gambar yang berukuran relatif kecil. Pub/Sub membatasi ukuran maksimum pesan hingga 10 Mb.

Jika Anda perlu memproses batch gambar dalam jumlah besar, Anda dapat menggunakan asyncBatchAnnotate API yang dirancang khusus.

Pertimbangan desain

Bagian ini menjelaskan pertimbangan desain untuk arsitektur referensi ini:

Keamanan, privasi, dan kepatuhan:

Gambar yang diterima dari sumber yang tidak tepercaya dapat berisi malware. Karena Vision API tidak mengeksekusi apa pun berdasarkan gambar yang dianalisisnya, malware berbasis gambar tidak akan memengaruhi API. Jika Anda perlu memindai gambar, ubah pipeline Dataflow untuk menambahkan langkah pemindaian. Untuk mendapatkan hasil yang sama, Anda juga dapat menggunakan langganan terpisah ke topik Pub/Sub dan memindai gambar dalam proses terpisah.

Untuk mengetahui informasi selengkapnya, lihat Mengotomatiskan pemindaian malware untuk file yang diupload ke Cloud Storage.

Vision API menggunakan Identity and Access Management (IAM) untuk autentikasi. Untuk mengakses Vision API, akun utama keamanan memerlukan akses Cloud Storage > Storage object viewer (roles/storage.objectViewer) ke bucket yang berisi file yang ingin Anda analisis.

Pengoptimalan biaya

Dibandingkan dengan opsi lain yang dibahas, seperti pemrosesan berlatensi rendah dan batch processing asinkron, arsitektur referensi ini menggunakan cara yang hemat biaya untuk memproses gambar di pipeline streaming dengan mengelompokkan permintaan API. Streaming gambar langsung dengan latensi lebih rendah yang disebutkan di bagian Alternatif desain bisa lebih mahal karena adanya biaya Pub/Sub dan Dataflow tambahan. Untuk pemrosesan gambar yang tidak perlu terjadi dalam hitungan detik atau menit, Anda dapat menjalankan pipeline Dataflow dalam mode batch. Menjalankan pipeline dalam mode batch dapat menghemat biaya jika dibandingkan dengan biaya untuk menjalankan pipeline streaming.

Vision API mendukung anotasi gambar batch asinkron offline untuk semua fitur. Permintaan asinkron mendukung hingga 2.000 gambar per batch. Sebagai respons, Vision API menampilkan file JSON yang disimpan dalam bucket Cloud Storage.

Vision API juga menyediakan serangkaian fitur untuk menganalisis gambar. Harga adalah per gambar per fitur. Untuk mengurangi biaya, hanya minta fitur spesifik yang Anda perlukan untuk solusi.

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga.

Pengoptimalan performa

Vision API adalah API yang memerlukan banyak resource. Oleh karena itu, pemrosesan gambar dalam skala besar memerlukan orkestrasi panggilan API yang cermat. Pipeline Dataflow menangani pengelompokan permintaan API, menangani pengecualian yang berkaitan dengan pencapaian kuota, dan menghasilkan metrik kustom penggunaan API dengan baik. Metrik ini dapat membantu Anda memutuskan apakah peningkatan kuota API diperlukan, atau apakah parameter pipeline Dataflow harus disesuaikan untuk mengurangi frekuensi permintaan. Untuk mengetahui informasi selengkapnya tentang meningkatkan permintaan kuota untuk Vision API, lihat Kuota dan batas.

Pipeline Dataflow memiliki beberapa parameter yang dapat memengaruhi latensi pemrosesan. Untuk mengetahui informasi lebih lanjut tentang parameter ini, lihat Men-deploy solusi analisis ML vision dengan Dataflow dan Vision API.

Deployment

Untuk men-deploy arsitektur ini, lihat Men-deploy solusi analisis ML vision dengan Dataflow dan Vision API.

Langkah selanjutnya

Kontributor

Penulis:

Kontributor lainnya:

Untuk melihat profil LinkedIn non-publik, login ke LinkedIn.