Membangun solusi analisis ML vision dengan Dataflow dan Cloud Vision API

Last reviewed 2024-05-23 UTC

Dalam arsitektur referensi ini, Anda akan mempelajari kasus penggunaan, alternatif desain, dan pertimbangan desain saat men-deploy pipeline Dataflow untuk memproses file gambar dengan Cloud Vision dan menyimpan hasil yang diproses di BigQuery. Anda dapat menggunakan hasil yang disimpan tersebut untuk analisis data skala besar dan untuk melatih model bawaan BigQuery ML.

Dokumen arsitektur referensi ini ditujukan untuk data engineer dan data scientist.

Arsitektur

Diagram berikut mengilustrasikan alur sistem untuk arsitektur referensi ini.

Arsitektur yang menunjukkan alur informasi untuk penyerapan dan pemicu, pemrosesan, serta proses penyimpanan dan analisis.

Seperti yang ditunjukkan pada diagram sebelumnya, informasi mengalir sebagai berikut:

  1. Penyerapan dan pemicu: Ini adalah tahap pertama alur sistem tempat gambar pertama kali masuk ke sistem. Selama tahap ini, tindakan berikut terjadi:

    1. Klien mengupload file gambar ke bucket Cloud Storage.
    2. Untuk setiap upload file, Cloud Storage akan otomatis mengirim notifikasi input dengan memublikasikan pesan ke Pub/Sub.
  2. Proses: Tahap ini langsung mengikuti tahap transfer dan pemicu. Untuk setiap notifikasi input baru, tindakan berikut akan terjadi:

    1. Pipeline Dataflow memproses notifikasi input file ini, mengekstrak metadata file dari pesan Pub/Sub, dan mengirim referensi file ke Vision API untuk diproses.
    2. Vision API membaca gambar dan membuat anotasi.
    3. Pipeline Dataflow menyimpan anotasi yang dihasilkan oleh Vision API di tabel BigQuery.
  3. Menyimpan dan menganalisis: Ini adalah tahap terakhir dalam alur. Pada tahap ini, Anda dapat melakukan hal berikut dengan hasil yang disimpan:

    1. Buat kueri tabel BigQuery dan analisis anotasi yang disimpan.
    2. Gunakan BigQuery ML atau Vertex AI untuk membuat model dan menjalankan prediksi berdasarkan anotasi yang disimpan.
    3. Lakukan analisis tambahan di pipeline Dataflow (tidak ditampilkan pada diagram ini).

Produk yang digunakan

Arsitektur referensi ini menggunakan produk Google Cloud berikut:

Kasus penggunaan

Vision API mendukung beberapa fitur pemrosesan, termasuk pelabelan gambar, deteksi wajah dan tempat terkenal, pengenalan karakter optik, pemberian tag konten vulgar, dan lainnya. Setiap fitur ini memungkinkan beberapa kasus penggunaan yang berlaku untuk berbagai industri. Dokumen ini berisi beberapa contoh sederhana tentang hal yang dapat dilakukan saat menggunakan Vision API, tetapi spektrum kemungkinan aplikasinya sangat luas.

Vision API juga menawarkan model machine learning terlatih yang andal melalui REST dan RPC API. Anda dapat menetapkan label ke gambar dan mengklasifikasikannya ke dalam jutaan kategori yang telah ditentukan. API ini membantu Anda mendeteksi objek, membaca teks yang dicetak dan ditulis tangan, serta membuat metadata yang berharga ke dalam katalog gambar.

Arsitektur ini tidak memerlukan pelatihan model apa pun sebelum Anda dapat menggunakannya. Jika Anda memerlukan model kustom yang dilatih pada data spesifik, Vertex AI memungkinkan Anda melatih AutoML atau model kustom untuk tujuan computer vision, seperti klasifikasi gambar dan deteksi objek. Atau, Anda dapat menggunakan Vertex AI Vision untuk lingkungan pengembangan aplikasi menyeluruh yang memungkinkan Anda mem-build, men-deploy, dan mengelola aplikasi computer vision.

Alternatif desain

Alih-alih menyimpan gambar di bucket Google Cloud Storage, proses yang menghasilkan gambar dapat memublikasikannya langsung ke sistem pesan, misalnya Pub/Sub, dan pipeline Dataflow dapat mengirim gambar langsung ke Vision API.

Alternatif desain ini dapat menjadi solusi yang baik untuk kasus penggunaan yang sensitif terhadap latensi saat Anda perlu menganalisis gambar dengan ukuran yang relatif kecil. Pub/Sub membatasi ukuran maksimum pesan hingga 10 Mb.

Jika perlu memproses gambar dalam jumlah besar secara batch, Anda dapat menggunakan API asyncBatchAnnotate yang dirancang khusus.

Pertimbangan desain

Bagian ini menjelaskan pertimbangan desain untuk arsitektur referensi ini:

Keamanan, privasi, dan kepatuhan:

Gambar yang diterima dari sumber yang tidak tepercaya dapat berisi malware. Karena Vision API tidak mengeksekusi apa pun berdasarkan gambar yang dianalisisnya, malware berbasis gambar tidak akan memengaruhi API. Jika Anda perlu memindai gambar, ubah pipeline Dataflow untuk menambahkan langkah pemindaian. Untuk mendapatkan hasil yang sama, Anda juga dapat menggunakan langganan terpisah ke topik Pub/Sub dan memindai gambar dalam proses terpisah.

Untuk informasi selengkapnya, lihat Mengotomatiskan pemindaian malware untuk file yang diupload ke Cloud Storage.

Vision API menggunakan Identity and Access Management (IAM) untuk autentikasi. Untuk mengakses Vision API, akun utama keamanan memerlukan akses Cloud Storage > Storage object viewer (roles/storage.objectViewer) ke bucket yang berisi file yang ingin Anda analisis.

Pengoptimalan biaya

Dibandingkan dengan opsi lain yang dibahas, seperti pemrosesan latensi rendah dan pemrosesan batch asinkron, arsitektur referensi ini menggunakan cara yang hemat biaya untuk memproses gambar dalam pipeline streaming dengan mengelompokkan permintaan API. Streaming gambar langsung dengan latensi lebih rendah yang disebutkan di bagian Alternatif desain dapat lebih mahal karena biaya tambahan Pub/Sub dan Dataflow. Untuk pemrosesan gambar yang tidak perlu dilakukan dalam beberapa detik atau menit, Anda dapat menjalankan pipeline Dataflow dalam mode batch. Menjalankan pipeline dalam mode batch dapat memberikan beberapa penghematan jika dibandingkan dengan biaya untuk menjalankan pipeline streaming.

Vision API mendukung anotasi gambar batch asinkron offline untuk semua fitur. Permintaan asinkron mendukung hingga 2.000 gambar per batch. Sebagai respons, Vision API menampilkan file JSON yang disimpan di bucket Cloud Storage.

Vision API juga menyediakan serangkaian fitur untuk menganalisis gambar. Harga adalah per gambar per fitur. Untuk mengurangi biaya, hanya minta fitur tertentu yang Anda perlukan untuk solusi Anda.

Untuk membuat perkiraan biaya berdasarkan proyeksi penggunaan Anda, gunakan kalkulator harga.

Pengoptimalan performa

Vision API adalah API yang membutuhkan banyak resource. Oleh karena itu, pemrosesan gambar dalam skala besar memerlukan orkestrasi panggilan API yang cermat. Pipeline Dataflow menangani pengelompokan permintaan API, menangani pengecualian yang terkait dengan mencapai kuota dengan baik, dan menghasilkan metrik kustom penggunaan API. Metrik ini dapat membantu Anda memutuskan apakah peningkatan kuota API diperlukan, atau apakah parameter pipeline Dataflow harus disesuaikan untuk mengurangi frekuensi permintaan. Untuk mengetahui informasi selengkapnya tentang cara meningkatkan permintaan kuota untuk Vision API, lihat Kuota dan batas.

Pipeline Dataflow memiliki beberapa parameter yang dapat memengaruhi latensi pemrosesan. Untuk informasi selengkapnya tentang parameter ini, lihat Men-deploy solusi analisis visi ML dengan Dataflow dan Vision API.

Deployment

Untuk men-deploy arsitektur ini, lihat Men-deploy solusi analisis visi ML dengan Dataflow dan Vision API.

Langkah selanjutnya

Kontributor

Penulis:

Kontributor lainnya: