MLOps dengan Intelligent Products Essentials

Last reviewed 2022-06-28 UTC

Dokumen ini menjelaskan arsitektur referensi untuk mengimplementasikan MLOps menggunakan Intelligent Products Essentials dan Vertex AI. Alat ini dapat membantu produsen untuk terus meningkatkan kualitas produknya dengan melakukan hal berikut:

  • Menambahkan kemampuan cerdas untuk memenuhi kebutuhan pelanggan secara lebih efektif.
  • Memonetisasi fitur produk baru.

Dengan mempertimbangkan tujuan tersebut, dokumen ini ditujukan untuk data scientist, engineer machine learning (ML), dan arsitek solusi yang ingin mempelajari arsitektur solusi MLOps untuk produk yang terhubung.

MLOps

Seperti dijelaskan dalam Utang teknis tersembunyi dalam sistem ML, kode ML hanyalah sebagian kecil dari sistem ML yang matang. Selain kode ML dan data berkualitas tinggi, Anda memerlukan cara untuk menjalankan proses ML.

MLOps adalah praktik yang membantu perusahaan untuk membangun, men-deploy, dan menjalankan sistem ML dengan cara yang cepat, dapat diulang, dan andal. MLOps adalah penerapan prinsip DevOps untuk sistem ML. MLOps adalah budaya dan praktik engineering yang ditujukan untuk menyatukan pengembangan sistem ML (Dev) dan operasi sistem ML (Ops). Tujuan MLOps adalah menyediakan serangkaian proses standar dan kemampuan teknologi untuk membangun, men-deploy, serta menjalankan sistem ML dengan cepat dan andal.

Bagian berikut membahas cara MLOps dapat diimplementasikan dengan Intelligent Products Essentials dan Vertex AI.

Persona MLOps

Arsitektur tingkat tinggi Intelligent Products Essentials dan persona pengguna MLOps inti.

Diagram sebelumnya menunjukkan komponen dan persona pengguna MLOps inti berikut:

  • Intelligent Products Essentials: menyimpan data pelanggan, data perangkat, telemetri perangkat, dan data kepemilikan di seluruh BigQuery dan Cloud Storage.
  • Data scientist: bertanggung jawab untuk menganalisis data yang disimpan di Intelligent Products Essentials , rekayasa fitur, pengembangan model, evaluasi model, dan membangun pipeline ML.
  • Engineer ML: bertanggung jawab untuk mengatur dan menghosting deployment model dalam skala besar.

Bagian berikut menjelaskan arsitektur MLOps dari perspektif data scientist dan engineer ML.

Data scientist

Untuk setiap masalah ML, tujuan data scientist adalah menerapkan teknik analitik dan ML lanjutan untuk mengidentifikasi pola dalam prediksi data dan output. Karena data adalah dasar dari ML, data scientist memerlukan akses mudah ke set data dan lingkungan pengembangan yang fleksibel untuk analisis data.

Diagram berikut menunjukkan arsitektur MLOps untuk Intelligent Products Essentials dari perspektif data scientist.

Arsitektur MLOps yang mendetail untuk Intelligent Products Essentials dari perspektif data scientist.

Diagram sebelumnya menunjukkan komponen MLOps berikut untuk data scientist:

  • Vertex AI Workbench: menawarkan infrastruktur komputasi berbasis Jupyter, terkelola sepenuhnya, skalabel, dan siap digunakan perusahaan untuk terhubung ke semua data Google Cloud di organisasi. Data scientist dapat menggunakan infrastruktur ini sebagai lingkungan pengembangan mereka.

  • Vertex AI Feature Store: menyediakan repositori terpusat untuk mengatur, menyimpan, dan menyalurkan fitur ML. Data scientist dapat menggunakan Vertex AI Feature Store untuk menyimpan dan membagikan fitur di seluruh organisasi mereka.

  • Kubeflow Pipelines SDK: memungkinkan data scientist membangun dan men-deploy alur kerja ML portabel dan skalabel berdasarkan container Docker. Setelah data scientist menghasilkan model ML, data scientist dapat mengemas prosedur pelatihan mereka ke dalam pipeline ML menggunakan Kubeflow Pipelines SDK.

  • Vertex AI Pipelines: menyediakan lingkungan eksekusi untuk pipeline ML yang di-build menggunakan Kubeflow Pipelines SDK atau TensorFlow Extended. Untuk Intelligent Products Essentials, sebaiknya Anda menggunakan Kubeflow Pipelines SDK. Saat Anda menggunakan Kubeflow Pipelines SDK, terdapat juga komponen bawaan seperti Komponen Pipeline Google Cloud untuk deployment yang mudah dan cepat. Untuk mengetahui daftar lengkap komponen bawaan, lihat daftar Komponen Pipeline Google Cloud.

  • Cloud Source Repositories: adalah repositori Git pribadi berfitur lengkap yang dihosting di Google Cloud. Setelah data scientist menentukan pipeline ML pelatihan berkelanjutan, mereka dapat menyimpan definisi pipeline dalam repositori sumber, seperti Cloud Source Repositories. Pendekatan ini memicu pipeline continuous integration dan continuous deployment (CI/CD) untuk dijalankan.

ML engineer

Intelligent Products Essentials membantu engineer ML mengotomatiskan operasi model ML secara tepat waktu dan andal. Engineer ML mengelola pipeline CI/CD yang mendukung deployment pipeline, model, dan dalam beberapa kasus, layanan prediksi.

Diagram berikut menunjukkan arsitektur MLOps untuk Intelligent Products Essentials dari perspektif engineer ML.

Arsitektur MLOps yang mendetail untuk Intelligent Products Essentials dari perspektif engineer ML.

Diagram sebelumnya menunjukkan komponen MLOps berikut untuk engineer machine learning:

  • Pipeline CI: mem-build, menguji, dan memaketkan komponen pipeline ML.
  • Pipeline CD: men-deploy pipeline ML ke lingkungan yang sesuai, seperti lingkungan staging atau produksi.
  • Pipeline ML: menyiapkan data pelatihan dan melatih model ML. Panduan ini mencakup langkah-langkah berikut:
    • Ekstraksi data: mengambil set data pelatihan dari sumber data yang telah ditentukan.
    • Validasi data: mengidentifikasi anomali dalam skema data dan distribusi nilai data.
    • Persiapan data: melibatkan pembersihan data, transformasi data, dan rekayasa fitur.
    • Pelatihan model: membuat model terlatih menggunakan data pelatihan dan teknik ML lainnya, seperti pengoptimalan hyperparameter.
    • Evaluasi model: menilai performa model yang dilatih (dari langkah pelatihan model sebelumnya) pada set data pengujian.
    • Validasi model: mengonfirmasi apakah model yang dilatih memenuhi tolok ukur performa prediktif untuk deployment.
  • Pemicu pipeline ML: peristiwa yang dipublikasikan ke Pub/Sub yang memicu pipeline ML untuk pelatihan berkelanjutan.
  • Vertex AI Model Registry: menyimpan berbagai versi model terlatih dan metadatanya yang terkait.
  • Prediksi batch: menerapkan prediksi dalam batch pada data input yang disimpan di Cloud Storage atau BigQuery (tersedia dengan AutoML Tables). Operasi prediksi batch dapat menampilkan hasil prediksi ke Cloud Storage atau BigQuery (tersedia dengan AutoML Tables) untuk digunakan oleh sistem downstream.

Langkah selanjutnya