Apa yang dimaksud dengan workload AI?

Workload AI adalah kumpulan tugas dan proses komputasi yang mendukung sistem kecerdasan buatan atau machine learning (ML). Anggap saja sebagai komputasi berat yang diperlukan agar aplikasi AI dapat belajar, membuat prediksi, atau menghasilkan konten baru. Workload ini dapat menjadi penting bagi para profesional yang membangun AI, karena mencakup tahapan utama yang mendorong sistem machine learning: persiapan data, pelatihan model, inferensi, dan pemantauan.

Opsi orkestrasi workload AI

Jenis workload AI

Workload AI dan ML dapat dikategorikan secara luas dalam dua cara

  • Tahap dalam siklus proses AI yang diwakilinya (seperti prapemrosesan data, pelatihan, dan inferensi)
  • Jenis tugas yang mereka lakukan (seperti natural language processing atau computer vision)

Memahami jenis-jenis ini membantu pembuat keputusan teknis merencanakan infrastruktur, daya komputasi, dan strategi orkestrasi spesifik yang dibutuhkan masing-masing jenis.

Jenis workload AI

Fungsi utama dalam siklus proses AI

Fokus komputasi yang diperlukan

Persiapan data


Membersihkan, mentransformasi, dan memformat data mentah menjadi status yang siap digunakan model.

Pemrosesan I/O (input/output) yang tinggi dan CPU yang berat untuk manipulasi data.

Pelatihan model

Menggunakan data yang telah disiapkan untuk mengajari model AI, dengan menyesuaikan parameternya secara berulang untuk akurasi.

Daya komputasi ekstrem (GPU/TPU), memori tinggi, dan pemrosesan paralel.

Inferensi model

Men-deploy model terlatih untuk membuat prediksi real-time atau menghasilkan output pada data baru.

Latensi rendah dan throughput tinggi, yang sering kali memerlukan hardware edge atau cloud khusus.

AI Generatif

Membuat konten baru, seperti teks, gambar, atau kode, menggunakan model dasar yang besar.

Inferensi dan penyesuaian skala besar, yang memerlukan GPU/TPU kelas atas.

Computer vision


Memungkinkan mesin menafsirkan dan bertindak berdasarkan data visual seperti gambar dan video.

Throughput data bervolume tinggi dan akselerasi deep learning khusus.

Natural language processing (NLP)

Memproses dan memahami bahasa manusia untuk tugas seperti penerjemahan dan perangkuman.

Kombinasi pelatihan yang dipercepat GPU dan inferensi latensi rendah untuk aplikasi real-time.

Jenis workload AI

Fungsi utama dalam siklus proses AI

Fokus komputasi yang diperlukan

Persiapan data


Membersihkan, mentransformasi, dan memformat data mentah menjadi status yang siap digunakan model.

Pemrosesan I/O (input/output) yang tinggi dan CPU yang berat untuk manipulasi data.

Pelatihan model

Menggunakan data yang telah disiapkan untuk mengajari model AI, dengan menyesuaikan parameternya secara berulang untuk akurasi.

Daya komputasi ekstrem (GPU/TPU), memori tinggi, dan pemrosesan paralel.

Inferensi model

Men-deploy model terlatih untuk membuat prediksi real-time atau menghasilkan output pada data baru.

Latensi rendah dan throughput tinggi, yang sering kali memerlukan hardware edge atau cloud khusus.

AI Generatif

Membuat konten baru, seperti teks, gambar, atau kode, menggunakan model dasar yang besar.

Inferensi dan penyesuaian skala besar, yang memerlukan GPU/TPU kelas atas.

Computer vision


Memungkinkan mesin menafsirkan dan bertindak berdasarkan data visual seperti gambar dan video.

Throughput data bervolume tinggi dan akselerasi deep learning khusus.

Natural language processing (NLP)

Memproses dan memahami bahasa manusia untuk tugas seperti penerjemahan dan perangkuman.

Kombinasi pelatihan yang dipercepat GPU dan inferensi latensi rendah untuk aplikasi real-time.

Pertanyaan umum (FAQ) tentang workload AI

Workload AI terutama ditandai sebagai workload yang intensif data, memproses set data yang besar dan sering kali tidak terstruktur, serta intensif komputasi, yang memerlukan hardware pemrosesan paralel khusus seperti GPU untuk pelatihan. Workload tradisional, seperti database relasional atau server web sederhana, lebih berfokus pada throughput transaksional yang konsisten dan biasanya dioptimalkan untuk arsitektur CPU standar.

Anda memilih workload pelatihan saat perlu membuat model baru atau meningkatkan model yang ada secara signifikan dengan memasukkan data baru, yang dapat memerlukan daya komputasi tinggi dan biaya tinggi.

Anda menggunakan workload inferensi saat model siap dan di-deploy ke produksi, dan Anda memerlukannya untuk membuat prediksi batch atau real-time, yang memprioritaskan latensi rendah dan throughput tinggi dengan biaya per transaksi yang lebih rendah.

Tantangan terbesar biasanya melibatkan orkestrasi, yaitu mengoordinasikan cluster GPU dan TPU yang besar secara efisien. Pengelolaan data, yaitu memastikan akses cepat dan andal ke data berukuran petabyte. Dan, kontrol biaya, yaitu mengelola konsumsi resource komputasi yang mahal untuk mencegah pengeluaran berlebih pada infrastruktur yang tidak digunakan.

Tren yang muncul mencakup penggunaan platform serverless dengan dukungan GPU untuk mengabstraksi pengelolaan infrastruktur, mengadopsi orkestrasi multicloud untuk pemanfaatan resource yang fleksibel, dan memanfaatkan model dasar yang memerlukan pelatihan dari awal yang lebih sedikit dan lebih berfokus pada penyesuaian dan inferensi yang efisien.

Kasus penggunaan umum untuk workload AI

Workload AI adalah inti dari transformasi digital, yang menghadirkan aplikasi dunia nyata yang berdampak tinggi di hampir semua industri, sehingga mengubah data menjadi nilai praktis.

Pengalaman pelanggan yang dipersonalisasi

Workload AI dapat mendukung mesin pemberi saran untuk perusahaan retail, e-commerce, dan media. Misalnya, perusahaan streaming menggunakan model ML canggih, yang dilatih berdasarkan miliaran kebiasaan menonton, untuk memberikan saran konten yang sangat dipersonalisasi.

Pemeliharaan prediktif dalam manufaktur

Produsen memasang sensor pada peralatan penting, sehingga menghasilkan data deret waktu yang sangat besar. Workload AI dapat terus menganalisis data ini untuk memprediksi kegagalan mekanis dalam beberapa hari atau minggu sebelumnya, sehingga memungkinkan pemeliharaan terjadwal.

Deteksi penipuan dan analisis risiko keuangan

Lembaga keuangan menggunakan workload machine learning untuk menganalisis jutaan transaksi secara real time. Model ini dapat mengidentifikasi pola yang mengindikasikan penipuan, dengan beberapa sistem mendeteksi transaksi tidak sah dengan tingkat akurasi yang tinggi dan tingkat positif palsu yang rendah.

Pencitraan dan diagnostik layanan kesehatan

Workload computer vision digunakan untuk menganalisis gambar medis seperti sinar-X, CT scan, dan MRI. Model AI ini dapat menandai potensi anomali, seperti tumor stadium awal, sering kali dengan kecepatan dan konsistensi yang membantu tenaga klinis manusia dalam membuat diagnosis yang lebih cepat dan akurat.

AI generatif dan produksi konten

Workload yang didasarkan pada model AI generatif membantu mentransformasi bidang kreatif dan teknis. LLM digunakan untuk membuat teks pemasaran secara otomatis, menyintesis gambar realistis untuk iklan, membuat ringkasan rapat virtual, atau bahkan membantu developer dengan menyarankan dan melengkapi blok kode.

Mengimplementasikan workload AI di Google Cloud

Google Cloud dapat menawarkan ekosistem terpadu yang canggih yang dibangun di atas infrastruktur yang mendukung kemajuan AI Google sendiri, sehingga menjadikannya platform ideal untuk menghosting, menskalakan, mengorkestrasi, dan mengatur workload AI dan ML Anda.

Vertex AI adalah platform machine learning terpadu yang menggabungkan semua layanan cloud untuk membangun, men-deploy, dan menskalakan model ML. Vertex AI dapat menyediakan satu lingkungan untuk seluruh siklus proses MLOps, sehingga data scientist dan engineer dapat berfokus pada pengembangan model, bukan integrasi alat.

Google Cloud menawarkan berbagai opsi komputasi, termasuk Cloud TPU dan Cloud GPU. Cloud TPU (Tensor Processing Unit) dibuat khusus untuk menyediakan model AI berskala besar. GPU Cloud didukung oleh Unit Pemrosesan Grafis (GPU) NVIDIA yang menawarkan komputasi berperforma tinggi dan fleksibel untuk berbagai workload AI dan HPC.


Vertex AI Pipelines memungkinkan Anda mengotomatiskan, mengelola, dan memantau seluruh alur kerja machine learning menggunakan alat open source seperti Kubeflow. Hal ini dapat menjadi penting untuk membuat proses yang andal dan berulang untuk persiapan, pelatihan, dan deployment data.

Identity and Access Management (IAM) Google Cloud menyediakan kontrol terperinci untuk mengelola siapa yang dapat mengakses dan mengelola resource, data, dan model AI Anda. Hal ini dapat memastikan bahwa hanya personel dan layanan yang berwenang yang dapat berinteraksi dengan workload AI sensitif Anda, sehingga membantu memenuhi standar peraturan dan keamanan yang ketat.

Google Kubernetes Engine (GKE) adalah layanan Kubernetes yang skalabel dan terkelola sepenuhnya yang penting untuk menjalankan workload AI dalam container. Anda dapat mengorkestrasi dan mengelola cluster yang kompleks, dengan fleksibilitas dalam akselerator hardware, serta memperluas lingkungan AI Anda dengan lancar di seluruh cloud publik dan sistem lokal.

Manfaat workload AI

Men-deploy workload AI dapat memberikan keuntungan bisnis dan teknis yang signifikan, terutama dengan berfokus pada efisiensi, skalabilitas yang unggul, dan kemampuan untuk mendorong inovasi berbasis data dengan cepat. Mereka dapat membantu organisasi bertransisi dari operasi reaktif ke strategi yang lebih proaktif dan cerdas.

Skalabilitas dan performa yang dipercepat

Workload AI, khususnya di cloud, dapat menskalakan resource on demand—seperti menambahkan ratusan GPU—untuk menangani set data yang sangat besar dan model yang kompleks tanpa memerlukan pengeluaran modal awal yang besar.

Biaya operasional yang dioptimalkan

Platform AI berbasis cloud memungkinkan Anda membayar hanya resource komputasi yang sepenuhnya digunakan, sehingga membantu pengoptimalan biaya dibandingkan dengan mempertahankan cluster hardware lokal khusus yang tidak digunakan dalam jangka waktu tertentu.

Pipeline deployment yang terstandarisasi dan efisien

Platform untuk workload AI menggunakan alat MLOps (machine learning operations) untuk mengotomatiskan dan menstandarkan siklus proses end-to-end, mulai dari persiapan data hingga deployment dan pemantauan model.

Integrasi keamanan dan tata kelola

Platform cloud menyediakan fitur keamanan bawaan, seperti pengelolaan akses dan identitas (IAM) dan keamanan jaringan, yang terintegrasi langsung dengan lingkungan AI Anda. Hal ini membantu menyederhanakan proses pemenuhan persyaratan kepatuhan dan tata kelola peraturan.

Dukungan untuk lingkungan hybrid dan multicloud

Solusi AI dirancang untuk berjalan secara fleksibel. Mereka dapat memanfaatkan container dan alat orkestrasi untuk mengelola dan menjalankan workload secara konsisten di seluruh penyedia cloud publik.

Langkah-langkah untuk men-deploy workload inferensi model dengan Vertex AI

Men-deploy model machine learning terlatih untuk inferensi dapat menjadi langkah penting dalam memproduksi workload AI. Vertex AI menyederhanakan proses ini dengan menyediakan layanan terkelola yang menangani infrastruktur yang mendasarinya.

Mengupload model terlatih ke model registry

  • Langkah pertama adalah mengambil artefak model terlatih Anda dan menguploadnya ke Vertex AI Model Registry. Repositori pusat ini menyimpan dan membuat versi model Anda dengan aman, sehingga siap untuk di-deploy.

Membuat endpoint terkelola

  • Selanjutnya, Anda akan membuat endpoint, yaitu server HTTP real-time khusus untuk model Anda. Endpoint ini adalah URL yang akan dipanggil aplikasi Anda untuk mendapatkan prediksi. Anda menentukan jenis resource komputasi yang akan digunakan, seperti mesin CPU N1 atau jenis GPU tertentu untuk performa yang dipercepat.

Men-deploy model ke endpoint

  • Setelah membuat endpoint, Anda akan men-deploy versi tertentu dari model Anda ke endpoint tersebut. Langkah ini melibatkan penentuan image container yang mencakup model dan kode server prediksi Anda (sering kali image bawaan yang disediakan oleh Vertex AI). Anda juga akan mengonfigurasi pembagian traffic, yang memungkinkan Anda untuk menguji versi model baru dengan sebagian kecil traffic live sebelum meluncurkannya sepenuhnya.

Mengirim dan menerima prediksi online

  • Setelah di-deploy, model tersedia untuk prediksi online. Aplikasi Anda mengirimkan data input (payload) melalui permintaan HTTP ke URL endpoint, dan layanan terkelola menangani workload inferensi, yang menampilkan prediksi atau hasil dalam waktu hampir real-time.

Memantau dan mengatur endpoint

  • Langkah terakhir adalah pemantauan berkelanjutan. Anda akan menggunakan alat terintegrasi Vertex AI untuk melacak kondisi endpoint (latensi, rasio error, pemanfaatan resource) dan performa model itu sendiri (penyimpangan, kemiringan, dan kualitas prediksi) untuk memastikan workload inferensi tetap andal dan akurat dari waktu ke waktu.

Mengatasi tantangan bisnis Anda dengan Google Cloud

Pelanggan baru mendapatkan kredit gratis senilai $300 untuk dibelanjakan di Google Cloud.

Referensi tambahan

  • Pengantar workload AI/ML di GKE: Google Kubernetes Engine menyediakan platform terkelola untuk men-deploy dan menskalakan workload AI dan machine learning dalam container, yang mendukung pelatihan dan inferensi skala besar dengan akselerator hardware seperti GPU dan TPU.
  • Merancang penyimpanan untuk workload AI dan ML: Panduan ini membantu Anda merancang strategi penyimpanan untuk alur kerja AI dan machine learning, serta merekomendasikan layanan seperti Cloud Storage dan Managed Lustre berdasarkan persyaratan latensi, throughput, dan kapasitas tertentu.

Langkah selanjutnya

Mulailah membangun solusi di Google Cloud dengan kredit gratis senilai $300 dan lebih dari 20 produk yang selalu gratis.