Inferensi AI adalah bagian "melakukan" dari kecerdasan buatan. Ini adalah momen ketika model terlatih berhenti belajar dan mulai bekerja, mengubah pengetahuannya menjadi hasil dunia nyata.
Anggap saja seperti ini: jika pelatihan adalah seperti mengajari AI keterampilan baru, inferensi adalah saat AI benar-benar menggunakan keterampilan tersebut untuk melakukan pekerjaan. Model ini menerima data baru (seperti foto atau teks) dan menghasilkan output instan, seperti prediksi, pembuatan foto, atau pengambilan keputusan. Di sinilah AI memberikan nilai bisnis. Bagi siapa pun yang membangun dengan AI, memahami cara membuat inferensi yang cepat, skalabel, dan hemat biaya adalah kunci untuk menciptakan solusi yang sukses. Misalnya, developer perusahaan dapat menggunakan inferensi AI di Google Kubernetes Engine (GKE) untuk membangun sistem yang menganalisis pembelian pelanggan secara real-time dan menawarkan diskon yang dipersonalisasi saat checkout, sehingga meningkatkan penjualan dan kepuasan pelanggan.
Meskipun siklus proses AI yang lengkap mencakup segala hal mulai dari pengumpulan data hingga pemantauan jangka panjang, perjalanan utama model dari pembuatan hingga eksekusi memiliki tiga tahap penting. Dua yang pertama adalah tentang pembelajaran, sedangkan yang terakhir adalah tentang menerapkan pembelajaran tersebut.
Tabel ini merangkum perbedaan utama:
Pelatihan AI | Fine-tuning AI | Inferensi AI | Penyajian AI | |
Tujuan | Membangun model baru dari awal. | Menyesuaikan model terlatih untuk tugas tertentu. | Menggunakan model terlatih untuk membuat prediksi. | Men-deploy dan mengelola model untuk menangani permintaan inferensi. |
Proses | Belajar secara berulang dari set data yang besar. | Menyempurnakan model yang ada dengan set data yang lebih kecil. | Satu "perhitungan maju" yang cepat dari data baru. | Mengemas model dan mengeksposnya sebagai API |
Data | Set data berlabel yang besar dan historis. | Set data yang lebih kecil dan khusus tugas tertentu. | Data live, dunia nyata, dan tidak berlabel. | T/A |
Fokus bisnis | Akurasi dan kemampuan model. | Efisiensi dan penyesuaian. | Kecepatan (latensi), skala, dan efisiensi biaya. | Keandalan, skalabilitas, dan pengelolaan endpoint inferensi. |
Pelatihan AI
Fine-tuning AI
Inferensi AI
Penyajian AI
Tujuan
Membangun model baru dari awal.
Menyesuaikan model terlatih untuk tugas tertentu.
Menggunakan model terlatih untuk membuat prediksi.
Men-deploy dan mengelola model untuk menangani permintaan inferensi.
Proses
Belajar secara berulang dari set data yang besar.
Menyempurnakan model yang ada dengan set data yang lebih kecil.
Satu "perhitungan maju" yang cepat dari data baru.
Mengemas model dan mengeksposnya sebagai API
Data
Set data berlabel yang besar dan historis.
Set data yang lebih kecil dan khusus tugas tertentu.
Data live, dunia nyata, dan tidak berlabel.
T/A
Fokus bisnis
Akurasi dan kemampuan model.
Efisiensi dan penyesuaian.
Kecepatan (latensi), skala, dan efisiensi biaya.
Keandalan, skalabilitas, dan pengelolaan endpoint inferensi.
Pada intinya, inferensi AI melibatkan tiga langkah yang mengubah data baru menjadi output yang berguna.
Mari kita bahas dengan contoh sederhana: model AI yang dibuat untuk mengidentifikasi objek dalam foto.
Meskipun inferensi tunggal berjalan cepat, melayani jutaan pengguna secara real time akan menambah latensi, biaya, dan memerlukan hardware yang dioptimalkan. Unit Pemrosesan Grafis (GPU) khusus AI dan Unit Pemrosesan Tensor Google dirancang untuk menangani tugas-tugas ini secara efisien bersama dengan orkestrasi dengan Google Kubernetes Engine, sehingga membantu meningkatkan throughput dan menurunkan latensi.
Ini adalah pendekatan yang paling umum, di mana inferensi berjalan di server jarak jauh yang canggih di pusat data. Cloud menawarkan skalabilitas dan resource komputasi yang sangat besar, sehingga cocok untuk menangani set data besar dan model yang kompleks. Di dalam cloud, biasanya ada dua mode inferensi utama:
Pendekatan ini melakukan inferensi langsung di perangkat tempat data dihasilkan—bisa di smartphone atau sensor industri. Dengan menghindari perjalanan pulang pergi ke cloud, inferensi edge menawarkan keuntungan unik:
Untuk membantu Anda memilih pendekatan terbaik untuk kebutuhan spesifik Anda, berikut perbandingan cepat karakteristik utama dan kasus penggunaan untuk setiap jenis inferensi AI:
Fitur | Inferensi batch | Inferensi real-time | Inferensi edge |
Lokasi utama | Cloud (pusat data) | Cloud (pusat data) | Perangkat lokal (seperti ponsel, sensor IoT, robot) |
Latensi/responsivitas | Tinggi (prediksi ditampilkan setelah memproses batch) | Sangat rendah (milidetik hingga detik per permintaan) | Sangat rendah (hampir instan, tanpa hop jaringan) |
Volume data | Set data besar (seperti terabyte) | Peristiwa/permintaan individual | Peristiwa/permintaan individual (di perangkat) |
Aliran data | Data dikirim ke cloud, diproses, hasil dikembalikan | Setiap permintaan dikirim ke cloud, diproses, dan dikembalikan | Data diproses di perangkat, hasil digunakan di perangkat |
Kasus penggunaan umum | Pengategorian dokumen skala besar, analisis keuangan semalam, pemeliharaan prediktif berkala | Rekomendasi produk, chatbot, terjemahan langsung, pemberitahuan penipuan real-time | Mengemudi otonom, kamera pintar, asisten suara offline, kontrol kualitas industri |
Manfaat utama | Hemat biaya untuk tugas besar yang tidak mendesak | Responsivitas langsung untuk aplikasi yang ditampilkan kepada pengguna | Latensi minimal, privasi yang ditingkatkan, kemampuan offline, biaya bandwidth yang lebih rendah |
Fitur
Inferensi batch
Inferensi real-time
Inferensi edge
Lokasi utama
Cloud (pusat data)
Cloud (pusat data)
Perangkat lokal (seperti ponsel, sensor IoT, robot)
Latensi/responsivitas
Tinggi (prediksi ditampilkan setelah memproses batch)
Sangat rendah (milidetik hingga detik per permintaan)
Sangat rendah (hampir instan, tanpa hop jaringan)
Volume data
Set data besar (seperti terabyte)
Peristiwa/permintaan individual
Peristiwa/permintaan individual (di perangkat)
Aliran data
Data dikirim ke cloud, diproses, hasil dikembalikan
Setiap permintaan dikirim ke cloud, diproses, dan dikembalikan
Data diproses di perangkat, hasil digunakan di perangkat
Kasus penggunaan umum
Pengategorian dokumen skala besar, analisis keuangan semalam, pemeliharaan prediktif berkala
Rekomendasi produk, chatbot, terjemahan langsung, pemberitahuan penipuan real-time
Mengemudi otonom, kamera pintar, asisten suara offline, kontrol kualitas industri
Manfaat utama
Hemat biaya untuk tugas besar yang tidak mendesak
Responsivitas langsung untuk aplikasi yang ditampilkan kepada pengguna
Latensi minimal, privasi yang ditingkatkan, kemampuan offline, biaya bandwidth yang lebih rendah
Inferensi AI mentransformasi industri dengan memungkinkan tingkat otomatisasi baru, pengambilan keputusan yang lebih cerdas, dan aplikasi inovatif. Bagi developer perusahaan, berikut adalah beberapa area penting yang memberikan nilai bisnis nyata melalui inferensi:
Google Cloud menawarkan rangkaian alat dan layanan komprehensif yang membantu developer dan organisasi membangun, men-deploy, dan mengelola workload inferensi AI secara efisien dan dalam skala besar. Kemampuan inferensi terintegrasi secara mendalam di berbagai penawaran:
Produk Google Cloud | Pendekatan inferensi yang didukung | Ideal jika Anda perlu | Contoh kasus penggunaan inferensi |
Semua jenis inferensi (cloud dan hybrid) | Dapatkan kontrol dan fleksibilitas terbaik untuk men-deploy, mengelola, dan menskalakan layanan inferensi container kustom, sering kali dengan hardware khusus, di seluruh lingkungan cloud atau hybrid. | Men-deploy dan menskalakan model AI khusus untuk deteksi anomali real-time dalam sistem industri yang kompleks. | |
Inferensi cloud real-time (serverless) | Deploy model dalam container dengan penskalaan otomatis ke nol dan harga bayar per permintaan, yang ideal untuk workload yang sangat bervariasi dan terputus-putus, atau layanan web sederhana. | Menyajikan model berukuran kecil hingga sedang untuk aplikasi web dengan fluktuasi traffic yang besar, sehingga memastikan efisiensi biaya. | |
Inferensi cloud real-time dan batch | Dapatkan akselerasi fleksibel dan berperforma tinggi untuk berbagai model dan framework AI. | Memproses gambar beresolusi tinggi dengan cepat untuk diagnosis medis atau mempercepat pemodelan keuangan yang kompleks. | |
Inferensi cloud batch (data warehouse) | Lakukan inferensi secara langsung pada data yang sudah ada di data warehouse Anda menggunakan SQL, sehingga menghilangkan pergerakan data. | Memprediksi churn pelanggan secara langsung pada data CRM Anda di BigQuery. | |
Inferensi cloud real-time (tugas tertentu) | Sematkan kemampuan AI canggih (seperti visi, bahasa, ucapan) ke dalam aplikasi dengan mudah tanpa perlu membangun atau melatih model apa pun. | Terjemahkan pesan chat pelanggan secara otomatis dan real-time atau pahami sentimen dari postingan media sosial. | |
Inferensi cloud real-time dan batch (model besar) | Dapatkan performa maksimal dan efisiensi biaya saat menginferensi model deep learning yang sangat besar dan kompleks, terutama model bahasa besar (LLM). | Mendukung respons real-time dari chatbot AI generatif yang canggih. | |
Solusi edge (seperti Coral, GDC Edge) | Inferensi Edge | Aktifkan latensi ultra-rendah, privasi yang ditingkatkan, atau fungsi offline dengan menjalankan model secara langsung di perangkat. | Lakukan pengenalan objek instan pada kamera pintar tanpa mengirim video ke cloud. |
Persiapan data untuk inferensi cloud batch | Memproses dan menyiapkan data dalam jumlah besar secara efisien untuk tugas inferensi batch berskala besar. | Lakukan pra-pemrosesan data sensor berukuran petabyte sebelum memasukkannya ke model pemeliharaan prediktif. |
Produk Google Cloud
Pendekatan inferensi yang didukung
Ideal jika Anda perlu
Contoh kasus penggunaan inferensi
Semua jenis inferensi (cloud dan hybrid)
Dapatkan kontrol dan fleksibilitas terbaik untuk men-deploy, mengelola, dan menskalakan layanan inferensi container kustom, sering kali dengan hardware khusus, di seluruh lingkungan cloud atau hybrid.
Men-deploy dan menskalakan model AI khusus untuk deteksi anomali real-time dalam sistem industri yang kompleks.
Inferensi cloud real-time (serverless)
Deploy model dalam container dengan penskalaan otomatis ke nol dan harga bayar per permintaan, yang ideal untuk workload yang sangat bervariasi dan terputus-putus, atau layanan web sederhana.
Menyajikan model berukuran kecil hingga sedang untuk aplikasi web dengan fluktuasi traffic yang besar, sehingga memastikan efisiensi biaya.
Inferensi cloud real-time dan batch
Dapatkan akselerasi fleksibel dan berperforma tinggi untuk berbagai model dan framework AI.
Memproses gambar beresolusi tinggi dengan cepat untuk diagnosis medis atau mempercepat pemodelan keuangan yang kompleks.
Inferensi cloud batch (data warehouse)
Lakukan inferensi secara langsung pada data yang sudah ada di data warehouse Anda menggunakan SQL, sehingga menghilangkan pergerakan data.
Memprediksi churn pelanggan secara langsung pada data CRM Anda di BigQuery.
Inferensi cloud real-time (tugas tertentu)
Sematkan kemampuan AI canggih (seperti visi, bahasa, ucapan) ke dalam aplikasi dengan mudah tanpa perlu membangun atau melatih model apa pun.
Terjemahkan pesan chat pelanggan secara otomatis dan real-time atau pahami sentimen dari postingan media sosial.
Inferensi cloud real-time dan batch (model besar)
Dapatkan performa maksimal dan efisiensi biaya saat menginferensi model deep learning yang sangat besar dan kompleks, terutama model bahasa besar (LLM).
Mendukung respons real-time dari chatbot AI generatif yang canggih.
Solusi edge (seperti Coral, GDC Edge)
Inferensi Edge
Aktifkan latensi ultra-rendah, privasi yang ditingkatkan, atau fungsi offline dengan menjalankan model secara langsung di perangkat.
Lakukan pengenalan objek instan pada kamera pintar tanpa mengirim video ke cloud.
Persiapan data untuk inferensi cloud batch
Memproses dan menyiapkan data dalam jumlah besar secara efisien untuk tugas inferensi batch berskala besar.
Lakukan pra-pemrosesan data sensor berukuran petabyte sebelum memasukkannya ke model pemeliharaan prediktif.
Vertex AI adalah platform AI terpadu Google Cloud. Vertex AI menyediakan alat komprehensif untuk membangun, men-deploy, dan mengelola model ML, sehingga menjadikannya layanan pilihan untuk sebagian besar kebutuhan inferensi berbasis cloud.
Fitur Vertex AI | Pendekatan inferensi | Ideal jika Anda perlu | Contoh kasus penggunaan inferensi |
Inferensi cloud real-time | Deploy model kustom dan dapatkan prediksi real-time dengan latensi rendah dari endpoint terkelola. | Merekomendasikan produk secara instan kepada pengguna yang menjelajahi situs. | |
Inferensi cloud batch | Memproses set data besar secara hemat biaya tanpa memerlukan hasil real-time. | Menganalisis semua transaksi pelanggan dari kemarin untuk mendeteksi pola penipuan. | |
Inferensi cloud real-time dan batch (AI generatif) | Manfaatkan model terlatih yang canggih dengan cepat untuk tugas AI generatif atau umum tanpa perlu melatihnya dari awal. | Buat teks pemasaran, ringkas dokumen panjang, atau buat cuplikan kode. |
Fitur Vertex AI
Pendekatan inferensi
Ideal jika Anda perlu
Contoh kasus penggunaan inferensi
Inferensi cloud real-time
Deploy model kustom dan dapatkan prediksi real-time dengan latensi rendah dari endpoint terkelola.
Merekomendasikan produk secara instan kepada pengguna yang menjelajahi situs.
Inferensi cloud batch
Memproses set data besar secara hemat biaya tanpa memerlukan hasil real-time.
Menganalisis semua transaksi pelanggan dari kemarin untuk mendeteksi pola penipuan.
Inferensi cloud real-time dan batch (AI generatif)
Manfaatkan model terlatih yang canggih dengan cepat untuk tugas AI generatif atau umum tanpa perlu melatihnya dari awal.
Buat teks pemasaran, ringkas dokumen panjang, atau buat cuplikan kode.
Siap meningkatkan keterampilan inferensi AI Anda ke level berikutnya? Berikut beberapa referensi berharga untuk membantu Anda mempelajari lebih lanjut dan memulai:
Mulailah membangun solusi di Google Cloud dengan kredit gratis senilai $300 dan lebih dari 20 produk yang selalu gratis.