Apa itu inferensi AI?

Inferensi AI adalah bagian "melakukan" dari kecerdasan buatan. Ini adalah momen ketika model terlatih berhenti belajar dan mulai bekerja, mengubah pengetahuannya menjadi hasil dunia nyata.

Anggap saja seperti ini: jika pelatihan adalah seperti mengajari AI keterampilan baru, inferensi adalah saat AI benar-benar menggunakan keterampilan tersebut untuk melakukan pekerjaan. Model ini menerima data baru (seperti foto atau teks) dan menghasilkan output instan, seperti prediksi, pembuatan foto, atau pengambilan keputusan. Di sinilah AI memberikan nilai bisnis. Bagi siapa pun yang membangun dengan AI, memahami cara membuat inferensi yang cepat, skalabel, dan hemat biaya adalah kunci untuk menciptakan solusi yang sukses. Misalnya, developer perusahaan dapat menggunakan inferensi AI di Google Kubernetes Engine (GKE) untuk membangun sistem yang menganalisis pembelian pelanggan secara real-time dan menawarkan diskon yang dipersonalisasi saat checkout, sehingga meningkatkan penjualan dan kepuasan pelanggan.

'Pelatihan AI' versus 'fine-tuning' versus 'inferensi' versus 'penyajian'

Meskipun siklus proses AI yang lengkap mencakup segala hal mulai dari pengumpulan data hingga pemantauan jangka panjang, perjalanan utama model dari pembuatan hingga eksekusi memiliki tiga tahap penting. Dua yang pertama adalah tentang pembelajaran, sedangkan yang terakhir adalah tentang menerapkan pembelajaran tersebut.

  • Pelatihan AI adalah fase pembelajaran dasar. Proses ini membutuhkan banyak komputasi, di mana model menganalisis set data besar untuk mempelajari pola dan hubungan. Tujuannya adalah untuk membuat model yang akurat dan berpengetahuan. Hal ini memerlukan akselerator hardware yang canggih (seperti GPU dan TPU) dan dapat memakan waktu berjam-jam hingga berminggu-minggu.
  • Fine-tuning AI adalah jalan pintas untuk pelatihan. Fine-tuning menggunakan model terlatih yang canggih dan mengadaptasinya ke tugas yang lebih spesifik menggunakan set data yang lebih kecil dan terspesialisasi. Hal ini menghemat waktu dan resource secara signifikan dibandingkan dengan melatih model dari awal.
  • Inferensi AI adalah fase eksekusi. Inferensi menggunakan model yang telah dilatih dan disesuaikan untuk membuat prediksi cepat pada data baru yang "belum dilihat". Masing-masing prediksi jauh lebih ringan secara komputasi dibandingkan pelatihan, tetapi memberikan jutaan prediksi secara real-time memerlukan infrastruktur yang sangat optimal dan skalabel.
  • Penyajian AI adalah proses men-deploy dan mengelola model untuk inferensi. Hal ini sering kali melibatkan pengemasan model, penyiapan endpoint API, dan pengelolaan infrastruktur untuk menangani permintaan.

Tabel ini merangkum perbedaan utama:

Pelatihan AI

Fine-tuning AI

Inferensi AI

Penyajian AI

Tujuan

Membangun model baru dari awal.

Menyesuaikan model terlatih untuk tugas tertentu.

Menggunakan model terlatih untuk membuat prediksi.

Men-deploy dan mengelola model untuk menangani permintaan inferensi.

Proses

Belajar secara berulang dari set data yang besar.

Menyempurnakan model yang ada dengan set data yang lebih kecil.

Satu "perhitungan maju" yang cepat dari data baru.


Mengemas model dan mengeksposnya sebagai API

Data

Set data berlabel yang besar dan historis.

Set data yang lebih kecil dan khusus tugas tertentu.

Data live, dunia nyata, dan tidak berlabel.

T/A


Fokus bisnis

Akurasi dan kemampuan model.

Efisiensi dan penyesuaian.

Kecepatan (latensi), skala, dan efisiensi biaya.

Keandalan, skalabilitas, dan pengelolaan endpoint inferensi.

Pelatihan AI

Fine-tuning AI

Inferensi AI

Penyajian AI

Tujuan

Membangun model baru dari awal.

Menyesuaikan model terlatih untuk tugas tertentu.

Menggunakan model terlatih untuk membuat prediksi.

Men-deploy dan mengelola model untuk menangani permintaan inferensi.

Proses

Belajar secara berulang dari set data yang besar.

Menyempurnakan model yang ada dengan set data yang lebih kecil.

Satu "perhitungan maju" yang cepat dari data baru.


Mengemas model dan mengeksposnya sebagai API

Data

Set data berlabel yang besar dan historis.

Set data yang lebih kecil dan khusus tugas tertentu.

Data live, dunia nyata, dan tidak berlabel.

T/A


Fokus bisnis

Akurasi dan kemampuan model.

Efisiensi dan penyesuaian.

Kecepatan (latensi), skala, dan efisiensi biaya.

Keandalan, skalabilitas, dan pengelolaan endpoint inferensi.

Bagaimana cara kerja Inferensi AI?

Pada intinya, inferensi AI melibatkan tiga langkah yang mengubah data baru menjadi output yang berguna. 

Mari kita bahas dengan contoh sederhana: model AI yang dibuat untuk mengidentifikasi objek dalam foto.

  1. Persiapan data input: Pertama, data baru disediakan—misalnya, foto yang baru saja Anda kirim. Foto ini langsung disiapkan untuk model, yang mungkin berarti hanya mengubah ukurannya menjadi dimensi yang tepat seperti saat model dilatih.
  2. Eksekusi model: Selanjutnya, model AI menganalisis foto yang telah disiapkan. Model ini mencari pola—seperti warna, bentuk, dan tekstur—yang cocok dengan apa yang dipelajarinya selama pelatihan. Analisis cepat ini disebut "forward pass", yaitu langkah baca-saja di mana model menerapkan pengetahuannya tanpa mempelajari hal baru.
  3. Pembuatan output: Model menghasilkan hasil yang dapat ditindaklanjuti. Untuk analisis foto, hal ini mungkin berupa skor probabilitas (seperti peluang 95% bahwa gambar tersebut berisi "anjing"). Output ini kemudian dikirim ke aplikasi dan ditampilkan kepada pengguna.

Meskipun inferensi tunggal berjalan cepat, melayani jutaan pengguna secara real time akan menambah latensi, biaya, dan memerlukan hardware yang dioptimalkan. Unit Pemrosesan Grafis (GPU) khusus AI dan Unit Pemrosesan Tensor Google dirancang untuk menangani tugas-tugas ini secara efisien bersama dengan orkestrasi dengan Google Kubernetes Engine, sehingga membantu meningkatkan throughput dan menurunkan latensi.

Jenis inferensi AI

Inferensi cloud: Untuk daya dan skala

Ini adalah pendekatan yang paling umum, di mana inferensi berjalan di server jarak jauh yang canggih di pusat data. Cloud menawarkan skalabilitas dan resource komputasi yang sangat besar, sehingga cocok untuk menangani set data besar dan model yang kompleks. Di dalam cloud, biasanya ada dua mode inferensi utama:

  • Inferensi real-time (online): Memproses permintaan individual secara instan saat permintaan tersebut dibuat, sering kali dalam hitungan milidetik. Hal ini penting untuk aplikasi interaktif yang memerlukan respons cepat.
  • Inferensi batch (offline): Menangani volume data yang besar sekaligus, biasanya saat respons langsung tidak diperlukan. Metode ini sangat hemat biaya untuk analisis berkala atau tugas terjadwal.

Inferensi edge: Untuk kecepatan dan privasi

Pendekatan ini melakukan inferensi langsung di perangkat tempat data dihasilkan—bisa di smartphone atau sensor industri. Dengan menghindari perjalanan pulang pergi ke cloud, inferensi edge menawarkan keuntungan unik:

  • Latensi yang lebih rendah: Respons hampir instan, yang sangat penting untuk aplikasi seperti kendaraan otonom atau pemeriksaan manufaktur real-time.
  • Privasi yang ditingkatkan: Data sensitif (seperti hasil pemindaian medis, foto pribadi, feed video) dapat diproses di perangkat tanpa pernah dikirim ke cloud.
  • Biaya bandwidth lebih rendah: Memproses data secara lokal akan mengurangi jumlah data yang perlu diupload dan didownload secara signifikan.
  • Fungsi offline: Aplikasi dapat terus berfungsi meskipun tanpa koneksi internet, sehingga memastikan operasi berkelanjutan di lingkungan terpencil atau terputus.

Mengatasi tantangan bisnis Anda dengan Google Cloud

Pelanggan baru mendapatkan kredit gratis senilai $300 untuk dibelanjakan di Google Cloud.

Perbandingan inferensi AI

Untuk membantu Anda memilih pendekatan terbaik untuk kebutuhan spesifik Anda, berikut perbandingan cepat karakteristik utama dan kasus penggunaan untuk setiap jenis inferensi AI:

Fitur

Inferensi batch

Inferensi real-time

Inferensi edge

Lokasi utama

Cloud (pusat data)

Cloud (pusat data)

Perangkat lokal (seperti ponsel, sensor IoT, robot)

Latensi/responsivitas

Tinggi (prediksi ditampilkan setelah memproses batch)


Sangat rendah (milidetik hingga detik per permintaan)

Sangat rendah (hampir instan, tanpa hop jaringan)

Volume data

Set data besar (seperti terabyte)

Peristiwa/permintaan individual

Peristiwa/permintaan individual (di perangkat)

Aliran data

Data dikirim ke cloud, diproses, hasil dikembalikan

Setiap permintaan dikirim ke cloud, diproses, dan dikembalikan

Data diproses di perangkat, hasil digunakan di perangkat

Kasus penggunaan umum

Pengategorian dokumen skala besar, analisis keuangan semalam, pemeliharaan prediktif berkala

Rekomendasi produk, chatbot, terjemahan langsung, pemberitahuan penipuan real-time

Mengemudi otonom, kamera pintar, asisten suara offline, kontrol kualitas industri

Manfaat utama

Hemat biaya untuk tugas besar yang tidak mendesak

Responsivitas langsung untuk aplikasi yang ditampilkan kepada pengguna

Latensi minimal, privasi yang ditingkatkan, kemampuan offline, biaya bandwidth yang lebih rendah

Fitur

Inferensi batch

Inferensi real-time

Inferensi edge

Lokasi utama

Cloud (pusat data)

Cloud (pusat data)

Perangkat lokal (seperti ponsel, sensor IoT, robot)

Latensi/responsivitas

Tinggi (prediksi ditampilkan setelah memproses batch)


Sangat rendah (milidetik hingga detik per permintaan)

Sangat rendah (hampir instan, tanpa hop jaringan)

Volume data

Set data besar (seperti terabyte)

Peristiwa/permintaan individual

Peristiwa/permintaan individual (di perangkat)

Aliran data

Data dikirim ke cloud, diproses, hasil dikembalikan

Setiap permintaan dikirim ke cloud, diproses, dan dikembalikan

Data diproses di perangkat, hasil digunakan di perangkat

Kasus penggunaan umum

Pengategorian dokumen skala besar, analisis keuangan semalam, pemeliharaan prediktif berkala

Rekomendasi produk, chatbot, terjemahan langsung, pemberitahuan penipuan real-time

Mengemudi otonom, kamera pintar, asisten suara offline, kontrol kualitas industri

Manfaat utama

Hemat biaya untuk tugas besar yang tidak mendesak

Responsivitas langsung untuk aplikasi yang ditampilkan kepada pengguna

Latensi minimal, privasi yang ditingkatkan, kemampuan offline, biaya bandwidth yang lebih rendah

Kasus penggunaan untuk developer

Inferensi AI mentransformasi industri dengan memungkinkan tingkat otomatisasi baru, pengambilan keputusan yang lebih cerdas, dan aplikasi inovatif. Bagi developer perusahaan, berikut adalah beberapa area penting yang memberikan nilai bisnis nyata melalui inferensi:

  • Menganalisis transaksi keuangan, perilaku pengguna, atau log sistem secara instan untuk mengidentifikasi dan menandai aktivitas mencurigakan. Hal ini memungkinkan intervensi proaktif untuk mencegah penipuan, pencucian uang, atau pelanggaran keamanan.
  • Contoh: Perusahaan kartu kredit menggunakan inferensi untuk melakukan otorisasi transaksi dalam milidetik, sehingga dapat langsung memblokir pembelian yang berpotensi menipu.


  • Memberikan pengalaman yang sangat disesuaikan untuk pengguna dengan memprediksi preferensi berdasarkan interaksi sebelumnya dan konteks real-time.
  • Contoh: Platform e-commerce menggunakan inferensi untuk menyarankan produk kepada pembeli atau layanan streaming merekomendasikan film berdasarkan kebiasaan menonton, sehingga mendorong engagement dan penjualan.


  • Deploy model AI untuk mengotomatiskan tugas rutin, memberikan bantuan cerdas, atau berinteraksi dengan pengguna dalam skala besar.
  • Contoh: Organisasi layanan pelanggan menggunakan agen AI untuk menangani pertanyaan umum, sehingga agen manusia dapat menangani masalah yang kompleks, atau pabrik menggunakan AI untuk inspeksi kualitas otomatis di jalur perakitan.


  •  Menganalisis data sensor dari mesin, infrastruktur, atau sistem IT untuk memperkirakan kegagalan, memprediksi permintaan, atau mengoptimalkan alokasi resource sebelum masalah terjadi.
  • Contoh: Produsen menggunakan inferensi untuk memprediksi kapan peralatan perlu diservis, sehingga meminimalkan periode nonaktif dan memperpanjang masa pakai aset, atau perusahaan logistik mengoptimalkan rute berdasarkan prediksi lalu lintas real-time.


  • Manfaatkan AI untuk membuat konten baru (teks, kode, gambar, audio) atau memahami data tidak terstruktur yang ada secara mendalam.
  • Contoh: Developer menggunakan model pembuatan kode untuk mempercepat pengembangan software, atau tim pemasaran menggunakan AI untuk meringkas dokumen besar dan mempersonalisasi teks iklan.
Masalah apa yang ingin Anda temukan solusinya?
What you'll get:
Panduan langkah demi langkah
Arsitektur referensi
Solusi siap pakai yang tersedia
Layanan ini dibangun dengan Vertex AI. Anda harus berusia 18 tahun ke atas untuk menggunakannya. Jangan memasukkan informasi sensitif, rahasia, atau pribadi.

Bagaimana Google Cloud dapat membantu

Google Cloud menawarkan rangkaian alat dan layanan komprehensif yang membantu developer dan organisasi membangun, men-deploy, dan mengelola workload inferensi AI secara efisien dan dalam skala besar. Kemampuan inferensi terintegrasi secara mendalam di berbagai penawaran:

Produk dan solusi terkait

Produk Google Cloud

Pendekatan inferensi yang didukung

Ideal jika Anda perlu

Contoh kasus penggunaan inferensi

Semua jenis inferensi (cloud dan hybrid)

Dapatkan kontrol dan fleksibilitas terbaik untuk men-deploy, mengelola, dan menskalakan layanan inferensi container kustom, sering kali dengan hardware khusus, di seluruh lingkungan cloud atau hybrid.

Men-deploy dan menskalakan model AI khusus untuk deteksi anomali real-time dalam sistem industri yang kompleks.

Inferensi cloud real-time (serverless)

Deploy model dalam container dengan penskalaan otomatis ke nol dan harga bayar per permintaan, yang ideal untuk workload yang sangat bervariasi dan terputus-putus, atau layanan web sederhana.


Menyajikan model berukuran kecil hingga sedang untuk aplikasi web dengan fluktuasi traffic yang besar, sehingga memastikan efisiensi biaya.


Inferensi cloud real-time dan batch

Dapatkan akselerasi fleksibel dan berperforma tinggi untuk berbagai model dan framework AI.

Memproses gambar beresolusi tinggi dengan cepat untuk diagnosis medis atau mempercepat pemodelan keuangan yang kompleks.


Inferensi cloud batch (data warehouse)

Lakukan inferensi secara langsung pada data yang sudah ada di data warehouse Anda menggunakan SQL, sehingga menghilangkan pergerakan data.


Memprediksi churn pelanggan secara langsung pada data CRM Anda di BigQuery.


Inferensi cloud real-time (tugas tertentu)

Sematkan kemampuan AI canggih (seperti visi, bahasa, ucapan) ke dalam aplikasi dengan mudah tanpa perlu membangun atau melatih model apa pun.

Terjemahkan pesan chat pelanggan secara otomatis dan real-time atau pahami sentimen dari postingan media sosial.


Inferensi cloud real-time dan batch (model besar)

Dapatkan performa maksimal dan efisiensi biaya saat menginferensi model deep learning yang sangat besar dan kompleks, terutama model bahasa besar (LLM).

Mendukung respons real-time dari chatbot AI generatif yang canggih.


Solusi edge (seperti Coral, GDC Edge)


Inferensi Edge

Aktifkan latensi ultra-rendah, privasi yang ditingkatkan, atau fungsi offline dengan menjalankan model secara langsung di perangkat.


Lakukan pengenalan objek instan pada kamera pintar tanpa mengirim video ke cloud.


Persiapan data untuk inferensi cloud batch

Memproses dan menyiapkan data dalam jumlah besar secara efisien untuk tugas inferensi batch berskala besar.


Lakukan pra-pemrosesan data sensor berukuran petabyte sebelum memasukkannya ke model pemeliharaan prediktif.

Produk Google Cloud

Pendekatan inferensi yang didukung

Ideal jika Anda perlu

Contoh kasus penggunaan inferensi

Semua jenis inferensi (cloud dan hybrid)

Dapatkan kontrol dan fleksibilitas terbaik untuk men-deploy, mengelola, dan menskalakan layanan inferensi container kustom, sering kali dengan hardware khusus, di seluruh lingkungan cloud atau hybrid.

Men-deploy dan menskalakan model AI khusus untuk deteksi anomali real-time dalam sistem industri yang kompleks.

Inferensi cloud real-time (serverless)

Deploy model dalam container dengan penskalaan otomatis ke nol dan harga bayar per permintaan, yang ideal untuk workload yang sangat bervariasi dan terputus-putus, atau layanan web sederhana.


Menyajikan model berukuran kecil hingga sedang untuk aplikasi web dengan fluktuasi traffic yang besar, sehingga memastikan efisiensi biaya.


Inferensi cloud real-time dan batch

Dapatkan akselerasi fleksibel dan berperforma tinggi untuk berbagai model dan framework AI.

Memproses gambar beresolusi tinggi dengan cepat untuk diagnosis medis atau mempercepat pemodelan keuangan yang kompleks.


Inferensi cloud batch (data warehouse)

Lakukan inferensi secara langsung pada data yang sudah ada di data warehouse Anda menggunakan SQL, sehingga menghilangkan pergerakan data.


Memprediksi churn pelanggan secara langsung pada data CRM Anda di BigQuery.


Inferensi cloud real-time (tugas tertentu)

Sematkan kemampuan AI canggih (seperti visi, bahasa, ucapan) ke dalam aplikasi dengan mudah tanpa perlu membangun atau melatih model apa pun.

Terjemahkan pesan chat pelanggan secara otomatis dan real-time atau pahami sentimen dari postingan media sosial.


Inferensi cloud real-time dan batch (model besar)

Dapatkan performa maksimal dan efisiensi biaya saat menginferensi model deep learning yang sangat besar dan kompleks, terutama model bahasa besar (LLM).

Mendukung respons real-time dari chatbot AI generatif yang canggih.


Solusi edge (seperti Coral, GDC Edge)


Inferensi Edge

Aktifkan latensi ultra-rendah, privasi yang ditingkatkan, atau fungsi offline dengan menjalankan model secara langsung di perangkat.


Lakukan pengenalan objek instan pada kamera pintar tanpa mengirim video ke cloud.


Persiapan data untuk inferensi cloud batch

Memproses dan menyiapkan data dalam jumlah besar secara efisien untuk tugas inferensi batch berskala besar.


Lakukan pra-pemrosesan data sensor berukuran petabyte sebelum memasukkannya ke model pemeliharaan prediktif.

Vertex AI

Vertex AI adalah platform AI terpadu Google Cloud. Vertex AI menyediakan alat komprehensif untuk membangun, men-deploy, dan mengelola model ML, sehingga menjadikannya layanan pilihan untuk sebagian besar kebutuhan inferensi berbasis cloud.

Fitur Vertex AI

Pendekatan inferensi

Ideal jika Anda perlu

Contoh kasus penggunaan inferensi

Inferensi cloud real-time

Deploy model kustom dan dapatkan prediksi real-time dengan latensi rendah dari endpoint terkelola.

Merekomendasikan produk secara instan kepada pengguna yang menjelajahi situs.



Inferensi cloud batch

Memproses set data besar secara hemat biaya tanpa memerlukan hasil real-time.

Menganalisis semua transaksi pelanggan dari kemarin untuk mendeteksi pola penipuan.

Inferensi cloud real-time dan batch (AI generatif)

Manfaatkan model terlatih yang canggih dengan cepat untuk tugas AI generatif atau umum tanpa perlu melatihnya dari awal.

Buat teks pemasaran, ringkas dokumen panjang, atau buat cuplikan kode.


Fitur Vertex AI

Pendekatan inferensi

Ideal jika Anda perlu

Contoh kasus penggunaan inferensi

Inferensi cloud real-time

Deploy model kustom dan dapatkan prediksi real-time dengan latensi rendah dari endpoint terkelola.

Merekomendasikan produk secara instan kepada pengguna yang menjelajahi situs.



Inferensi cloud batch

Memproses set data besar secara hemat biaya tanpa memerlukan hasil real-time.

Menganalisis semua transaksi pelanggan dari kemarin untuk mendeteksi pola penipuan.

Inferensi cloud real-time dan batch (AI generatif)

Manfaatkan model terlatih yang canggih dengan cepat untuk tugas AI generatif atau umum tanpa perlu melatihnya dari awal.

Buat teks pemasaran, ringkas dokumen panjang, atau buat cuplikan kode.


Pelajari referensi inferensi AI

Siap meningkatkan keterampilan inferensi AI Anda ke level berikutnya? Berikut beberapa referensi berharga untuk membantu Anda mempelajari lebih lanjut dan memulai:

Langkah selanjutnya

Mulailah membangun solusi di Google Cloud dengan kredit gratis senilai $300 dan lebih dari 20 produk yang selalu gratis.