Penerapan machine learning

Last reviewed 2023-08-23 UTC

Dokumen dalam Framework Arsitektur Google Cloud ini menjelaskan beberapa prinsip inti dan praktik terbaik untuk analisis data di Google Cloud. Anda akan mempelajari tentang beberapa layanan utama AI dan machine learning (ML), dan bagaimana layanan tersebut dapat membantu Anda selama berbagai tahap siklus proses AI dan ML. Praktik terbaik ini membantu Anda memenuhi kebutuhan AI dan ML Anda serta membuat desain sistem Anda. Dokumen ini mengasumsikan bahwa Anda telah familier dengan konsep dasar AI dan ML.

Untuk menyederhanakan proses pengembangan dan meminimalkan overhead saat Anda membangun model ML di Google Cloud, pertimbangkan tingkat abstraksi tertinggi yang cocok untuk kasus penggunaan Anda. Tingkat abstraksi didefinisikan sebagai jumlah kompleksitas penampilan atau pemrograman suatu sistem. Semakin tinggi tingkat abstraksi, semakin sedikit detail yang dapat ditampilkan.

Untuk memilih layanan Google AI dan ML berdasarkan kebutuhan bisnis Anda, gunakan tabel berikut ini:

Persona Layanan Google
Pengguna bisnis Solusi standar sepertiContact Center AI Insights, Document AI .Discovery AI, dan Cloud Healthcare API.
Developer dengan pengalaman ML minimum API yang telah dilatih menangani tugas persepsi umum seperti visi, video, dan natural language. API ini didukung oleh model yang telah dilatih sebelumnya dan menyediakan pendeteksi default. API ini siap digunakan tanpa keahlian ML apa pun atau upaya pengembangan model. API terlatih mencakup: Vision API, Video API, Natural Language API, Speech-to-Text API, Text-to-Speech API, dan Cloud Translation API.
AI generatif untuk Developer Vertex AI Search and Conversation memungkinkan developer menggunakan kemampuan uniknya untuk membangun dan men-deploy chatbot dalam hitungan menit dan mesin telusur dalam hitungan jam. Developer yang ingin menggabungkan beberapa kemampuan ke dalam alur kerja perusahaan dapat menggunakan Gen App Builder API untuk integrasi langsung.
Developer dan data scientist AutoML memungkinkan pengembangan model kustom dengan gambar, video, teks, atau data tabulasi Anda sendiri. AutoML mempercepat pengembangan model dengan penelusuran otomatis melalui model zoo Google untuk arsitektur model yang paling sesuai harapan, sehingga Anda tidak perlu mem-build model tersebut. AutoML menangani tugas-tugas umum untuk Anda, seperti memilih arsitektur model, penyesuaian hyperparameter, penyediaan mesin untuk pelatihan dan serving.
Data scientist dan engineer ML Alat model kustom Vertex AI dapat Anda gunakan untuk melatih dan menyalurkan model kustom, serta mengoperasionalkan alur kerja ML. Anda juga dapat menjalankan workload ML pada komputasi yang dikelola sendiri seperti VMCompute Engine.
Data scientist & engineer machine learning Dukungan AI generatif di Vertex AI (juga dikenal sebagai genai) menyediakan akses ke model AI generatif berukuran besar milik Google sehingga Anda dapat menguji, menyesuaikan, dan men-deploy model tersebut di aplikasi yang didukung teknologi AI.
Data engineers, data scientist, dan analis data yang sudah biasa menggunakan antarmuka SQL BigQuery ML dapat Anda gunakan untuk mengembangkan model berbasis SQL berdasarkan data yang disimpan di BigQuery.

Layanan utama

Tabel berikut memberikan ringkasan umum tingkat tinggi terkait layanan AI dan ML:

Layanan Google Deskripsi
Cloud Storage dan BigQuery Menyediakan opsi penyimpanan yang fleksibel untuk data dan artefak machine learning.
BigQuery ML Memungkinkan Anda mem-build model machine learning secara langsung dari data yang disimpan di dalam BigQuery.
Pub/Sub, Dataflow,
Cloud Data Fusion, dan Dataproc
Dukung penyerapan dan pemrosesan data batch dan real-time. Untuk informasi selengkapnya, lihat Analisis Data.
Vertex AI Menawarkan satu platform kepada data scientist dan engineer machine learning untuk membuat, melatih, menguji, memantau, menyesuaikan, dan men-deploy model ML untuk segala hal, mulai dari AI generatif hingga MLOps.

Alat-alat mencakup hal berikut:
Vertex AI Search and Conversation Memungkinkan Anda build chatbot dan mesin telusur untuk situs dan untuk digunakan di seluruh data perusahaan.
  • AI Percakapan di Vertex AI Search and Conversation dapat membantu mengubah interaksi pelanggan dan karyawan dengan chatbot dan asisten digital yang didukung AI generatif. Misalnya, dengan alat ini, Anda dapat memberikan lebih dari sekadar informasi dengan mengaktifkan transaksi dari dalam pengalaman chat.
  • Enterprise Search di Vertex AI Search and Conversation, memungkinkan perusahaan membangun pengalaman penelusuran untuk pelanggan dan karyawan di situs publik atau pribadi mereka. Selain menyediakan hasil penelusuran multimodal berkualitas tinggi, Penelusuran Enterprise juga dapat meringkas hasil dan menyediakan kutipan yang sesuai dengan AI generatif.
AI Generatif di Vertex AI Memberi Anda akses ke model AI generatif besar dari Google sehingga Anda dapat menguji, menyesuaikan, dan men-deploy-nya untuk digunakan dalam aplikasi yang didukung AI. AI Generatif di Vertex AI juga dikenal sebagai genai.
  • Model AI generatif, yang juga dikenal sebagai model dasar, dikategorikan berdasarkan jenis konten yang dirancang untuk dihasilkan. Konten ini mencakup teks dan chat, gambar, kode, dan penyematan teks.
  • Vertex AI Studio memungkinkan Anda membuat prototipe dan menguji model AI generatif dengan cepat di Konsol Google Cloud. Anda dapat menguji perintah contoh, mendesain perintah Anda sendiri, dan menyesuaikan model dasar untuk menangani tugas yang memenuhi kebutuhan aplikasi Anda.
  • Penyesuaian Model - memungkinkan Anda menyesuaikan model dasar untuk kasus penggunaan tertentu dengan menyesuaikannya menggunakan set data contoh input-output.
  • Model Garden menyediakan model dasar yang siap digunakan perusahaan, model khusus tugas, dan API.
API Terlatih
AutoML Menyediakan alat model kustom untuk mem-build, men-deploy, dan menskalakan model ML. Developer dapat mengupload datanya sendiri dan menggunakan layanan AutoML yang berlaku untuk membuat model kustom.
  • AutoML Image: Melakukan klasifikasi gambar dan deteksi objek pada data gambar.
  • AutoML Video: Melakukan deteksi objek, klasifikasi, dan pengenalan tindakan pada data video.
  • AutoML Text: Melakukan klasifikasi bahasa, ekstraksi entity, dan analisis sentimen pada data teks.
  • AutoML Translation: Mendeteksi dan menerjemahkan antara pasangan bahasa.
  • AutoML Tabular: Memungkinkan Anda mem-build model regresi, klasifikasi, atau perkiraan. Ditujukan untuk data terstruktur.
Infrastruktur AI Memungkinkan Anda menggunakan akselerator AI untuk memproses workload ML berskala besar. Akselerator ini memungkinkan Anda melatih dan mendapatkan inferensi dari model deep learning dan dari model machine learning dengan cara yang hemat biaya.

GPUdapat membantu inferensi hemat biaya dan pelatihan peningkatan skala atau penyebaran skala untuk model deep learning. Tensor Processing Unit (TPU) adalah ASIC yang dibuat khusus untuk melatih dan menyetujui deep neural networks.
Dialogflow Memberikan agen virtual yang memberikan pengalaman percakapan.
Contact Center AI Memberikan pengalaman pusat kontak otomatis dan kaya insight dengan fungsi Agent Assist untuk agen manusia.
Document AI Memberikan pemahaman dokumen dalam skala besar untuk dokumen secara umum, dan untuk jenis dokumen tertentu seperti dokumen terkait pinjaman dan pengadaan.
Lending DocAI Mengotomatiskan pemrosesan dokumen hipotek. Mengurangi waktu pemrosesan dan menyederhanakan pengambilan data sekaligus mendukung persyaratan peraturan dan kepatuhan.
Procurement DocAI Mengotomatiskan pengambilan data pengadaan dalam skala besar dengan mengubah dokumen yang tidak terstruktur, seperti invoice dan tanda terima, menjadi data terstruktur untuk meningkatkan efisiensi operasional, memperbaiki kualitas pengalaman pelanggan, dan mendasari pengambilan keputusan.
Saran Memberikan rekomendasi produk yang dipersonalisasi.
Healthcare Natural Language AI Memungkinkan Anda meninjau dan menganalisis dokumen medis.
Media Translation API Mengaktifkan terjemahan ucapan real-time dari data audio.

Pemrosesan data

Menerapkan praktik terbaik pemrosesan data berikut di lingkungan Anda sendiri.

Pastikan data Anda memenuhi persyaratan ML

Data yang Anda gunakan untuk ML harus memenuhi persyaratan dasar tertentu, apa pun jenis datanya. Persyaratan ini mencakup kemampuan data untuk memprediksi target, konsistensi dalam perincian antara data yang digunakan untuk pelatihan dan data yang digunakan untuk prediksi, serta data yang diberi label secara akurat untuk pelatihan. Volume data Anda juga harus memadai. Untuk informasi selengkapnya, lihat Pemrosesan data.

Simpan data tabulasi di BigQuery

Jika Anda menggunakan data tabulasi, pertimbangkan untuk menyimpan semua data di BigQuery dan menggunakan BigQuery Storage API untuk membaca data dari situ. Untuk menyederhanakan interaksi dengan API tersebut, gunakan salah satu opsi alat tambahan berikut, bergantung pada tempat Anda ingin membaca data tersebut:

Jenis data input juga menentukan alat pengembangan model yang tersedia. API yang telah dilatih sebelumnya, AutoML, dan BigQuery ML dapat menyediakan lingkungan pengembangan yang lebih hemat dan efisien dalam hal waktu untuk kasus penggunaan gambar, video, teks, dan data terstruktur tertentu.

Pastikan Anda memiliki cukup data untuk mengembangkan model ML

Untuk mengembangkan model ML yang berguna, Anda harus memiliki data yang cukup. Untuk memprediksi kategori, jumlah contoh yang direkomendasikan untuk setiap kategori adalah 10 kali jumlah fitur. Semakin banyak kategori yang ingin Anda prediksi, semakin banyak data yang Anda butuhkan. Set data tak seimbang membutuhkan lebih banyak lagi data. Jika Anda tidak memiliki cukup data berlabel yang tersedia, pertimbangkan semi-supervised learning.

Ukuran set data juga memiliki implikasi pelatihan dan penyaluran: jika Anda memiliki set data yang kecil, latih secara langsung dalam instance Notebook; jika Anda memiliki set data yang lebih besar yang memerlukan pelatihan terdistribusi, gunakan layanan pelatihan kustom Vertex AI. Jika Anda ingin Google melatih model untuk data Anda, gunakan AutoML.

Siapkan data untuk digunakan

Data yang disiapkan dengan baik dapat mempercepat pengembangan model. Saat Anda mengonfigurasi pipeline data Anda, pastikan pipeline tersebut dapat memproses data batch dan streaming sehingga Anda akan mendapatkan hasil yang konsisten dari kedua jenis data.

Pengembangan dan pelatihan model

Terapkan praktik terbaik pengembangan dan pelatihan model berikut di lingkungan Anda sendiri.

Pilih pengembangan model yang dilatih atau dikelola khusus

Saat Anda mem-build model, pertimbangkan tingkat abstraksi setinggi mungkin. Gunakan AutoML jika memungkinkan sehingga tugas pengembangan dan pelatihan ditangani untuk Anda. Untuk model yang dilatih khusus, pilih opsi terkelola untuk skalabilitas dan fleksibilitas, bukan opsi yang dikelola sendiri. Untuk mempelajari lebih lanjut opsi pengembangan model, baca artikel Menggunakan alat dan produk yang direkomendasikan.

Pertimbangkan layanan pelatihan Vertex AI, bukan pelatihan yang dikelola sendiri pada Compute Engine VM atau container VM Deep Learning. Untuk lingkungan JupyterLab, pertimbangkan Vertex AI Workbench, yang menyediakan lingkungan JupyterLab yang terkelola dan dikelola oleh pengguna. Untuk informasi selengkapnya, baca artikel Pengembangan Machine learning dan Pelatihan yang dioperasionalkan.

Gunakan container kustom atau yang telah dibuat sebelumnya untuk model yang dilatih khusus

Untuk model yang dilatih khusus di Vertex AI, Anda dapat menggunakan container kustom atau yang telah dibuat sebelumnya, bergantung pada framework machine learning dan versi framework Anda. Container yang telah dibuat sebelumnya telah tersedia untuk aplikasi pelatihan Python yang dibuat untuk versi TensorFlow, scikit-learn, PyTorch, dan XGBoost tertentu.

Jika tidak, Anda dapat memilih untuk membuat container kustom untuk tugas pelatihan Anda. Misalnya, gunakan container kustom jika ingin melatih model Anda menggunakan framework Python ML yang tidak tersedia dalam container yang telah dibuat sebelumnya, atau jika Anda ingin berlatih menggunakan bahasa pemrograman selain Python. Dalam container kustom Anda, pra-instal aplikasi pelatihan Anda dan semua dependensinya ke dalam image yang menjalankan tugas pelatihan Anda.

Pertimbangkan persyaratan pelatihan terdistribusi

Pertimbangkan persyaratan pelatihan terdistribusi. Beberapa framework ML, seperti TensorFlow dan PyTorch, dapat Anda gunakan untuk menjalankan kode pelatihan yang identik di beberapa mesin. Framework ini secara otomatis mengoordinasikan pembagian kerja berdasarkan variabel lingkungan yang ditetapkan pada setiap mesin. Framework lainnya mungkin memerlukan penyesuaian tambahan.

Langkah selanjutnya

Untuk mengetahui informasi selengkapnya tentang AI dan machine learning, lihat artikel berikut ini:

Pelajari kategori lain dalam Framework Arsitektur seperti keandalan, keunggulan operasional, dan keamanan, privasi, serta kepatuhan.