Dokumen dalam Framework Arsitektur Google Cloud ini menjelaskan beberapa prinsip inti dan praktik terbaik untuk analisis data di Google Cloud. Anda akan mempelajari tentang beberapa layanan utama AI dan machine learning (ML), dan bagaimana layanan tersebut dapat membantu Anda selama berbagai tahap siklus proses AI dan ML. Praktik terbaik ini membantu Anda memenuhi kebutuhan AI dan ML Anda serta membuat desain sistem Anda. Dokumen ini mengasumsikan bahwa Anda telah familier dengan konsep dasar AI dan ML.
Untuk menyederhanakan proses pengembangan dan meminimalkan overhead saat Anda membangun model ML di Google Cloud, pertimbangkan tingkat abstraksi tertinggi yang cocok untuk kasus penggunaan Anda. Tingkat abstraksi didefinisikan sebagai jumlah kompleksitas penampilan atau pemrograman suatu sistem. Semakin tinggi tingkat abstraksi, semakin sedikit detail yang dapat ditampilkan.
Untuk memilih layanan Google AI dan ML berdasarkan kebutuhan bisnis Anda, gunakan tabel berikut ini:
Persona | Layanan Google |
---|---|
Pengguna bisnis | Solusi standar sepertiContact Center AI Insights, Document AI .Discovery AI, dan Cloud Healthcare API. |
Developer dengan pengalaman ML minimum | API yang telah dilatih menangani tugas persepsi umum seperti visi, video, dan natural language. API ini didukung oleh model yang telah dilatih sebelumnya dan menyediakan pendeteksi default. API ini siap digunakan tanpa keahlian ML apa pun atau upaya pengembangan model. API terlatih mencakup: Vision API, Video API, Natural Language API, Speech-to-Text API, Text-to-Speech API, dan Cloud Translation API. |
AI generatif untuk Developer | Vertex AI Search and Conversation memungkinkan developer menggunakan kemampuan uniknya untuk membangun dan men-deploy chatbot dalam hitungan menit dan mesin telusur dalam hitungan jam. Developer yang ingin menggabungkan beberapa kemampuan ke dalam alur kerja perusahaan dapat menggunakan Gen App Builder API untuk integrasi langsung. |
Developer dan data scientist | AutoML memungkinkan pengembangan model kustom dengan gambar, video, teks, atau data tabulasi Anda sendiri. AutoML mempercepat pengembangan model dengan penelusuran otomatis melalui model zoo Google untuk arsitektur model yang paling sesuai harapan, sehingga Anda tidak perlu mem-build model tersebut. AutoML menangani tugas-tugas umum untuk Anda, seperti memilih arsitektur model, penyesuaian hyperparameter, penyediaan mesin untuk pelatihan dan serving. |
Data scientist dan engineer ML | Alat model kustom Vertex AI dapat Anda gunakan untuk melatih dan menyalurkan model kustom, serta mengoperasionalkan alur kerja ML. Anda juga dapat menjalankan workload ML pada komputasi yang dikelola sendiri seperti VMCompute Engine. |
Data scientist & engineer machine learning | Dukungan AI generatif di Vertex AI (juga dikenal sebagai genai) menyediakan akses ke model AI generatif berukuran besar milik Google sehingga Anda dapat menguji, menyesuaikan, dan men-deploy model tersebut di aplikasi yang didukung teknologi AI. |
Data engineers, data scientist, dan analis data yang sudah biasa menggunakan antarmuka SQL | BigQuery ML dapat Anda gunakan untuk mengembangkan model berbasis SQL berdasarkan data yang disimpan di BigQuery. |
Layanan utama
Tabel berikut memberikan ringkasan umum tingkat tinggi terkait layanan AI dan ML:
Layanan Google | Deskripsi |
---|---|
Cloud Storage dan BigQuery | Menyediakan opsi penyimpanan yang fleksibel untuk data dan artefak machine learning. |
BigQuery ML | Memungkinkan Anda mem-build model machine learning secara langsung dari data yang disimpan di dalam BigQuery. |
Pub/Sub, Dataflow, Cloud Data Fusion, dan Dataproc |
Dukung penyerapan dan pemrosesan data batch dan real-time. Untuk informasi selengkapnya, lihat Analisis Data. |
Vertex AI | Menawarkan satu platform kepada data scientist dan engineer machine learning untuk
membuat, melatih, menguji, memantau, menyesuaikan, dan men-deploy model ML untuk segala hal, mulai dari
AI generatif hingga MLOps. Alat-alat mencakup hal berikut:
|
Vertex AI Search and Conversation | Memungkinkan Anda build chatbot dan mesin telusur untuk situs dan untuk digunakan di seluruh data perusahaan.
|
AI Generatif di Vertex AI | Memberi Anda akses ke model AI generatif besar dari Google sehingga Anda
dapat menguji, menyesuaikan, dan men-deploy-nya untuk digunakan dalam aplikasi yang
didukung AI. AI Generatif di Vertex AI juga dikenal sebagai genai.
|
API Terlatih |
|
AutoML | Menyediakan alat model kustom untuk mem-build, men-deploy, dan menskalakan model ML.
Developer dapat mengupload datanya sendiri dan menggunakan layanan AutoML yang berlaku untuk membuat model kustom.
|
Infrastruktur AI | Memungkinkan Anda menggunakan akselerator AI untuk memproses workload ML berskala besar. Akselerator ini
memungkinkan Anda melatih dan mendapatkan inferensi dari model deep learning dan
dari model machine learning dengan cara yang hemat biaya. GPUdapat membantu inferensi hemat biaya dan pelatihan peningkatan skala atau penyebaran skala untuk model deep learning. Tensor Processing Unit (TPU) adalah ASIC yang dibuat khusus untuk melatih dan menyetujui deep neural networks. |
Dialogflow | Memberikan agen virtual yang memberikan pengalaman percakapan. |
Contact Center AI | Memberikan pengalaman pusat kontak otomatis dan kaya insight dengan fungsi Agent Assist untuk agen manusia. |
Document AI | Memberikan pemahaman dokumen dalam skala besar untuk dokumen secara umum, dan untuk jenis dokumen tertentu seperti dokumen terkait pinjaman dan pengadaan. |
Lending DocAI | Mengotomatiskan pemrosesan dokumen hipotek. Mengurangi waktu pemrosesan dan menyederhanakan pengambilan data sekaligus mendukung persyaratan peraturan dan kepatuhan. |
Procurement DocAI | Mengotomatiskan pengambilan data pengadaan dalam skala besar dengan mengubah dokumen yang tidak terstruktur, seperti invoice dan tanda terima, menjadi data terstruktur untuk meningkatkan efisiensi operasional, memperbaiki kualitas pengalaman pelanggan, dan mendasari pengambilan keputusan. |
Saran | Memberikan rekomendasi produk yang dipersonalisasi. |
Healthcare Natural Language AI | Memungkinkan Anda meninjau dan menganalisis dokumen medis. |
Media Translation API | Mengaktifkan terjemahan ucapan real-time dari data audio. |
Pemrosesan data
Menerapkan praktik terbaik pemrosesan data berikut di lingkungan Anda sendiri.
Pastikan data Anda memenuhi persyaratan ML
Data yang Anda gunakan untuk ML harus memenuhi persyaratan dasar tertentu, apa pun jenis datanya. Persyaratan ini mencakup kemampuan data untuk memprediksi target, konsistensi dalam perincian antara data yang digunakan untuk pelatihan dan data yang digunakan untuk prediksi, serta data yang diberi label secara akurat untuk pelatihan. Volume data Anda juga harus memadai. Untuk informasi selengkapnya, lihat Pemrosesan data.
Simpan data tabulasi di BigQuery
Jika Anda menggunakan data tabulasi, pertimbangkan untuk menyimpan semua data di BigQuery dan menggunakan BigQuery Storage API untuk membaca data dari situ. Untuk menyederhanakan interaksi dengan API tersebut, gunakan salah satu opsi alat tambahan berikut, bergantung pada tempat Anda ingin membaca data tersebut:
- Jika Anda menggunakan Dataflow, gunakan BigQuery I/O Connector.
- Jika Anda menggunakan TensorFlow atau Keras, gunakan pembaca tf.data.dataset untuk BigQuery.
- Jika Anda menggunakan data tidak terstruktur seperti gambar atau video, pertimbangkan untuk menyimpan semua data di Cloud Storage.
Jenis data input juga menentukan alat pengembangan model yang tersedia. API yang telah dilatih sebelumnya, AutoML, dan BigQuery ML dapat menyediakan lingkungan pengembangan yang lebih hemat dan efisien dalam hal waktu untuk kasus penggunaan gambar, video, teks, dan data terstruktur tertentu.
Pastikan Anda memiliki cukup data untuk mengembangkan model ML
Untuk mengembangkan model ML yang berguna, Anda harus memiliki data yang cukup. Untuk memprediksi kategori, jumlah contoh yang direkomendasikan untuk setiap kategori adalah 10 kali jumlah fitur. Semakin banyak kategori yang ingin Anda prediksi, semakin banyak data yang Anda butuhkan. Set data tak seimbang membutuhkan lebih banyak lagi data. Jika Anda tidak memiliki cukup data berlabel yang tersedia, pertimbangkan semi-supervised learning.
Ukuran set data juga memiliki implikasi pelatihan dan penyaluran: jika Anda memiliki set data yang kecil, latih secara langsung dalam instance Notebook; jika Anda memiliki set data yang lebih besar yang memerlukan pelatihan terdistribusi, gunakan layanan pelatihan kustom Vertex AI. Jika Anda ingin Google melatih model untuk data Anda, gunakan AutoML.
Siapkan data untuk digunakan
Data yang disiapkan dengan baik dapat mempercepat pengembangan model. Saat Anda mengonfigurasi pipeline data Anda, pastikan pipeline tersebut dapat memproses data batch dan streaming sehingga Anda akan mendapatkan hasil yang konsisten dari kedua jenis data.
Pengembangan dan pelatihan model
Terapkan praktik terbaik pengembangan dan pelatihan model berikut di lingkungan Anda sendiri.
Pilih pengembangan model yang dilatih atau dikelola khusus
Saat Anda mem-build model, pertimbangkan tingkat abstraksi setinggi mungkin. Gunakan AutoML jika memungkinkan sehingga tugas pengembangan dan pelatihan ditangani untuk Anda. Untuk model yang dilatih khusus, pilih opsi terkelola untuk skalabilitas dan fleksibilitas, bukan opsi yang dikelola sendiri. Untuk mempelajari lebih lanjut opsi pengembangan model, baca artikel Menggunakan alat dan produk yang direkomendasikan.
Pertimbangkan layanan pelatihan Vertex AI, bukan pelatihan yang dikelola sendiri pada Compute Engine VM atau container VM Deep Learning. Untuk lingkungan JupyterLab, pertimbangkan Vertex AI Workbench, yang menyediakan lingkungan JupyterLab yang terkelola dan dikelola oleh pengguna. Untuk informasi selengkapnya, baca artikel Pengembangan Machine learning dan Pelatihan yang dioperasionalkan.
Gunakan container kustom atau yang telah dibuat sebelumnya untuk model yang dilatih khusus
Untuk model yang dilatih khusus di Vertex AI, Anda dapat menggunakan container kustom atau yang telah dibuat sebelumnya, bergantung pada framework machine learning dan versi framework Anda. Container yang telah dibuat sebelumnya telah tersedia untuk aplikasi pelatihan Python yang dibuat untuk versi TensorFlow, scikit-learn, PyTorch, dan XGBoost tertentu.
Jika tidak, Anda dapat memilih untuk membuat container kustom untuk tugas pelatihan Anda. Misalnya, gunakan container kustom jika ingin melatih model Anda menggunakan framework Python ML yang tidak tersedia dalam container yang telah dibuat sebelumnya, atau jika Anda ingin berlatih menggunakan bahasa pemrograman selain Python. Dalam container kustom Anda, pra-instal aplikasi pelatihan Anda dan semua dependensinya ke dalam image yang menjalankan tugas pelatihan Anda.
Pertimbangkan persyaratan pelatihan terdistribusi
Pertimbangkan persyaratan pelatihan terdistribusi. Beberapa framework ML, seperti TensorFlow dan PyTorch, dapat Anda gunakan untuk menjalankan kode pelatihan yang identik di beberapa mesin. Framework ini secara otomatis mengoordinasikan pembagian kerja berdasarkan variabel lingkungan yang ditetapkan pada setiap mesin. Framework lainnya mungkin memerlukan penyesuaian tambahan.
Langkah selanjutnya
Untuk mengetahui informasi selengkapnya tentang AI dan machine learning, lihat artikel berikut ini:
- Praktik terbaik untuk menerapkan machine learning di Google Cloud.
- Panduan praktisi untuk MLOps: Framework untuk continuous delivery dan otomatisasi machine learning.
Pelajari kategori lain dalam Framework Arsitektur seperti keandalan, keunggulan operasional, dan keamanan, privasi, serta kepatuhan.