Melatih model ML dengan scikit-learn dan XGBoost
Layanan AI Platform Training mengelola resource komputasi di cloud untuk melatih model Anda. Halaman ini menjelaskan proses untuk melatih model dengan scikit-learn dan XGBoost menggunakan AI Platform Training.
Ringkasan
Dalam tutorial ini, Anda akan melatih model sederhana untuk memprediksi spesies bunga, menggunakan set data Iris. Setelah menyesuaikan kode pelatihan model untuk mendownload data dari Cloud Storage dan mengupload file model tersimpan ke Cloud Storage, Anda akan membuat paket aplikasi pelatihan dan menggunakannya untuk menjalankan pelatihan di AI Platform Training.
Cara melatih model di AI Platform Training
Setelah menyelesaikan proses penyiapan awal, Anda dapat melatih model di AI Platform Training dalam tiga langkah:
- Membuat modul pelatihan Python Anda
- Menambahkan kode untuk mendownload data dari Cloud Storage agar Pelatihan AI Platform dapat menggunakannya
- Menambahkan kode untuk mengekspor dan menyimpan model ke Cloud Storage setelah Pelatihan AI Platform selesai melatih model
- Menyiapkan paket aplikasi pelatihan
- Mengirim tugas pelatihan
Proses penyiapan awal mencakup pembuatan project Google Cloud , mengaktifkan penagihan dan API, menyiapkan bucket Cloud Storage untuk digunakan dengan AI Platform Training, dan menginstal scikit-learn atau XGBoost secara lokal. Jika Anda telah menyiapkan dan menginstal semuanya, lanjutkan ke membuat kode pelatihan model.
Sebelum memulai
Selesaikan langkah-langkah berikut untuk menyiapkan akun GCP, mengaktifkan AI Platform Training API, serta menginstal dan mengaktifkan Cloud SDK.
Menyiapkan project GCP
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the AI Platform Training & Prediction and Compute Engine APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the AI Platform Training & Prediction and Compute Engine APIs.
- Install the Google Cloud CLI.
-
To initialize the gcloud CLI, run the following command:
gcloud init
Menyiapkan lingkungan Anda
Pilih salah satu opsi di bawah untuk menyiapkan lingkungan secara lokal di macOS atau di lingkungan jarak jauh di Cloud Shell.
Untuk pengguna macOS, sebaiknya siapkan lingkungan Anda menggunakan tab MACOS di bawah. Cloud Shell, yang ditampilkan di tab CLOUD SHELL, tersedia di macOS, Linux, dan Windows. Cloud Shell menyediakan cara cepat untuk mencoba Pelatihan AI Platform, tetapi tidak cocok untuk pekerjaan pengembangan yang sedang berlangsung.
macOS
-
Periksa penginstalan Python
Pastikan Anda telah menginstal Python dan, jika perlu, instal.python -V
-
Periksa penginstalan
pip
pip
adalah pengelola paket Python, yang disertakan dengan versi Python saat ini. Periksa apakah Anda telah menginstalpip
dengan menjalankanpip --version
. Jika belum, lihat cara menginstalpip
.Anda dapat mengupgrade
pip
menggunakan perintah berikut:pip install -U pip
Lihat dokumentasi pip untuk mengetahui detail selengkapnya.
-
Instal
virtualenv
virtualenv
adalah alat untuk membuat lingkungan Python yang terisolasi. Periksa apakah Anda telah menginstalvirtualenv
dengan menjalankanvirtualenv --version
. Jika tidak, instalvirtualenv
:pip install --user --upgrade virtualenv
Untuk membuat lingkungan pengembangan terisolasi bagi panduan ini, buat lingkungan virtual baru di
virtualenv
. Misalnya, perintah berikut mengaktifkan lingkungan bernamaaip-env
:virtualenv aip-env source aip-env/bin/activate
-
Untuk tujuan tutorial ini, jalankan perintah lainnya dalam lingkungan virtual Anda.
Lihat informasi selengkapnya tentang penggunaanvirtualenv
. Untuk keluar darivirtualenv
, jalankandeactivate
.
Cloud Shell
-
Buka konsol Google Cloud .
-
Klik tombol Aktifkan Google Cloud Shell di bagian atas jendela konsol.
Sesi Cloud Shell akan terbuka di dalam frame baru di bagian bawah konsol dan menampilkan perintah command line. Perlu waktu beberapa detik hingga sesi shell diinisialisasi.
Sesi Cloud Shell Anda siap digunakan.
-
Konfigurasikan alat command line
gcloud
untuk menggunakan project yang Anda pilih.gcloud config set project [selected-project-id]
dengan
[selected-project-id]
sebagai project ID Anda. (Hapus tanda kurung yang mengapit.)
Menginstal framework
macOS
Dalam lingkungan virtual Anda, jalankan perintah berikut untuk menginstal versi scikit-learn, XGBoost, dan pandas yang digunakan di Pelatihan AI Platform versi runtime 2.11:
(aip-env)$ pip install scikit-learn==1.0.2 xgboost==1.6.2 pandas==1.3.5
Dengan memberikan nomor versi dalam perintah sebelumnya, Anda memastikan bahwa dependensi di lingkungan virtual cocok dengan dependensi dalam versi runtime. Hal ini membantu mencegah perilaku yang tidak terduga saat kode Anda berjalan di AI Platform Training.
Untuk mengetahui detail selengkapnya, opsi penginstalan, dan informasi pemecahan masalah, lihat petunjuk penginstalan untuk setiap framework:
Cloud Shell
Jalankan perintah berikut untuk menginstal scikit-learn, XGBoost, dan pandas:
pip install --user scikit-learn xgboost pandas
Untuk mengetahui detail selengkapnya, opsi penginstalan, dan informasi pemecahan masalah, lihat petunjuk penginstalan untuk setiap framework:
Menyiapkan bucket Cloud Storage
Anda memerlukan bucket Cloud Storage untuk menyimpan kode pelatihan dan dependensi. Untuk tujuan tutorial ini, cara termudah adalah menggunakan bucket Cloud Storage khusus dalam project yang sama dengan yang Anda gunakan untuk Pelatihan AI Platform.
Jika menggunakan bucket di project lain, Anda harus memastikan bahwa akun layanan AI Platform Training dapat mengakses kode pelatihan dan dependensi di Cloud Storage. Tanpa izin yang sesuai, tugas pelatihan Anda akan gagal. Lihat cara memberikan izin untuk penyimpanan.
Pastikan untuk menggunakan atau menyiapkan bucket di region yang sama dengan yang Anda gunakan untuk menjalankan tugas pelatihan. Lihat region yang tersedia untuk layanan Pelatihan AI Platform.
Bagian ini menunjukkan cara membuat bucket baru. Anda dapat menggunakan bucket yang ada, tetapi harus berada di region yang sama dengan tempat Anda berencana menjalankan tugas AI Platform. Selain itu, jika ini bukan bagian dari project yang Anda gunakan untuk menjalankan Pelatihan AI Platform, Anda harus secara eksplisit memberikan akses ke akun layanan Pelatihan AI Platform.
-
Tentukan nama untuk bucket baru Anda. Nama harus unik di semua bucket di Cloud Storage.
BUCKET_NAME="YOUR_BUCKET_NAME"
Misalnya, gunakan nama project Anda dengan tambahan
-aiplatform
:PROJECT_ID=$(gcloud config list project --format "value(core.project)") BUCKET_NAME=${PROJECT_ID}-aiplatform
-
Periksa nama bucket yang Anda buat.
echo $BUCKET_NAME
-
Pilih region untuk bucket Anda dan tetapkan variabel lingkungan
REGION
.Gunakan region yang sama dengan tempat Anda berencana menjalankan tugas Pelatihan AI Platform. Lihat region yang tersedia untuk layanan Pelatihan AI Platform.
Misalnya, kode berikut membuat
REGION
dan menetapkannya keus-central1
:REGION=us-central1
-
Buat bucket baru:
gcloud storage buckets create gs://$BUCKET_NAME --location=$REGION
Membuat modul pelatihan Python
Buat file, iris_training.py
, yang berisi kode untuk melatih model Anda.
Bagian ini memberikan penjelasan tentang fungsi setiap bagian kode pelatihan:
- Penyiapan dan impor
- Mendownload data dari Cloud Storage
- Memuat data ke dalam pandas
- Melatih dan menyimpan model
- Mengupload file model tersimpan ke Cloud Storage
Untuk memudahkan Anda, kode lengkap untuk iris_training.py
dihosting di GitHub
sehingga Anda dapat menggunakannya untuk tutorial ini:
Penyiapan
Impor library berikut dari Python dan scikit-learn atau XGBoost. Tetapkan variabel untuk nama bucket Cloud Storage Anda.
scikit-learn
XGBoost
Mendownload data dari Cloud Storage
Selama proses pengembangan standar, Anda mengupload data Anda sendiri ke
Cloud Storage agar AI Platform Training dapat mengaksesnya. Data untuk tutorial ini dihosting di bucket Cloud Storage publik: gs://cloud-samples-data/ai-platform/iris/
Kode berikut mendownload data menggunakan gsutil
, lalu mengalihkan data
dari gsutil
ke stdout
:
scikit-learn
XGBoost
Memuat data ke dalam pandas
Gunakan pandas untuk memuat data ke dalam array NumPy untuk pelatihan dengan scikit-learn atau XGBoost.
scikit-learn
XGBoost
Melatih dan menyimpan model
Buat modul pelatihan agar AI Platform Training dapat dijalankan. Dalam contoh ini, modul pelatihan melatih model pada data pelatihan Iris (iris_data
dan iris_target
) dan menyimpan model yang dilatih dengan mengekspornya ke file. Jika ingin
menggunakan Prediksi AI Platform untuk mendapatkan prediksi online setelah pelatihan, Anda
harus memberi nama file model sesuai dengan library yang Anda gunakan untuk mengekspornya. Lihat
lebih lanjut persyaratan penamaan untuk file
model Anda.
scikit-learn
Dengan mengikuti contoh scikit-learn tentang persistensi model, Anda dapat melatih dan mengekspor model seperti yang ditunjukkan di bawah ini:
Untuk mengekspor model, Anda juga memiliki opsi untuk menggunakan library pickle sebagai berikut:
import pickle
with open('model.pkl', 'wb') as model_file:
pickle.dump(classifier, model_file)
XGBoost
Anda dapat mengekspor model menggunakan metode"save_model" dari objek Booster.
Untuk mengekspor model, Anda juga memiliki opsi untuk menggunakan library pickle sebagai berikut:
import pickle
with open('model.pkl', 'wb') as model_file:
pickle.dump(bst, model_file)
Persyaratan penamaan file model
Untuk prediksi online, file model tersimpan yang Anda upload ke
Cloud Storage harus diberi nama salah satu dari: model.pkl
, model.joblib
, atau
model.bst
, bergantung pada library yang Anda gunakan. Batasan ini memastikan bahwa
Prediksi AI Platform menggunakan pola yang sama untuk merekonstruksi model saat impor seperti
yang digunakan selama ekspor.
Persyaratan ini tidak berlaku jika Anda membuat rutinitas prediksi kustom (beta).
scikit-learn
Library yang digunakan untuk mengekspor model | Perbaiki nama model |
---|---|
pickle |
model.pkl |
sklearn.externals.joblib |
model.joblib |
XGBoost
Library yang digunakan untuk mengekspor model | Perbaiki nama model |
---|---|
pickle |
model.pkl |
joblib |
model.joblib |
xgboost.Booster |
model.bst |
Untuk iterasi model Anda di masa mendatang, atur bucket Cloud Storage agar setiap model baru memiliki direktori khusus.
Mengupload model tersimpan ke Cloud Storage
Jika Anda menggunakan bucket Cloud Storage di luar project Google Cloud yang Anda gunakan untuk menjalankan AI Platform Training, pastikan AI Platform Training memiliki akses ke bucket Anda.
scikit-learn
XGBoost
Membuat paket aplikasi pelatihan
Dengan iris_training.py
yang dibuat dari cuplikan di atas, buat paket
aplikasi pelatihan yang menyertakan iris_training.py
sebagai modul utamanya.
Cara termudah (dan direkomendasikan) untuk membuat paket aplikasi pelatihan menggunakan
gcloud
untuk memaketkan dan mengupload aplikasi saat Anda mengirimkan tugas
pelatihan. Metode ini mengharuskan Anda membuat struktur file yang sangat sederhana dengan dua
file:
scikit-learn
Untuk tutorial ini, struktur file paket aplikasi pelatihan Anda akan terlihat seperti berikut:
iris_sklearn_trainer/
__init__.py
iris_training.py
Di command line, buat direktori secara lokal:
mkdir iris_sklearn_trainer
Buat file kosong bernama
__init__.py
:touch iris_sklearn_trainer/__init__.py
Simpan kode pelatihan sebagai
iris_training.py
, dan simpan file tersebut dalam direktoriiris_sklearn_trainer
. Atau, gunakancURL
untuk mendownload dan menyimpan file dari GitHub:curl https://raw.githubusercontent.com/GoogleCloudPlatform/cloudml-samples/master/sklearn/iris_training.py > iris_sklearn_trainer/iris_training.py
Pastikan paket aplikasi pelatihan Anda disiapkan dengan benar:
ls ./iris_sklearn_trainer __init__.py iris_training.py
XGBoost
Untuk tutorial ini, struktur file paket aplikasi pelatihan Anda akan terlihat seperti berikut:
iris_xgboost_trainer/
__init__.py
iris_training.py
Di command line, buat direktori secara lokal:
mkdir iris_xgboost_trainer
Buat file kosong bernama
__init__.py
:touch iris_xgboost_trainer/__init__.py
Simpan kode pelatihan sebagai
iris_training.py
, dan simpan file tersebut dalam direktoriiris_xgboost_trainer
. Atau, gunakancURL
untuk mendownload dan menyimpan file dari GitHub:curl https://raw.githubusercontent.com/GoogleCloudPlatform/cloudml-samples/master/xgboost/iris_training.py > iris_xgboost_trainer/iris_training.py
Pastikan paket aplikasi pelatihan Anda disiapkan dengan benar:
ls ./iris_xgboost_trainer __init__.py iris_training.py
Pelajari lebih lanjut cara memaketkan aplikasi pelatihan.
Menjalankan pelatih secara lokal
Anda dapat menguji aplikasi pelatihan secara lokal menggunakan perintah
gcloud ai-platform local train
. Langkah ini bersifat opsional, tetapi berguna untuk tujuan proses debug.
scikit-learn
Di command line, tetapkan variabel lingkungan berikut,
ganti [VALUES-IN-BRACKETS]
dengan nilai yang sesuai:
TRAINING_PACKAGE_PATH="./iris_sklearn_trainer/"
MAIN_TRAINER_MODULE="iris_sklearn_trainer.iris_training"
Uji tugas pelatihan Anda secara lokal:
gcloud ai-platform local train \
--package-path $TRAINING_PACKAGE_PATH \
--module-name $MAIN_TRAINER_MODULE
XGBoost
Di command line, tetapkan variabel lingkungan berikut,
ganti [VALUES-IN-BRACKETS]
dengan nilai yang sesuai:
TRAINING_PACKAGE_PATH="./iris_xgboost_trainer/"
MAIN_TRAINER_MODULE="iris_xgboost_trainer.iris_training"
Uji tugas pelatihan Anda secara lokal:
gcloud ai-platform local train \
--package-path $TRAINING_PACKAGE_PATH \
--module-name $MAIN_TRAINER_MODULE
Mengirim tugas pelatihan
Di bagian ini, Anda akan menggunakan
gcloud ai-platform jobs submit training
untuk mengirimkan
tugas pelatihan.
Menentukan parameter tugas pelatihan
Tetapkan variabel lingkungan berikut untuk setiap parameter dalam permintaan tugas pelatihan Anda:
BUCKET_NAME
- Nama bucket Cloud Storage Anda.JOB_NAME
- Nama yang akan digunakan untuk tugas (hanya huruf besar/kecil, angka, dan garis bawah, yang dimulai dengan huruf). Misalnya,iris_scikit_learn_$(date +"%Y%m%d_%H%M%S")
atauiris_xgboost_$(date +"%Y%m%d_%H%M%S")
.JOB_DIR
- Jalur ke lokasi Cloud Storage yang akan digunakan untuk file output tugas pelatihan Anda. Misalnya,gs://$BUCKET_NAME/scikit_learn_job_dir
ataugs://$BUCKET_NAME/xgboost_job_dir
.TRAINING_PACKAGE_PATH
- Jalur lokal ke direktori utama aplikasi pelatihan Anda. Misalnya,./iris_sklearn_trainer/
atau./iris_xgboost_trainer/
.MAIN_TRAINER_MODULE
- Menentukan file yang harus dijalankan oleh layanan pelatihan AI Platform Training. Formatnya adalah[YOUR_FOLDER_NAME.YOUR_PYTHON_FILE_NAME]
. Misalnya,iris_sklearn_trainer.iris_training
atauiris_xgboost_trainer.iris_training
.REGION
- Nama region yang Anda gunakan untuk menjalankan tugas pelatihan. Gunakan salah satu region yang tersedia untuk layanan pelatihan AI Platform Training. Pastikan bucket Cloud Storage Anda berada di region yang sama.RUNTIME_VERSION
- Anda harus menentukan versi runtime AI Platform Training yang mendukung scikit-learn. Dalam contoh ini,2.11
.PYTHON_VERSION
- Versi Python yang akan digunakan untuk tugas. Untuk tutorial ini, tentukan Python 3.7.SCALE_TIER
- Spesifikasi cluster standar untuk mesin guna menjalankan tugas pelatihan Anda. Dalam hal ini,BASIC
. Anda juga dapat menggunakan tingkat skala kustom untuk menentukan konfigurasi cluster Anda sendiri untuk pelatihan.
Untuk memudahkan Anda, variabel lingkungan untuk tutorial ini ada di bawah.
scikit-learn
Ganti [VALUES-IN-BRACKETS]
dengan nilai yang sesuai:
BUCKET_NAME=[YOUR-BUCKET-NAME]
JOB_NAME="iris_scikit_learn_$(date +"%Y%m%d_%H%M%S")"
JOB_DIR=gs://$BUCKET_NAME/scikit_learn_job_dir
TRAINING_PACKAGE_PATH="./iris_sklearn_trainer/"
MAIN_TRAINER_MODULE="iris_sklearn_trainer.iris_training"
REGION=us-central1
RUNTIME_VERSION=2.11
PYTHON_VERSION=3.7
SCALE_TIER=BASIC
XGBoost
Ganti [VALUES-IN-BRACKETS]
dengan nilai yang sesuai:
BUCKET_NAME=[YOUR-BUCKET-NAME]
JOB_NAME="iris_xgboost_$(date +"%Y%m%d_%H%M%S")"
JOB_DIR=gs://$BUCKET_NAME/xgboost_job_dir
TRAINING_PACKAGE_PATH="./iris_xgboost_trainer/"
MAIN_TRAINER_MODULE="iris_xgboost_trainer.iris_training"
REGION=us-central1
RUNTIME_VERSION=2.11
PYTHON_VERSION=3.7
SCALE_TIER=BASIC
Kirim permintaan tugas pelatihan:
gcloud ai-platform jobs submit training $JOB_NAME \
--job-dir $JOB_DIR \
--package-path $TRAINING_PACKAGE_PATH \
--module-name $MAIN_TRAINER_MODULE \
--region $REGION \
--runtime-version=$RUNTIME_VERSION \
--python-version=$PYTHON_VERSION \
--scale-tier $SCALE_TIER
Anda akan melihat output yang mirip dengan berikut ini:
Job [iris_scikit_learn_[DATE]_[TIME]] submitted successfully.
Your job is still active. You may view the status of your job with the command
$ gcloud ai-platform jobs describe iris_scikit_learn_[DATE]_[TIME]
or continue streaming the logs with the command
$ gcloud ai-platform jobs stream-logs iris_scikit_learn_[DATE]_[TIME]
jobId: iris_scikit_learn_[DATE]_[TIME]
state: QUEUED
Melihat log pelatihan Anda (opsional)
AI Platform Training merekam semua streaming dan pernyataan logging stdout
dan stderr
. Log ini disimpan di Logging; log ini dapat dilihat
selama dan setelah eksekusi.
Untuk melihat log tugas pelatihan Anda:
Konsol
Buka halaman Tugas Pelatihan AI Platform.
Pilih nama tugas pelatihan yang akan diperiksa. Tindakan ini akan mengarahkan Anda ke halaman Detail tugas untuk tugas pelatihan yang dipilih.
Dalam detail tugas, pilih link Lihat log. Tindakan ini akan mengarahkan Anda ke halaman Logging tempat Anda dapat menelusuri dan memfilter log untuk tugas pelatihan yang dipilih.
gcloud
Anda dapat melihat log di terminal dengan gcloud ai-platform jobs stream-logs
.
gcloud ai-platform jobs stream-logs $JOB_NAME
Memverifikasi file model Anda di Cloud Storage
Lihat konten folder model tujuan untuk memverifikasi bahwa file model yang disimpan telah diupload ke Cloud Storage.
gcloud storage ls gs://$BUCKET_NAME/iris_*
Contoh output:
gs://bucket-name/iris_20180518_123815/:
gs://bucket-name/iris_20180518_123815/model.joblib
Langkah selanjutnya
- Dapatkan prediksi online dengan scikit-learn di Pelatihan AI Platform.
- Lihat cara menggunakan tingkat skala kustom untuk menentukan konfigurasi cluster Anda sendiri untuk pelatihan.