Tips berikut berlaku untuk set data besar dan/atau model besar.
Pelatihan tunggal vs. terdistribusi
Jika membuat aplikasi pelatihan TensorFlow atau container kustom, Anda dapat melakukan pelatihan terdistribusi di Pelatihan AI Platform.
Jika berlatih dengan container PyTorch bawaan, Anda dapat melakukan pelatihan PyTorch terdistribusi.
Anda hanya dapat melakukan pelatihan terdistribusi untuk XGBoost menggunakan algoritma XGBoost terdistribusi bawaan.
AI Platform Training tidak mendukung pelatihan terdistribusi untuk scikit-learn. Jika aplikasi pelatihan Anda menggunakan framework ini, harap hanya gunakan konfigurasi jenis mesin kustom atau tingkat skala yang sesuai dengan satu instance pekerja.
Set data besar
Saat menangani set data besar, mungkin mendownload seluruh set data ke VM pekerja pelatihan dan memuatnya ke pandas tidak diskalakan.
Dalam kasus ini, pertimbangkan untuk menggunakan stream-read/file_io
API TensorFlow
(API ini telah diprainstal di VM).
import pandas as pd
from pandas.compat import StringIO
from tensorflow.python.lib.io import file_io
# Access iris data from Cloud Storage
iris_data_filesteam = file_io.FileIO(os.path.join(data_dir, iris_data_filename),
mode='r')
iris_data = pd.read_csv(StringIO(iris_data_filesteam.read())).values
iris_target_filesteam = file_io.FileIO(os.path.join(data_dir,
iris_target_filename),
mode='r')
iris_target = pd.read_csv(StringIO(iris_target_filesteam.read())).values
iris_target = iris_target.reshape((iris_target.size,))
# Your training program goes here
...
..
.
# Close all filestreams
iris_data_filesteam.close()
iris_target_filesteam.close()
Model besar
VM pekerja pelatihan dengan kebutuhan memori yang lebih tinggi dapat diminta dengan menetapkan
scale-tier
ke CUSTOM
dan menetapkan masterType
melalui file konfigurasi
yang menyertainya. Untuk mengetahui detail selengkapnya, lihat dokumentasi tingkat skalabilitas.
Untuk melakukannya:
Buat
config.yaml
secara lokal dengan konten berikut:trainingInput: masterType: large_model
Kirim tugas Anda:
CONFIG=path/to/config.yaml gcloud ai-platform jobs submit training $JOB_NAME \ --job-dir $JOB_DIR \ --package-path $TRAINER_PACKAGE_PATH \ --module-name $MAIN_TRAINER_MODULE \ --region us-central1 \ --runtime-version=$RUNTIME_VERSION \ --python-version=$PYTHON_VERSION \ --scale-tier CUSTOM \ --config $CONFIG