Latih model machine learning dengan TensorFlow 2 di Pelatihan AI Platform menggunakan runtime versi 2.1 atau yang lebih baru. TensorFlow 2 menyederhanakan banyak API dari TensorFlow 1. Dokumentasi TensorFlow menyediakan panduan untuk memigrasikan kode TensorFlow 1 ke TensorFlow 2.
Menjalankan tugas pelatihan dengan TensorFlow 2 pada Pelatihan AI Platform mengikuti proses yang sama seperti menjalankan tugas pelatihan kode kustom lainnya. Namun, beberapa fitur Pelatihan AI Platform berfungsi secara berbeda dengan TensorFlow 2 dibandingkan dengan cara kerja fitur tersebut dengan TensorFlow 1. Dokumen ini memberikan ringkasan perbedaan tersebut.
Dukungan versi Python
Runtime versi 2.1 dan yang lebih baru hanya mendukung pelatihan dengan Python 3.7. Oleh karena itu, Anda harus menggunakan Python 3.7 untuk berlatih dengan TensorFlow 2.
Python Software Foundation mengakhiri dukungan untuk Python 2.7 pada 1 Januari 2020. Tidak ada versi runtime AI Platform yang dirilis setelah 1 Januari 2020 yang mendukung Python 2.7.
Pelatihan yang terdistribusi
TensorFlow 2 menyediakan API yang diupdate untuk pelatihan terdistribusi. Selain itu,
Pelatihan AI Platform menetapkan variabel lingkungan TF_CONFIG
secara berbeda dalam runtime
versi 2.1 dan yang lebih baru. Bagian ini menjelaskan kedua perubahan tersebut.
Strategi distribusi
Untuk melakukan pelatihan terdistribusi dengan beberapa instance virtual machine (VM) di TensorFlow 2, gunakan tf.distribute.Strategy
API.
Secara khusus, sebaiknya gunakan Keras API bersama dengan
MultiWorkerMirroredStrategy
atau, jika Anda menentukan server parameter untuk tugas Anda,
ParameterServerStrategy
.
Namun, perlu diperhatikan bahwa TensorFlow saat ini hanya menyediakan dukungan eksperimental untuk strategi ini.
TF_CONFIG
TensorFlow mengharapkan variabel lingkungan TF_CONFIG
ditetapkan pada setiap VM yang digunakan untuk pelatihan. AI Platform Training secara otomatis menetapkan
variabel lingkungan ini pada setiap VM yang digunakan dalam tugas pelatihan Anda. Hal ini membuat setiap VM dapat berperilaku berbeda bergantung pada jenisnya dan membantu VM berkomunikasi satu sama lain.
Pada runtime versi 2.1 dan yang lebih baru, AI Platform Training tidak lagi menggunakan jenis tugas master
dalam variabel lingkungan TF_CONFIG
apa pun. Sebagai gantinya, pekerja master tugas pelatihan Anda diberi label dengan jenis chief
dalam
variabel lingkungan TF_CONFIG
. Pelajari lebih lanjut cara Pelatihan AI Platform menetapkan
variabel lingkungan TF_CONFIG
.
Akselerator untuk pelatihan
AI Platform Training memungkinkan Anda mempercepat tugas pelatihan dengan GPU dan TPU.
GPU
Jika ingin mempelajari cara menggunakan GPU untuk pelatihan, baca panduan Pelatihan AI Platform untuk mengonfigurasi GPU dan panduan TensorFlow dalam menggunakan GPU.
Jika Anda ingin berlatih di satu VM dengan beberapa GPU, praktik terbaiknya adalah menggunakan MirroredStrategy
TensorFlow.
Jika Anda ingin berlatih menggunakan beberapa VM dengan GPU, praktik terbaiknya adalah menggunakan MultiWorkerMirroredStrategy
TensorFlow.
TPU
Guna mempelajari cara menggunakan TPU untuk pelatihan, baca panduan pelatihan dengan TPU.
Penyesuaian hyperparameter
Jika menjalankan tugas penyesuaian hyperparameter dengan TensorFlow 2, Anda mungkin perlu menyesuaikan cara kode pelatihan melaporkan metrik penyesuaian hyperparameter ke layanan Pelatihan AI Platform.
Jika berlatih dengan Estimator, Anda dapat menulis metrik ke ringkasan dengan cara yang sama seperti yang Anda lakukan di TensorFlow 1. Jika Anda berlatih dengan Keras, sebaiknya
gunakan
tf.summary.scalar
untuk menulis ringkasan.
Langkah selanjutnya
- Baca cara mengonfigurasi versi runtime dan versi Python untuk tugas pelatihan.
- Baca selengkapnya tentang cara mengonfigurasi pelatihan terdistribusi.
- Baca selengkapnya tentang penyelarasan hyperparameter.