Latih model machine learning dengan TensorFlow 2 di Pelatihan AI Platform menggunakan runtime versi 2.1 atau yang lebih baru. TensorFlow 2 menyederhanakan banyak API dari TensorFlow 1. Dokumentasi TensorFlow memberikan panduan untuk memigrasikan kode TensorFlow 1 ke TensorFlow 2.
Menjalankan tugas pelatihan dengan TensorFlow 2 di AI Platform Training mengikuti proses yang sama seperti menjalankan tugas pelatihan kode kustom lainnya. Namun, beberapa fitur AI Platform Training bekerja secara berbeda dengan TensorFlow 2 dibandingkan dengan cara kerjanya dengan TensorFlow 1. Dokumen ini memberikan ringkasan tentang perbedaan ini.
Dukungan versi Python
Runtime versi 2.1 dan yang lebih baru hanya mendukung pelatihan dengan Python 3.7. Oleh karena itu, Anda harus menggunakan Python 3.7 untuk melatih dengan TensorFlow 2.
Python Software Foundation mengakhiri dukungan untuk Python 2.7 pada 1 Januari 2020. Tidak ada versi runtime AI Platform yang dirilis setelah 1 Januari 2020 yang mendukung Python 2.7.
Pelatihan terdistribusi
TensorFlow 2 menyediakan API yang telah diperbarui untuk pelatihan terdistribusi. Selain itu, Pelatihan Platform AI menetapkan variabel lingkungan TF_CONFIG
secara berbeda dalam runtime versi 2.1 dan yang lebih baru. Bagian ini menjelaskan kedua perubahan tersebut.
Strategi distribusi
Untuk melakukan pelatihan terdistribusi dengan beberapa instance virtual machine (VM) di
TensorFlow 2, gunakan tf.distribute.Strategy
API.
Secara khusus, sebaiknya gunakan Keras API bersama dengan
MultiWorkerMirroredStrategy
atau, jika Anda menentukan server parameter untuk tugas Anda,
ParameterServerStrategy
.
Namun, perlu diperhatikan bahwa TensorFlow saat ini hanya menyediakan dukungan
eksperimental
untuk strategi ini.
TF_CONFIG
TensorFlow mengharapkan variabel lingkungan TF_CONFIG
ditetapkan di setiap VM yang digunakan untuk pelatihan. AI Platform Training secara otomatis menetapkan variabel lingkungan ini di setiap VM yang digunakan dalam tugas pelatihan Anda. Hal ini memungkinkan setiap VM
berperilaku secara berbeda bergantung pada jenisnya dan membantu VM berkomunikasi
satu sama lain.
Pada runtime versi 2.1 dan yang lebih baru, AI Platform Training tidak lagi menggunakan jenis tugas
master
dalam variabel lingkungan TF_CONFIG
. Sebagai gantinya, pekerja master
tugas pelatihan Anda diberi label dengan jenis chief
di
variabel lingkungan TF_CONFIG
. Pelajari lebih lanjut cara Pelatihan AI Platform menetapkan variabel lingkungan TF_CONFIG
.
Akselerator untuk pelatihan
AI Platform Training memungkinkan Anda mempercepat tugas pelatihan dengan GPU dan TPU.
GPU
Untuk mempelajari cara menggunakan GPU untuk pelatihan, baca panduan AI Platform Training untuk mengonfigurasi GPU dan panduan TensorFlow untuk menggunakan GPU.
Jika Anda ingin melakukan pelatihan di satu VM dengan beberapa GPU, praktik terbaiknya adalah menggunakan MirroredStrategy
TensorFlow.
Jika Anda ingin melakukan pelatihan menggunakan beberapa VM dengan GPU, praktik terbaiknya adalah menggunakan
MultiWorkerMirroredStrategy
TensorFlow.
TPU
Untuk mempelajari cara menggunakan TPU untuk pelatihan, baca panduan pelatihan dengan TPU.
Penyesuaian hyperparameter
Jika menjalankan tugas penyesuaian hyperparameter dengan TensorFlow 2, Anda mungkin perlu menyesuaikan cara kode pelatihan melaporkan metrik penyesuaian hyperparameter ke layanan Pelatihan AI Platform.
Jika berlatih dengan Estimator, Anda dapat menulis metrik ke ringkasan dengan cara yang sama seperti yang Anda lakukan di TensorFlow 1. Jika Anda melakukan pelatihan dengan Keras, sebaiknya
gunakan
tf.summary.scalar
untuk menulis ringkasan.
Langkah selanjutnya
- Baca tentang cara mengonfigurasi versi runtime dan versi Python untuk tugas pelatihan.
- Baca selengkapnya tentang mengonfigurasi pelatihan terdistribusi.
- Baca selengkapnya tentang penyesuaian hyperparameter.