Melatih dengan TensorFlow 2

Latih model machine learning dengan TensorFlow 2 di Pelatihan AI Platform menggunakan runtime versi 2.1 atau yang lebih baru. TensorFlow 2 menyederhanakan banyak API dari TensorFlow 1. Dokumentasi TensorFlow menyediakan panduan untuk memigrasikan kode TensorFlow 1 ke TensorFlow 2.

Menjalankan tugas pelatihan dengan TensorFlow 2 pada Pelatihan AI Platform mengikuti proses yang sama seperti menjalankan tugas pelatihan kode kustom lainnya. Namun, beberapa fitur Pelatihan AI Platform berfungsi secara berbeda dengan TensorFlow 2 dibandingkan dengan cara kerja fitur tersebut dengan TensorFlow 1. Dokumen ini memberikan ringkasan perbedaan tersebut.

Dukungan versi Python

Runtime versi 2.1 dan yang lebih baru hanya mendukung pelatihan dengan Python 3.7. Oleh karena itu, Anda harus menggunakan Python 3.7 untuk berlatih dengan TensorFlow 2.

Python Software Foundation mengakhiri dukungan untuk Python 2.7 pada 1 Januari 2020. Tidak ada versi runtime AI Platform yang dirilis setelah 1 Januari 2020 yang mendukung Python 2.7.

Pelatihan yang terdistribusi

TensorFlow 2 menyediakan API yang diupdate untuk pelatihan terdistribusi. Selain itu, Pelatihan AI Platform menetapkan variabel lingkungan TF_CONFIG secara berbeda dalam runtime versi 2.1 dan yang lebih baru. Bagian ini menjelaskan kedua perubahan tersebut.

Strategi distribusi

Untuk melakukan pelatihan terdistribusi dengan beberapa instance virtual machine (VM) di TensorFlow 2, gunakan tf.distribute.Strategy API. Secara khusus, sebaiknya gunakan Keras API bersama dengan MultiWorkerMirroredStrategy atau, jika Anda menentukan server parameter untuk tugas Anda, ParameterServerStrategy. Namun, perlu diperhatikan bahwa TensorFlow saat ini hanya menyediakan dukungan eksperimental untuk strategi ini.

TF_CONFIG

TensorFlow mengharapkan variabel lingkungan TF_CONFIG ditetapkan pada setiap VM yang digunakan untuk pelatihan. AI Platform Training secara otomatis menetapkan variabel lingkungan ini pada setiap VM yang digunakan dalam tugas pelatihan Anda. Hal ini membuat setiap VM dapat berperilaku berbeda bergantung pada jenisnya dan membantu VM berkomunikasi satu sama lain.

Pada runtime versi 2.1 dan yang lebih baru, AI Platform Training tidak lagi menggunakan jenis tugas master dalam variabel lingkungan TF_CONFIG apa pun. Sebagai gantinya, pekerja master tugas pelatihan Anda diberi label dengan jenis chief dalam variabel lingkungan TF_CONFIG. Pelajari lebih lanjut cara Pelatihan AI Platform menetapkan variabel lingkungan TF_CONFIG.

Akselerator untuk pelatihan

AI Platform Training memungkinkan Anda mempercepat tugas pelatihan dengan GPU dan TPU.

GPU

Jika ingin mempelajari cara menggunakan GPU untuk pelatihan, baca panduan Pelatihan AI Platform untuk mengonfigurasi GPU dan panduan TensorFlow dalam menggunakan GPU.

Jika Anda ingin berlatih di satu VM dengan beberapa GPU, praktik terbaiknya adalah menggunakan MirroredStrategy TensorFlow. Jika Anda ingin berlatih menggunakan beberapa VM dengan GPU, praktik terbaiknya adalah menggunakan MultiWorkerMirroredStrategy TensorFlow.

TPU

Guna mempelajari cara menggunakan TPU untuk pelatihan, baca panduan pelatihan dengan TPU.

Penyesuaian hyperparameter

Jika menjalankan tugas penyesuaian hyperparameter dengan TensorFlow 2, Anda mungkin perlu menyesuaikan cara kode pelatihan melaporkan metrik penyesuaian hyperparameter ke layanan Pelatihan AI Platform.

Jika berlatih dengan Estimator, Anda dapat menulis metrik ke ringkasan dengan cara yang sama seperti yang Anda lakukan di TensorFlow 1. Jika Anda berlatih dengan Keras, sebaiknya gunakan tf.summary.scalar untuk menulis ringkasan.

Pelajari lebih lanjut cara melaporkan metrik hyperparameter dan lihat contoh cara melakukannya di TensorFlow 2.

Langkah selanjutnya