Pelatihan dengan TensorFlow 2

Latih model machine learning dengan TensorFlow 2 di Pelatihan AI Platform menggunakan runtime versi 2.1 atau yang lebih baru. TensorFlow 2 menyederhanakan banyak API dari TensorFlow 1. Dokumentasi TensorFlow memberikan panduan untuk memigrasikan kode TensorFlow 1 ke TensorFlow 2.

Menjalankan tugas pelatihan dengan TensorFlow 2 di AI Platform Training mengikuti proses yang sama seperti menjalankan tugas pelatihan kode kustom lainnya. Namun, beberapa fitur AI Platform Training bekerja secara berbeda dengan TensorFlow 2 dibandingkan dengan cara kerjanya dengan TensorFlow 1. Dokumen ini memberikan ringkasan tentang perbedaan ini.

Dukungan versi Python

Runtime versi 2.1 dan yang lebih baru hanya mendukung pelatihan dengan Python 3.7. Oleh karena itu, Anda harus menggunakan Python 3.7 untuk melatih dengan TensorFlow 2.

Python Software Foundation mengakhiri dukungan untuk Python 2.7 pada 1 Januari 2020. Tidak ada versi runtime AI Platform yang dirilis setelah 1 Januari 2020 yang mendukung Python 2.7.

Pelatihan terdistribusi

TensorFlow 2 menyediakan API yang telah diperbarui untuk pelatihan terdistribusi. Selain itu, Pelatihan Platform AI menetapkan variabel lingkungan TF_CONFIG secara berbeda dalam runtime versi 2.1 dan yang lebih baru. Bagian ini menjelaskan kedua perubahan tersebut.

Strategi distribusi

Untuk melakukan pelatihan terdistribusi dengan beberapa instance virtual machine (VM) di TensorFlow 2, gunakan tf.distribute.Strategy API. Secara khusus, sebaiknya gunakan Keras API bersama dengan MultiWorkerMirroredStrategy atau, jika Anda menentukan server parameter untuk tugas Anda, ParameterServerStrategy. Namun, perlu diperhatikan bahwa TensorFlow saat ini hanya menyediakan dukungan eksperimental untuk strategi ini.

TF_CONFIG

TensorFlow mengharapkan variabel lingkungan TF_CONFIG ditetapkan di setiap VM yang digunakan untuk pelatihan. AI Platform Training secara otomatis menetapkan variabel lingkungan ini di setiap VM yang digunakan dalam tugas pelatihan Anda. Hal ini memungkinkan setiap VM berperilaku secara berbeda bergantung pada jenisnya dan membantu VM berkomunikasi satu sama lain.

Pada runtime versi 2.1 dan yang lebih baru, AI Platform Training tidak lagi menggunakan jenis tugas master dalam variabel lingkungan TF_CONFIG. Sebagai gantinya, pekerja master tugas pelatihan Anda diberi label dengan jenis chief di variabel lingkungan TF_CONFIG. Pelajari lebih lanjut cara Pelatihan AI Platform menetapkan variabel lingkungan TF_CONFIG.

Akselerator untuk pelatihan

AI Platform Training memungkinkan Anda mempercepat tugas pelatihan dengan GPU dan TPU.

GPU

Untuk mempelajari cara menggunakan GPU untuk pelatihan, baca panduan AI Platform Training untuk mengonfigurasi GPU dan panduan TensorFlow untuk menggunakan GPU.

Jika Anda ingin melakukan pelatihan di satu VM dengan beberapa GPU, praktik terbaiknya adalah menggunakan MirroredStrategy TensorFlow. Jika Anda ingin melakukan pelatihan menggunakan beberapa VM dengan GPU, praktik terbaiknya adalah menggunakan MultiWorkerMirroredStrategy TensorFlow.

TPU

Untuk mempelajari cara menggunakan TPU untuk pelatihan, baca panduan pelatihan dengan TPU.

Penyesuaian hyperparameter

Jika menjalankan tugas penyesuaian hyperparameter dengan TensorFlow 2, Anda mungkin perlu menyesuaikan cara kode pelatihan melaporkan metrik penyesuaian hyperparameter ke layanan Pelatihan AI Platform.

Jika berlatih dengan Estimator, Anda dapat menulis metrik ke ringkasan dengan cara yang sama seperti yang Anda lakukan di TensorFlow 1. Jika Anda melakukan pelatihan dengan Keras, sebaiknya gunakan tf.summary.scalar untuk menulis ringkasan.

Pelajari lebih lanjut cara melaporkan metrik hyperparameter dan lihat contoh cara melakukannya di TensorFlow 2.

Langkah selanjutnya