Menggunakan IP pribadi untuk pelatihan kustom

Menggunakan IP pribadi untuk terhubung ke tugas pelatihan akan memberikan lebih banyak keamanan jaringan dan latensi jaringan yang lebih rendah daripada menggunakan IP publik. Untuk menggunakan IP pribadi, gunakan Virtual Private Cloud (VPC) untuk mem-peering jaringan Anda dengan semua jenis tugas pelatihan kustom Vertex AI. Dengan begitu, kode pelatihan Anda dapat mengakses alamat IP pribadi di dalam jaringan Google Cloud atau lokal Anda.

Panduan ini menunjukkan cara menjalankan tugas pelatihan kustom di jaringan Anda setelah Andamenyiapkan Peering Jaringan VPC untuk melakukan peering jaringan Anda dengan resource CustomJob, HyperparameterTuningJob, atau TrainingPipeline kustom Vertex AI.

Perlu diperhatikan bahwa Anda tidak dapat menggunakan alamat IP pribadi untuk pelatihan kustom jika Anda juga menggunakan VM TPU.

Ringkasan

Sebelum mengirimkan tugas pelatihan kustom menggunakan IP pribadi, Anda harus mengonfigurasi akses layanan pribadi untuk membuat koneksi peering antara jaringan Anda dan Vertex AI. Jika Anda sudah menyiapkannya, Anda dapat menggunakan koneksi peering yang ada.

Panduan ini mencakup tugas-tugas berikut:

  • Memahami rentang IP yang akan dicadangkan untuk pelatihan kustom.
  • Memverifikasi status koneksi peering yang ada.
  • Melakukan pelatihan kustom Vertex AI di jaringan Anda.
  • Memeriksa pelatihan aktif yang terjadi di suatu jaringan sebelum melakukan pelatihan di jaringan lain.
  • Menguji apakah kode pelatihan Anda dapat mengakses IP pribadi di jaringan Anda.

Mencadangkan rentang IP untuk pelatihan kustom

Saat Anda mencadangkan rentang IP untuk produsen layanan, rentang tersebut dapat digunakan oleh Vertex AI dan layanan lainnya. Tabel ini menunjukkan jumlah maksimum tugas pelatihan paralel yang dapat Anda jalankan dengan rentang yang dicadangkan dari /16 hingga /19, dengan asumsi rentang tersebut digunakan hampir secara eksklusif oleh Vertex AI. Jika Anda terhubung dengan produsen layanan lain menggunakan rentang yang sama, alokasikan rentang yang lebih besar untuk mengakomodasinya guna menghindari kehabisan IP.

Konfigurasi mesin untuk tugas pelatihan Rentang yang dicadangkan Jumlah maksimum tugas paralel
Hingga 8 node.
Misalnya: 1 replika utama di kumpulan pekerja pertama, 6 replika di kumpulan pekerja kedua, dan 1 pekerja di kumpulan pekerja ketiga (untuk bertindak sebagai server parameter)
/16 63
/17 31
/18 15
/19 7
Hingga 16 node.
Misalnya: 1 replika utama di kumpulan pekerja pertama, 14 replika di kumpulan pekerja kedua, dan 1 pekerja di kumpulan pekerja ketiga (untuk bertindak sebagai server parameter)
/16 31
/17 15
/18 7
/19 3
Hingga 32 node.
Misalnya: 1 replika utama di kumpulan pekerja pertama, 30 replika di kumpulan pekerja kedua, dan 1 pekerja di kumpulan pekerja ketiga (untuk bertindak sebagai server parameter)
/16 15
/17 7
/18 3
/19 1

Pelajari lebih lanjut cara mengonfigurasi kumpulan pekerja untuk pelatihan terdistribusi.

Memeriksa status koneksi peering yang ada

Jika sudah memiliki koneksi peering yang digunakan dengan Vertex AI, Anda dapat mencantumkannya untuk memeriksa status:

gcloud compute networks peerings list --network NETWORK_NAME

Anda akan melihat status koneksi peering ACTIVE. Pelajari lebih lanjut koneksi peering aktif.

Melakukan pelatihan kustom

Saat melakukan pelatihan kustom, Anda harus menentukan nama jaringan yang dapat diakses oleh Vertex AI.

Bergantung pada cara Anda melakukan pelatihan kustom, tentukan jaringan di salah satu kolom API berikut:

Jika Anda tidak menentukan nama jaringan, Vertex AI akan menjalankan pelatihan kustom tanpa koneksi peering dan tanpa akses ke IP pribadi dalam project Anda.

Contoh: Membuat CustomJob dengan gcloud CLI

Contoh berikut menunjukkan cara menentukan jaringan saat Anda menggunakan gcloud CLI untuk menjalankan CustomJob yang menggunakan container bawaan. Jika Anda melakukan pelatihan kustom dengan cara yang berbeda, tambahkan kolom network sebagaimana dijelaskan untuk jenis tugas pelatihan kustom yang Anda gunakan.

  1. Buat file config.yaml untuk menentukan jaringan. Jika Anda menggunakan VPC Bersama, gunakan nomor project host VPC Anda.

    Pastikan nama jaringan diformat dengan benar:

    PROJECT_NUMBER=$(gcloud projects describe $PROJECT_ID --format="value(projectNumber)")
    
    cat <<EOF > config.yaml
    network: projects/PROJECT_NUMBER/global/networks/NETWORK_NAME
    EOF
    
  2. Membuat aplikasi pelatihan untuk dijalankan di Vertex AI.

  3. Buat CustomJob, dengan meneruskan file config.yaml Anda:

    gcloud ai custom-jobs create \
      --region=LOCATION \
      --display-name=JOB_NAME \
      --python-package-uris=PYTHON_PACKAGE_URIS \
      --worker-pool-spec=machine-type=MACHINE_TYPE,replica-count=REPLICA_COUNT,executor-image-uri=PYTHON_PACKAGE_EXECUTOR_IMAGE_URI,python-module=PYTHON_MODULE \
      --config=config.yaml
    

Untuk mempelajari cara mengganti placeholder dalam perintah ini, baca Membuat tugas pelatihan kustom.

Menjalankan tugas di jaringan yang berbeda

Anda tidak dapat melakukan pelatihan kustom di jaringan baru saat Anda masih melakukan pelatihan kustom di jaringan lain. Sebelum beralih ke jaringan lain, Anda harus menunggu semua resource CustomJob, HyperparameterTuningJob, dan TrainingPipeline kustom yang dikirimkan selesai, atau Anda harus membatalkannya.

Menguji akses tugas pelatihan

Bagian ini menjelaskan cara menguji apakah resource pelatihan kustom dapat mengakses IP pribadi di jaringan Anda.

  1. Buat instance Compute Engine di jaringan VPC Anda.
  2. Periksa aturan firewall Anda untuk memastikan aturan tersebut tidak membatasi traffic masuk dari jaringan Vertex AI. Jika demikian, tambahkan aturan untuk memastikan jaringan Vertex AI dapat mengakses rentang IP yang Anda cadangkan untuk Vertex AI (dan produsen layanan lainnya).
  3. Siapkan server lokal di instance VM guna membuat endpoint yang akan diakses oleh CustomJob Vertex AI.
  4. Buat aplikasi pelatihan Python untuk dijalankan di Vertex AI. Alih-alih membuat kode pelatihan model, buat kode yang mengakses endpoint yang Anda siapkan di langkah sebelumnya.
  5. Ikuti contoh sebelumnya untuk membuat CustomJob.

Masalah umum

Bagian ini berisi daftar beberapa masalah umum dalam mengonfigurasi Peering Jaringan VPC dengan Vertex AI.

  • Saat mengonfigurasi Vertex AI untuk menggunakan jaringan Anda, tentukan nama lengkap jaringan:

    "projects/YOUR_PROJECT_NUMBER/global/networks/YOUR_NETWORK_NAME"

  • Pastikan Anda tidak melakukan pelatihan kustom di suatu jaringan sebelum melakukan pelatihan kustom di jaringan yang berbeda.

  • Pastikan Anda telah mengalokasikan rentang IP yang cukup untuk semua produsen layanan yang terhubung ke jaringan Anda, termasuk Vertex AI.

Untuk mengetahui informasi pemecahan masalah tambahan, lihat panduan pemecahan masalah Peering Jaringan VPC.

Langkah selanjutnya