Memecahkan Masalah Vertex AI

Halaman ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah saat menggunakan Vertex AI.

Langkah-langkah pemecahan masalah untuk beberapa komponen Vertex AI tercantum secara terpisah. Lihat referensi berikut:

Untuk memfilter konten halaman ini, klik topik:

Model AutoML

Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin berguna jika Anda mengalami masalah dengan AutoML.

Tidak ada label dalam set pengujian, validasi, atau pelatihan

Masalah

Saat Anda menggunakan pemisahan data default saat melatih model klasifikasi AutoML, Vertex AI mungkin menetapkan instance class yang terlalu sedikit ke set tertentu (pengujian, validasi, atau pelatihan), yang menyebabkan error selama pelatihan. Masalah ini lebih sering terjadi saat Anda memiliki class yang tidak seimbang atau data pelatihan dalam jumlah kecil.

Solusi

Untuk mengatasi masalah ini, tambahkan lebih banyak data pelatihan, pisahkan data Anda secara manual untuk menetapkan class yang cukup ke setiap set, atau hapus label yang lebih jarang muncul dari set data Anda. Untuk informasi selengkapnya, lihat Tentang pemisahan data untuk model AutoML.

Vertex AI Studio

Saat menggunakan Vertex AI Studio, Anda mungkin mengalami error berikut:

Mencoba menyesuaikan model akan menampilkan Internal error encountered

Masalah

Anda mengalami error Internal error encountered saat mencoba menyesuaikan model.

Solusi

Jalankan perintah curl berikut untuk membuat set data Vertex AI kosong. Pastikan Anda mengonfigurasi project ID dengan perintah tersebut.

PROJECT_ID=PROJECT_ID

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://europe-west4-aiplatform.googleapis.com/ui/projects/$PROJECT_ID/locations/europe-west4/datasets \
-d '{
    "display_name": "test-name1",
    "metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml",
    "saved_queries": [{"display_name": "saved_query_name", "problem_type": "IMAGE_CLASSIFICATION_MULTI_LABEL"}]
}'

Setelah perintah selesai, tunggu lima menit dan coba lakukan penyesuaian model lagi.

Kode error: 429

Masalah

Anda mengalami error berikut:

429: The online prediction request quota is exceeded for
PUBLIC_BASE_MODEL_NAME.

Solusi

Coba lagi nanti dengan backoff. Jika Anda masih mengalami error, hubungi dukungan Vertex AI.

Kode error: 410

Masalah

Anda mengalami error berikut:

410: The request is missing the required authentication credential. Expected
OAuth 2.0 access token, login cookie, or other valid authentication credential.

Solusi

Lihat Ringkasan autentikasi untuk mempelajari lebih lanjut.

Kode error: 403

Masalah

Anda mengalami error berikut:

403: Permission denied.

Solusi

Pastikan akun yang mengakses API memiliki izin yang tepat.

Vertex AI Pipelines

Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah dengan Vertex AI Pipelines.

Anda tidak memiliki izin untuk bertindak sebagai akun layanan

Masalah

Saat menjalankan alur kerja Vertex AI Pipelines, Anda mungkin mendapatkan pesan error berikut:

You do not have permission to act as service account: SERVICE_ACCOUNT. (or it may not exist).

Solusi

Error ini berarti akun layanan yang menjalankan alur kerja Anda tidak memiliki akses ke resource yang perlu digunakan.

Untuk mengatasi masalah ini, coba salah satu langkah berikut:

  • Tambahkan peran Vertex AI Service Agent ke akun layanan.
  • Beri pengguna izin iam.serviceAccounts.actAs di akun layanan.

Error Internal error happened

Masalah

Jika pipeline Anda gagal dengan pesan Internal error happened, periksa Logs Explorer dan telusuri nama pipeline. Anda mungkin melihat error seperti berikut:

java.lang.IllegalStateException: Failed to validate vpc
network projects/PROJECT_ID/global/networks/VPC_NETWORK.

APPLICATION_ERROR;google.cloud.servicenetworking.v1/ServicePeeringManagerV1.GetConsumerConfig;Reserved
range: 'RANGE_NAME' not found for consumer project:
'PROJECT_ID' network: 'VPC_NETWORK'.
com.google.api.tenant.error.TenantManagerException: Reserved range:
'RANGE_NAME' not found for consumer project

Artinya, peering VPC untuk Vertex AI menyertakan rentang IP yang telah dihapus.

Solusi

Untuk mengatasi masalah ini, perbarui peering VPC menggunakan perintah update dan sertakan rentang IP yang valid.

Cakupan OAuth atau audiens token ID yang diberikan tidak valid

Masalah

Saat menjalankan alur kerja Vertex AI Pipelines, Anda akan melihat pesan error berikut:

google.auth.exceptions.RefreshError: ('invalid_scope: Invalid OAuth scope
or ID token audience provided.', {'error': 'invalid_scope',
'error_description': 'Invalid OAuth scope or ID token audience provided.'})

Solusi

Artinya, Anda belum memberikan kredensial di salah satu komponen pipeline atau tidak menggunakan ai_platform.init() untuk menetapkan kredensial.

Untuk mengatasi masalah ini, tetapkan kredensial untuk komponen pipeline yang relevan atau tetapkan kredensial lingkungan dan gunakan ai_platform.init() di awal kode Anda.

os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = PATH_TO_JSON_KEY

Komponen Vertex AI Pipelines memerlukan lebih dari 100 GB ruang disk

Masalah

Ruang disk default yang dialokasikan untuk komponen Vertex AI Pipelines adalah 100 GB dan peningkatan ruang disk tidak didukung. Lihat Issue Tracker Publik untuk masalah ini.

Solusi

Agar komponen menggunakan lebih dari 100 GB ruang disk, konversikan komponen ke tugas kustom menggunakan metode komponen. Dengan operator ini, Anda dapat menetapkan jenis mesin dan ukuran disk yang digunakan komponen.

Untuk contoh cara menggunakan operator ini, lihat Vertex AI Pipelines: Pelatihan kustom dengan Google Cloud Komponen Pipeline bawaan, di bagian Mengonversi komponen menjadi Tugas Kustom Vertex AI.

Masalah jaringan Vertex AI

Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah terkait jaringan untuk Vertex AI.

gcloud services vpc-peerings get-vpc-service-controls \
  --network YOUR_NETWORK

Workload tidak dapat mengakses endpoint di jaringan VPC Anda saat menggunakan rentang IP publik yang digunakan secara pribadi untuk Vertex AI

Masalah

Rentang IP publik yang digunakan secara pribadi tidak diimpor secara default.

Solusi

Untuk menggunakan rentang IP publik yang digunakan secara pribadi, Anda harus mengaktifkan impor rentang IP publik yang digunakan secara pribadi

com.google.api.tenant.error.TenantManagerException: Reserved range: xxx not found for consumer project

Masalah

Anda menerima error dalam bentuk com.google.api.tenant.error.TenantManagerException: Reserved range: xxx not found for consumer project saat menjalankan beban kerja atau men-deploy endpoint.

Hal ini terjadi saat Anda mengubah reservasi akses layanan pribadi untuk beban kerja Anda. Rentang yang dihapus mungkin belum terdaftar dengan Vertex AI API.

Solusi

Jalankan gcloud services vpc-peerings update untuk servicenetworking setelah memperbarui alokasi akses layanan pribadi.

Pipeline atau tugas tidak dapat mengakses endpoint dalam jaringan VPC yang di-peering

Masalah

Waktu tunggu pipeline Vertex AI Anda habis saat mencoba terhubung ke resource di jaringan VPC.

Solusi

Coba langkah-langkah berikut untuk mengatasi masalah:

  • Pastikan Anda telah menyelesaikan semua langkah dalam Menyiapkan Peering Jaringan VPC.
  • Tinjau konfigurasi jaringan VPC yang di-peering. Pastikan jaringan Anda mengimpor rute dari rentang jaringan layanan yang tepat saat tugas Anda sedang berjalan.

    Buka Peering Jaringan VPC

  • Pastikan Anda memiliki aturan firewall yang mengizinkan koneksi dari rentang ini ke target di jaringan Anda.

  • Jika koneksi peering tidak mengimpor rute apa pun saat tugas Anda berjalan, ini berarti konfigurasi jaringan layanan tidak digunakan. Hal ini mungkin terjadi karena Anda menyelesaikan konfigurasi peering dengan jaringan selain jaringan default. Jika demikian, pastikan Anda menentukan jaringan saat meluncurkan tugas. Gunakan nama jaringan yang sepenuhnya memenuhi syarat dalam format berikut: projects/$PROJECT_ID/global/networks/$NETWORK_NAME.

    Untuk informasi selengkapnya, lihat Ringkasan rute.

Pipeline atau tugas tidak dapat mengakses untuk menjangkau endpoint di jaringan lain di luar jaringan Anda

Masalah

Pipeline atau tugas Anda tidak dapat mengakses endpoint di jaringan di luar jaringan Anda.

Solusi

Secara default, konfigurasi peering Anda hanya mengekspor rute ke subnet lokal di VPC Anda.

Selain itu, peering transitif tidak didukung dan hanya jaringan yang di-peering langsung yang dapat berkomunikasi.

  • Agar Vertex AI dapat terhubung melalui jaringan Anda dan menjangkau endpoint di jaringan lain, Anda harus mengekspor rute jaringan ke koneksi peering. Edit konfigurasi jaringan VPC yang di-peering dan aktifkan Export custom routes.

Buka Peering Jaringan VPC

Karena peering transitif tidak didukung, Vertex AI tidak mempelajari rute ke jaringan dan layanan yang di-peering lainnya, meskipun dengan Export Custom Routes diaktifkan. Untuk mengetahui informasi tentang solusi, lihat Memperluas keterjangkauan jaringan Vertex AI Pipelines.

No route to host tanpa konflik rute yang terlihat di konsol Google Cloud

Masalah

Satu-satunya rute yang dapat Anda lihat di konsol Google Cloud adalah rute yang diketahui oleh VPC Anda sendiri serta rentang yang dicadangkan saat Anda menyelesaikan konfigurasi Peering Jaringan VPC.

Terkadang, tugas Vertex AI mungkin menampilkan keluhan no route to host saat mencoba menjangkau alamat IP yang diekspor VPC Anda ke jaringan Vertex AI.

Hal ini mungkin karena tugas Vertex AI berjalan dalam namespace jaringan di cluster GKE terkelola yang rentang IP-nya bertentangan dengan IP target. Lihat Dasar-dasar jaringan GKE untuk diskusi lebih lanjut.

Dalam kondisi ini, beban kerja mencoba terhubung ke IP dalam namespace jaringannya sendiri dan menampilkan error jika tidak dapat menjangkaunya.

Solusi

Buat beban kerja Anda untuk menampilkan alamat IP namespace lokalnya dan pastikan hal ini tidak bertentangan dengan rute apa pun yang Anda ekspor melalui koneksi peering. Jika ada konflik, teruskan daftar reservedIpRanges[] dalam parameter tugas yang tidak tumpang-tindih dengan rentang apa pun di jaringan VPC Anda. Tugas menggunakan rentang ini untuk alamat IP internal beban kerja.

RANGES_EXHAUSTED, RANGES_NOT_RESERVED

Masalah

Error dalam bentuk RANGES_EXHAUSTED dan RANGES_NOT_RESERVED serta RANGES_DELETED_LATER menunjukkan masalah pada konfigurasi peering jaringan VPC yang mendasarinya. Ini adalah error jaringan, bukan error dari layanan Vertex AI itu sendiri.

Solusi

Saat mengalami error RANGES_EXHAUSTED, Anda harus mempertimbangkan terlebih dahulu apakah keluhan ini valid.

  • Buka Network Analyzer di konsol cloud dan cari insight dalam bentuk "Summary of IP address allocation" di jaringan VPC. Jika hal ini menunjukkan bahwa alokasi berada di atau mendekati 100%, Anda dapat menambahkan rentang baru ke reservasi.
  • Pertimbangkan juga jumlah maksimum tugas paralel yang dapat dijalankan dengan reservasi ukuran tertentu.

Untuk mengetahui informasi selengkapnya, lihat Error Validasi Infrastruktur Layanan

Jika error terus berlanjut, hubungi dukungan.

Router status is temporarily unavailable

Masalah

Saat meluncurkan Vertex AI Pipelines, Anda akan menerima pesan error yang mirip dengan berikut ini:

Router status is temporarily unavailable. Please try again later

Solusi

Pesan error menunjukkan bahwa ini adalah kondisi sementara. Coba luncurkan Vertex AI Pipelines lagi.

Jika error terus berlanjut, hubungi dukungan.

Prediksi Vertex AI

Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin berguna jika Anda mengalami masalah dengan prediksi Vertex AI.

Error percobaan ulang terlampaui

Masalah

Anda mendapatkan error seperti berikut saat menjalankan tugas prediksi batch, yang menunjukkan bahwa mesin yang menjalankan model kustom mungkin tidak dapat menyelesaikan prediksi dalam batas waktu.

('Post request fails. Cannot get predictions. Error: Exceeded retries: Non-OK
result 504 (upstream request timeout) from server, retry=3, elapsed=600.04s.', 16)

Hal ini dapat terjadi saat layanan prediksi Vertex AI mendaftarkan dirinya ke layanan Google Front End, yang melakukan proxy koneksi dari klien ke Vertex AI Prediction API.

Layanan Google Front End akan menghentikan koneksi dan menampilkan kode respons HTTP 500 ke klien jika tidak menerima respons dari API dalam waktu 10 menit.

Solusi

Untuk mengatasi masalah ini, Anda dapat mencoba salah satu langkah berikut:

  • Tingkatkan node komputasi, atau ubah jenis mesin.
  • Buat penampung prediksi untuk mengirim kode respons HTTP 102 berkala. Tindakan ini akan mereset timer 10 menit di layanan Google Front End.

Project sudah ditautkan ke VPC

Masalah

Saat men-deploy endpoint, Anda mungkin melihat pesan error seperti berikut, yang menunjukkan bahwa endpoint Vertex AI Anda telah sebelumnya menggunakan jaringan Virtual Private Cloud dan resource tidak dibersihkan dengan benar.

Currently only one VPC network per user project is supported. Your project is
already linked to "projects/YOUR_SHARED_VPC_HOST_PROJECT/global/networks/YOUR_SHARED_VPC_NETWORK".
To change the VPC network, please undeploy all Vertex AI deployment resources,
delete all endpoint resources, and then retry creating resources in 30 mins.

Solusi

Untuk mengatasi masalah ini, coba jalankan perintah ini di Cloud Shell.

gcloud services vpc-peerings delete \
    --service=servicenetworking.googleapis.com \
    --network=YOUR_SHARED_VPC_NETWORK \
    --project=YOUR_SHARED_VPC_HOST_PROJECT

Tindakan ini akan memutuskan koneksi jaringan VPC lama Anda secara manual dari VPC Jaringan Layanan.

Kegagalan deployment atau penghapusan endpoint yang tidak terduga

Masalah

Deployment model tiba-tiba gagal, endpoint ditemukan telah dihapus, atau model yang sebelumnya di-deploy telah di-undeploy.

Akun penagihan Anda mungkin tidak valid. Jika tetap tidak valid dalam waktu lama, beberapa resource mungkin akan dihapus dari project yang terkait dengan akun Anda. Misalnya, endpoint dan model Anda mungkin dihapus. Resource yang dihapus tidak dapat dipulihkan.

Solusi

Untuk mengatasi masalah ini, Anda dapat mencoba langkah-langkah berikut:

Untuk informasi selengkapnya, lihat Pertanyaan terkait penagihan.

Masalah akun layanan khusus Vertex AI

Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin berguna jika Anda mengalami masalah dengan akun layanan.

Deployment model gagal disertai error serviceAccountAdmin akun layanan

Masalah

Deployment model Anda gagal dengan error seperti berikut:

Failed to deploy model MODEL_NAME to endpoint ENDPOINT_NAME due to the error: Failed to add IAM policy binding. Please grant SERVICE_ACC_NAME@gcp-sa-aiplatform.iam.gserviceaccount.com the iam.serviceAccountAdmin role on service account vertex-prediction-role@PROJECT_INFO.iam.gserviceaccount.com

Solusi

Error ini berarti akun layanan kustom Anda mungkin belum dikonfigurasi dengan benar. Untuk membuat akun layanan kustom dengan izin IAM yang benar, lihat Menggunakan akun layanan kustom.

Tidak dapat mengambil token identitas saat menggunakan akun layanan kustom

Masalah

Saat menggunakan akun layanan kustom, tugas pelatihan yang berjalan di satu replika tidak dapat menjangkau layanan metadata Compute Engine yang diperlukan untuk mengambil token.

Anda akan melihat error yang mirip dengan:

Failed to refresh jwt, retry number 0: ("Failed to retrieve http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/identity?audience=...&format=full
from the Google Compute Engine Metadata service. Status: 404 Response:
\nb'Not Found\n'", <google.auth.transport.requests._Response object at
0x7fb19f058c50>)

Solusi

Untuk mengambil token identitas dengan akun layanan kustom, Anda harus menggunakan iamcredentials.googleapis.com.

Model yang dilatih khusus

Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin dapat membantu jika Anda mengalami masalah dengan model yang dilatih kustom.

Masalah pelatihan khusus

Masalah berikut dapat terjadi selama pelatihan khusus. Masalah ini terjadi pada resource CustomJob dan HyperparameterTuningJob, termasuk yang dibuat oleh resource TrainingPipeline.

Kode error: 400

Masalah

Anda mengalami error berikut:

400 Machine type MACHINE_TYPE is not supported.

Anda mungkin melihat pesan error ini jika jenis mesin yang dipilih tidak didukung untuk pelatihan Vertex AI, atau jika resource tertentu tidak tersedia di wilayah yang dipilih.

Solusi

Hanya gunakan jenis mesin yang tersedia di region yang sesuai.

Replika dihentikan dengan kode status bukan nol

Masalah

Selama pelatihan terdistribusi, error dari pekerja mana pun akan menyebabkan pelatihan menjadi gagal.

Solusi

Untuk memeriksa stack trace bagi pekerja, lihat log pelatihan khusus Anda di konsol Google Cloud.

Lihat topik pemecahan masalah lainnya untuk memperbaiki error umum, lalu buat resource CustomJob, HyperparameterTuningJob, atau TrainingPipeline baru. Dalam banyak kasus, kode error disebabkan oleh masalah dalam kode pelatihan Anda, tidak disebabkan oleh layanan Vertex AI. Untuk menentukan apakah hal tersebut memang terjadi, Anda dapat menjalankan kode pelatihan di mesin lokal atau di Compute Engine.

Replika kehabisan memori

Masalah

Error dapat terjadi jika instance virtual machine (VM) pelatihan kehabisan memori selama pelatihan.

Solusi

Anda dapat melihat penggunaan memori VM pelatihan di konsol Google Cloud.

Meskipun error ini muncul, Anda mungkin tidak mendapati penggunaan memori 100% di VM, karena layanan selain aplikasi pelatihan Anda yang berjalan di VM juga memakai resource. Untuk jenis mesin yang memiliki lebih sedikit memori, layanan lain mungkin menggunakan persentase memori yang relatif besar. Misalnya, pada VM n1-standard-4, layanan dapat menggunakan hingga 40% memori.

Anda dapat mengoptimalkan konsumsi memori aplikasi pelatihan, atau Anda dapat memilih jenis mesin yang lebih besar dengan lebih banyak memori.

Sumber daya yang tidak memadai di suatu region

Masalah

Anda mengalami masalah kehabisan stok di suatu wilayah.

Solusi

Vertex AI melatih model Anda menggunakan resource Compute Engine. Vertex AI tidak dapat menjadwalkan workload Anda jika Compute Engine memiliki kapasitas untuk CPU atau GPU tertentu di suatu region. Masalah ini tidak terkait dengan kuota project Anda.

Saat kapasitas Compute Engine tercapai, Vertex AI akan otomatis mencoba ulang CustomJob atau HyperparameterTuningJob Anda hingga tiga kali. Tugas akan gagal jika semua percobaan ulang gagal.

Stok habis biasanya terjadi saat Anda menggunakan GPU. Jika Anda mengalami error ini saat menggunakan GPU, cobalah beralih ke jenis GPU lain. Jika Anda dapat menggunakan region lain, cobalah melakukan pelatihan di region yang berbeda.

Error izin saat mengakses layanan Google Cloud lain

Jika Anda mengalami error izin saat mengakses layanan Google Cloud lain dari kode pelatihan (misalnya: google.api_core.exceptions.PermissionDenied: 403), Anda mungkin memiliki salah satu masalah berikut:

Kesalahan internal

Masalah

Pelatihan Anda gagal karena error sistem.

Solusi

Masalah ini mungkin bersifat sementara; coba kirim ulang CustomJob, HyperparameterTuningJob, atau TrainingPipeline. Jika error tetap berlanjut, hubungi dukungan.

Kode error 500 saat menggunakan image container pelanggan

Masalah

Anda melihat error 500 di log.

Solusi

Jenis error ini kemungkinan merupakan masalah pada image container kustom Anda, bukan error Vertex AI.

Akun layanan tidak dapat mengakses bucket Cloud Storage saat men-deploy ke endpoint

Masalah

Saat mencoba men-deploy model ke endpoint dan akun layanan Anda tidak memiliki akses storage.objects.list ke bucket Cloud Storage yang terkait, Anda mungkin mendapatkan error berikut:

custom-online-prediction@TENANT_PROJECT_ID.iam.gserviceaccount.com
does not have storage.objects.list access to the Cloud Storage bucket.

Secara default, container kustom yang men-deploy model Anda menggunakan akun layanan yang tidak memiliki akses ke bucket Cloud Storage Anda.

Solusi

Untuk mengatasinya, coba salah satu langkah berikut:

  • Salin file yang ingin Anda akses dari container ke dalam artefak model saat mengupload model. Vertex AI akan menyalinnya ke lokasi yang dapat diakses oleh akun layanan default, mirip dengan semua artefak model lainnya.

  • Salin file ke container sebagai bagian dari proses build container.

  • Tentukan akun layanan khusus

Penelusuran Arsitektur Neural

Masalah umum

  • Setelah membatalkan tugas NAS, tugas utama (induk) akan berhenti, tetapi beberapa uji coba turunan tetap menampilkan status Berjalan. Abaikan status uji coba turunan yang menampilkan status Berjalan dalam kasus ini. Uji coba telah dihentikan, tetapi UI terus menampilkan status Berjalan. Selama tugas utama telah berhenti, Anda tidak akan dikenai biaya tambahan.
  • Setelah melaporkan reward di pelatih, tunggu (aktifkan mode tidur) selama 10 menit sebelum tugas uji coba dihentikan.
  • Saat menggunakan Cloud Shell untuk menjalankan TensorBoard, link output yang dihasilkan mungkin tidak berfungsi. Dalam hal ini, tuliskan nomor port, gunakan alat Pratinjau Web, lalu pilih nomor port yang benar untuk menampilkan plot.

    Mengakses alat Web Preview:

    Diagram atribusi fitur untuk satu prediksi durasi bersepeda.

  • Jika Anda melihat pesan error seperti berikut di log pelatih:

    gcsfuse errors: fuse: writeMessage: no such file or directory [16 0 0 0 218 255 255 255 242 25 111 1 0 0 0 0]
    

    gunakan mesin dengan RAM yang lebih besar, karena kondisi OOM menyebabkan error ini.

  • Jika pelatih khusus Anda tidak dapat menemukan FLAG job-dir direktori tugas, impor job_dir dengan garis bawah, bukan tanda hubung. Catatan di tutorial-1 menjelaskan hal ini.

  • Error NAN selama pelatihan Mungkin akan ada error NaN dalam tugas pelatihan seperti NaN : Tensor had NaN values. Kecepatan pembelajaran mungkin terlalu besar untuk arsitektur yang disarankan. Untuk informasi selengkapnya, lihat Error terkait kehabisan memori (OOM) dan kecepatan pembelajaran.

  • Error OOM selama pelatihan Mungkin akan ada error OOM (out-of-memory) dalam tugas pelatihan. Ukuran tumpukan mungkin terlalu besar untuk memori akselerator. Untuk informasi selengkapnya, lihat Error terkait kehabisan memori (OOM) dan kecepatan pembelajaran.

  • Tugas pengontrol pemilihan model tugas proxy mati Dalam kasus yang jarang terjadi ketika tugas pengontrol pemilihan model tugas proxy mati, Anda dapat melanjutkan tugas dengan mengikuti langkah-langkah ini.

  • Tugas pengontrol penelusuran tugas proxy mati Dalam kasus yang jarang terjadi ketika tugas pengontrol penelusuran tugas proxy mati, Anda dapat melanjutkan tugas dengan mengikuti langkah-langkah ini.

  • Akun layanan tidak memiliki izin untuk mengakses Artifact Registry atau bucket. Jika Anda mendapatkan error seperti Vertex AI Service Agent service-123456789@gcp-sa-aiplatform-cc.iam.gserviceaccount.com does not have permission to access Artifact Registry repository projects/my-project/locations/my-region/repositories/nas atau error serupa untuk akses bucket, beri akun layanan ini peran editor penyimpanan dalam project Anda.

Vertex AI Feature Store

Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah dengan Vertex AI Feature Store.

Resource not found error saat mengirim permintaan penyerapan streaming atau penyaluran online

Masalah

Setelah Anda menyiapkan featurestore, jenis entity, atau resource fitur, akan ada penundaan sebelum resource tersebut diterapkan ke layanan FeaturestoreOnlineServingService. Terkadang penerapan yang tertunda ini dapat menyebabkan error resource not found saat Anda mengirimkan permintaan penyerapan streaming atau penyaluran online segera setelah membuat resource.

Solusi

Jika Anda menerima error ini, tunggu beberapa menit, lalu coba lagi permintaan Anda.

Penyerapan batch berhasil untuk fitur yang baru dibuat, tetapi permintaan penyaluran online menampilkan nilai kosong

Masalah

Khusus untuk fitur yang baru dibuat, ada penundaan sebelum fitur tersebut diterapkan ke layanan FeaturestoreOnlineServingService. Fitur dan nilai ada, tetapi perlu waktu untuk diterapkan. Hal ini dapat menyebabkan permintaan penayangan online Anda menampilkan nilai kosong.

Solusi

Jika Anda melihat ketidaksesuaian ini, tunggu beberapa menit, lalu coba lagi permintaan penyaluran online Anda.

Pemakaian CPU tinggi untuk node penyaluran online

Masalah

Pemakaian CPU Anda untuk node penyaluran online tinggi.

Solusi

Untuk mengurangi masalah ini, Anda dapat meningkatkan jumlah node penyaluran online dengan menambah jumlah node secara manual atau dengan mengaktifkan penskalaan otomatis. Perhatikan bahwa meskipun penskalaan otomatis diaktifkan, Vertex AI Feature Store memerlukan waktu untuk menyeimbangkan kembali data saat node ditambahkan atau dihapus. Untuk informasi tentang cara melihat metrik distribusi nilai fitur dari waktu ke waktu, lihat Melihat metrik nilai fitur.

Pemakaian CPU tinggi untuk node penyaluran online terpanas

Masalah

Jika pemakaian CPU untuk node terpanas tinggi, Anda dapat meningkatkan jumlah node penyaluran atau mengubah pola akses entity menjadi pseudo-random.

Solusi

Menyetel pola akses entity ke pseudo-random akan mengurangi tingginya penggunaan CPU yang dihasilkan dari entity yang sering mengakses yang terletak berdekatan satu sama lain di featurestore. Jika tidak ada solusi yang efektif, implementasikan cache sisi klien untuk menghindari akses entity yang sama berulang kali.

Latensi penyaluran online tinggi saat QPS rendah

Masalah

Periode tidak aktif atau aktivitas rendah pada QPS rendah dapat mengakibatkan masa berlaku beberapa cache sisi server berakhir. Hal ini dapat mengakibatkan adanya latensi tinggi saat traffic ke node penyaluran online dilanjutkan dengan QPS reguler atau lebih tinggi.

Solusi

Untuk mengatasi masalah ini, Anda harus menjaga koneksi tetap aktif dengan mengirimkan traffic buatan minimal 5 QPS ke featurestore.

Tugas penyerapan batch gagal setelah enam jam

Masalah

Tugas penyerapan batch dapat gagal karena sesi baca berakhir setelah enam jam.

Solusi

Untuk menghindari habisnya waktu tunggu, tingkatkan jumlah pekerja untuk menyelesaikan tugas penyerapan dalam batas waktu enam jam.

Error Resource exceeded saat mengekspor nilai fitur

Masalah

Mengekspor data dalam jumlah besar dapat gagal dengan error resource terlampaui jika tugas ekspor melebihi kuota internal.

Solusi

Untuk menghindari error ini, Anda dapat mengonfigurasi parameter rentang waktu, start_time dan end_time, untuk memproses data dalam jumlah yang lebih kecil sekaligus. Untuk informasi tentang ekspor lengkap, lihat Ekspor lengkap.

Vertex AI Vizier

Saat menggunakan Vertex AI Vizier, Anda mungkin mengalami masalah berikut.

Kesalahan internal

Masalah

Error internal terjadi saat ada error sistem.

Solusi

Hal ini mungkin bersifat sementara. Coba kirim ulang permintaan, dan jika error terus berlanjut, hubungi dukungan.