Halaman ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah saat menggunakan Vertex AI.
Langkah-langkah pemecahan masalah untuk beberapa komponen Vertex AI tercantum secara terpisah. Lihat referensi berikut:
Untuk memfilter konten halaman ini, klik topik:
Model AutoML
Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin berguna jika Anda mengalami masalah dengan AutoML.
Tidak ada label dalam set pengujian, validasi, atau pelatihan
Masalah
Saat Anda menggunakan pemisahan data default saat melatih model klasifikasi AutoML, Vertex AI mungkin menetapkan instance class yang terlalu sedikit ke set tertentu (pengujian, validasi, atau pelatihan), yang menyebabkan error selama pelatihan. Masalah ini lebih sering terjadi saat Anda memiliki class yang tidak seimbang atau data pelatihan dalam jumlah kecil.
Solusi
Untuk mengatasi masalah ini, tambahkan lebih banyak data pelatihan, pisahkan data Anda secara manual untuk menetapkan class yang cukup ke setiap set, atau hapus label yang lebih jarang muncul dari set data Anda. Untuk informasi selengkapnya, lihat Tentang pemisahan data untuk model AutoML.
Vertex AI Studio
Saat menggunakan Vertex AI Studio, Anda mungkin mengalami error berikut:
Mencoba menyesuaikan model akan menampilkan Internal error encountered
Masalah
Anda mengalami error Internal error encountered
saat mencoba menyesuaikan model.
Solusi
Jalankan perintah curl berikut untuk membuat set data Vertex AI kosong. Pastikan Anda mengonfigurasi project ID dengan perintah tersebut.
PROJECT_ID=PROJECT_ID
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://europe-west4-aiplatform.googleapis.com/ui/projects/$PROJECT_ID/locations/europe-west4/datasets \
-d '{
"display_name": "test-name1",
"metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml",
"saved_queries": [{"display_name": "saved_query_name", "problem_type": "IMAGE_CLASSIFICATION_MULTI_LABEL"}]
}'
Setelah perintah selesai, tunggu lima menit dan coba lakukan penyesuaian model lagi.
Kode error: 429
Masalah
Anda mengalami error berikut:
429: The online prediction request quota is exceeded for PUBLIC_BASE_MODEL_NAME.
Solusi
Coba lagi nanti dengan backoff. Jika Anda masih mengalami error, hubungi dukungan Vertex AI.
Kode error: 410
Masalah
Anda mengalami error berikut:
410: The request is missing the required authentication credential. Expected OAuth 2.0 access token, login cookie, or other valid authentication credential.
Solusi
Lihat Ringkasan autentikasi untuk mempelajari lebih lanjut.
Kode error: 403
Masalah
Anda mengalami error berikut:
403: Permission denied.
Solusi
Pastikan akun yang mengakses API memiliki izin yang tepat.
Vertex AI Pipelines
Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah dengan Vertex AI Pipelines.
Anda tidak memiliki izin untuk bertindak sebagai akun layanan
Masalah
Saat menjalankan alur kerja Vertex AI Pipelines, Anda mungkin mendapatkan pesan error berikut:
You do not have permission to act as service account: SERVICE_ACCOUNT. (or it may not exist).
Solusi
Error ini berarti akun layanan yang menjalankan alur kerja Anda tidak memiliki akses ke resource yang perlu digunakan.
Untuk mengatasi masalah ini, coba salah satu langkah berikut:
- Tambahkan peran
Vertex AI Service Agent
ke akun layanan. - Beri pengguna izin
iam.serviceAccounts.actAs
di akun layanan.
Error Internal error happened
Masalah
Jika pipeline Anda gagal dengan pesan Internal error happened
,
periksa Logs Explorer dan telusuri nama pipeline. Anda mungkin melihat error seperti berikut:
java.lang.IllegalStateException: Failed to validate vpc network projects/PROJECT_ID/global/networks/VPC_NETWORK.APPLICATION_ERROR;google.cloud.servicenetworking.v1/ServicePeeringManagerV1.GetConsumerConfig;Reserved range: 'RANGE_NAME' not found for consumer project: 'PROJECT_ID' network: 'VPC_NETWORK'. com.google.api.tenant.error.TenantManagerException: Reserved range: 'RANGE_NAME' not found for consumer project
Artinya, peering VPC untuk Vertex AI menyertakan rentang IP yang telah dihapus.
Solusi
Untuk mengatasi masalah ini, perbarui peering VPC menggunakan perintah update dan sertakan rentang IP yang valid.
Cakupan OAuth atau audiens token ID yang diberikan tidak valid
Masalah
Saat menjalankan alur kerja Vertex AI Pipelines, Anda akan melihat pesan error berikut:
google.auth.exceptions.RefreshError: ('invalid_scope: Invalid OAuth scope
or ID token audience provided.', {'error': 'invalid_scope',
'error_description': 'Invalid OAuth scope or ID token audience provided.'})
Solusi
Artinya, Anda belum memberikan kredensial di salah satu komponen
pipeline atau tidak menggunakan ai_platform.init()
untuk menetapkan kredensial.
Untuk mengatasi masalah ini, tetapkan kredensial untuk komponen pipeline
yang relevan atau tetapkan kredensial lingkungan dan gunakan ai_platform.init()
di awal kode Anda.
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = PATH_TO_JSON_KEY
Komponen Vertex AI Pipelines memerlukan lebih dari 100 GB ruang disk
Masalah
Ruang disk default yang dialokasikan untuk komponen Vertex AI Pipelines adalah 100 GB dan peningkatan ruang disk tidak didukung. Lihat Issue Tracker Publik untuk masalah ini.
Solusi
Agar komponen menggunakan lebih dari 100 GB ruang disk, konversikan komponen ke tugas kustom menggunakan metode komponen. Dengan operator ini, Anda dapat menetapkan jenis mesin dan ukuran disk yang digunakan komponen.
Untuk contoh cara menggunakan operator ini, lihat Vertex AI Pipelines: Pelatihan kustom dengan Google Cloud Komponen Pipeline bawaan, di bagian Mengonversi komponen menjadi Tugas Kustom Vertex AI.
Masalah jaringan Vertex AI
Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah terkait jaringan untuk Vertex AI.
gcloud services vpc-peerings get-vpc-service-controls \
--network YOUR_NETWORK
Workload tidak dapat mengakses endpoint di jaringan VPC Anda saat menggunakan rentang IP publik yang digunakan secara pribadi untuk Vertex AI
Masalah
Rentang IP publik yang digunakan secara pribadi tidak diimpor secara default.
Solusi
Untuk menggunakan rentang IP publik yang digunakan secara pribadi, Anda harus mengaktifkan impor rentang IP publik yang digunakan secara pribadi
com.google.api.tenant.error.TenantManagerException: Reserved range: xxx not found for consumer project
Masalah
Anda menerima error dalam bentuk com.google.api.tenant.error.TenantManagerException:
Reserved range: xxx not found for consumer project
saat menjalankan beban kerja atau
men-deploy endpoint.
Hal ini terjadi saat Anda mengubah reservasi akses layanan pribadi untuk beban kerja Anda. Rentang yang dihapus mungkin belum terdaftar dengan Vertex AI API.
Solusi
Jalankan gcloud services vpc-peerings update
untuk servicenetworking
setelah memperbarui alokasi akses layanan pribadi.
Pipeline atau tugas tidak dapat mengakses endpoint dalam jaringan VPC yang di-peering
Masalah
Waktu tunggu pipeline Vertex AI Anda habis saat mencoba terhubung ke resource di jaringan VPC.
Solusi
Coba langkah-langkah berikut untuk mengatasi masalah:
- Pastikan Anda telah menyelesaikan semua langkah dalam Menyiapkan Peering Jaringan VPC.
Tinjau konfigurasi jaringan VPC yang di-peering. Pastikan jaringan Anda mengimpor rute dari rentang jaringan layanan yang tepat saat tugas Anda sedang berjalan.
Pastikan Anda memiliki aturan firewall yang mengizinkan koneksi dari rentang ini ke target di jaringan Anda.
Jika koneksi peering tidak mengimpor rute apa pun saat tugas Anda berjalan, ini berarti konfigurasi jaringan layanan tidak digunakan. Hal ini mungkin terjadi karena Anda menyelesaikan konfigurasi peering dengan jaringan selain jaringan default. Jika demikian, pastikan Anda menentukan jaringan saat meluncurkan tugas. Gunakan nama jaringan yang sepenuhnya memenuhi syarat dalam format berikut:
projects/$PROJECT_ID/global/networks/$NETWORK_NAME
.Untuk informasi selengkapnya, lihat Ringkasan rute.
Pipeline atau tugas tidak dapat mengakses untuk menjangkau endpoint di jaringan lain di luar jaringan Anda
Masalah
Pipeline atau tugas Anda tidak dapat mengakses endpoint di jaringan di luar jaringan Anda.
Solusi
Secara default, konfigurasi peering Anda hanya mengekspor rute ke subnet lokal di VPC Anda.
Selain itu, peering transitif tidak didukung dan hanya jaringan yang di-peering langsung yang dapat berkomunikasi.
- Agar Vertex AI dapat terhubung melalui
jaringan Anda dan menjangkau endpoint di jaringan lain, Anda harus mengekspor rute
jaringan ke koneksi peering. Edit konfigurasi jaringan VPC
yang di-peering dan aktifkan
Export custom routes
.
Karena peering transitif tidak didukung, Vertex AI tidak
mempelajari rute ke jaringan dan layanan yang di-peering lainnya, meskipun dengan
Export Custom Routes
diaktifkan. Untuk mengetahui informasi tentang solusi, lihat
Memperluas keterjangkauan jaringan Vertex AI Pipelines.
No route to host
tanpa konflik rute yang terlihat di konsol Google Cloud
Masalah
Satu-satunya rute yang dapat Anda lihat di konsol Google Cloud adalah rute yang diketahui oleh VPC Anda sendiri serta rentang yang dicadangkan saat Anda menyelesaikan konfigurasi Peering Jaringan VPC.
Terkadang, tugas Vertex AI mungkin menampilkan keluhan no route to host
saat mencoba menjangkau alamat IP yang diekspor VPC Anda ke jaringan
Vertex AI.
Hal ini mungkin karena tugas Vertex AI berjalan dalam namespace jaringan di cluster GKE terkelola yang rentang IP-nya bertentangan dengan IP target. Lihat Dasar-dasar jaringan GKE untuk diskusi lebih lanjut.
Dalam kondisi ini, beban kerja mencoba terhubung ke IP dalam namespace jaringannya sendiri dan menampilkan error jika tidak dapat menjangkaunya.
Solusi
Buat beban kerja Anda untuk menampilkan alamat IP namespace lokalnya dan pastikan hal ini tidak
bertentangan dengan rute apa pun yang Anda ekspor melalui koneksi peering.
Jika ada konflik, teruskan daftar reservedIpRanges[]
dalam parameter tugas yang tidak tumpang-tindih dengan rentang apa pun di jaringan VPC Anda.
Tugas menggunakan rentang ini untuk alamat IP internal beban kerja.
RANGES_EXHAUSTED
, RANGES_NOT_RESERVED
Masalah
Error dalam bentuk RANGES_EXHAUSTED
dan RANGES_NOT_RESERVED
serta RANGES_DELETED_LATER
menunjukkan masalah pada konfigurasi peering jaringan VPC yang mendasarinya. Ini adalah error jaringan,
bukan error dari layanan Vertex AI itu sendiri.
Solusi
Saat mengalami error RANGES_EXHAUSTED
, Anda harus mempertimbangkan terlebih dahulu apakah
keluhan ini valid.
- Buka Network Analyzer di konsol cloud dan cari insight dalam bentuk "Summary of IP address allocation" di jaringan VPC. Jika hal ini menunjukkan bahwa alokasi berada di atau mendekati 100%, Anda dapat menambahkan rentang baru ke reservasi.
- Pertimbangkan juga jumlah maksimum tugas paralel yang dapat dijalankan dengan reservasi ukuran tertentu.
Untuk mengetahui informasi selengkapnya, lihat Error Validasi Infrastruktur Layanan
Jika error terus berlanjut, hubungi dukungan.
Router status is temporarily unavailable
Masalah
Saat meluncurkan Vertex AI Pipelines, Anda akan menerima pesan error yang mirip dengan berikut ini:
Router status is temporarily unavailable. Please try again later
Solusi
Pesan error menunjukkan bahwa ini adalah kondisi sementara. Coba luncurkan Vertex AI Pipelines lagi.
Jika error terus berlanjut, hubungi dukungan.
Prediksi Vertex AI
Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin berguna jika Anda mengalami masalah dengan prediksi Vertex AI.
Error percobaan ulang terlampaui
Masalah
Anda mendapatkan error seperti berikut saat menjalankan tugas prediksi batch, yang menunjukkan bahwa mesin yang menjalankan model kustom mungkin tidak dapat menyelesaikan prediksi dalam batas waktu.
('Post request fails. Cannot get predictions. Error: Exceeded retries: Non-OK
result 504 (upstream request timeout) from server, retry=3, elapsed=600.04s.', 16)
Hal ini dapat terjadi saat layanan prediksi Vertex AI mendaftarkan dirinya ke layanan Google Front End, yang melakukan proxy koneksi dari klien ke Vertex AI Prediction API.
Layanan Google Front End akan menghentikan koneksi dan menampilkan kode respons HTTP 500 ke klien jika tidak menerima respons dari API dalam waktu 10 menit.
Solusi
Untuk mengatasi masalah ini, Anda dapat mencoba salah satu langkah berikut:
- Tingkatkan node komputasi, atau ubah jenis mesin.
- Buat penampung prediksi untuk mengirim kode respons HTTP 102 berkala. Tindakan ini akan mereset timer 10 menit di layanan Google Front End.
Project sudah ditautkan ke VPC
Masalah
Saat men-deploy endpoint, Anda mungkin melihat pesan error seperti berikut, yang menunjukkan bahwa endpoint Vertex AI Anda telah sebelumnya menggunakan jaringan Virtual Private Cloud dan resource tidak dibersihkan dengan benar.
Currently only one VPC network per user project is supported. Your project is
already linked to "projects/YOUR_SHARED_VPC_HOST_PROJECT/global/networks/YOUR_SHARED_VPC_NETWORK".
To change the VPC network, please undeploy all Vertex AI deployment resources,
delete all endpoint resources, and then retry creating resources in 30 mins.
Solusi
Untuk mengatasi masalah ini, coba jalankan perintah ini di Cloud Shell.
gcloud services vpc-peerings delete \
--service=servicenetworking.googleapis.com \
--network=YOUR_SHARED_VPC_NETWORK \
--project=YOUR_SHARED_VPC_HOST_PROJECT
Tindakan ini akan memutuskan koneksi jaringan VPC lama Anda secara manual dari VPC Jaringan Layanan.
Kegagalan deployment atau penghapusan endpoint yang tidak terduga
Masalah
Deployment model tiba-tiba gagal, endpoint ditemukan telah dihapus, atau model yang sebelumnya di-deploy telah di-undeploy.
Akun penagihan Anda mungkin tidak valid. Jika tetap tidak valid dalam waktu lama, beberapa resource mungkin akan dihapus dari project yang terkait dengan akun Anda. Misalnya, endpoint dan model Anda mungkin dihapus. Resource yang dihapus tidak dapat dipulihkan.
Solusi
Untuk mengatasi masalah ini, Anda dapat mencoba langkah-langkah berikut:
- Verifikasi status penagihan project Anda.
- Hubungi Dukungan Penagihan Cloud untuk meminta bantuan terkait pertanyaan penagihan.
Untuk informasi selengkapnya, lihat Pertanyaan terkait penagihan.
Masalah akun layanan khusus Vertex AI
Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin berguna jika Anda mengalami masalah dengan akun layanan.
Deployment model gagal disertai error serviceAccountAdmin
akun layanan
Masalah
Deployment model Anda gagal dengan error seperti berikut:
Failed to deploy model MODEL_NAME to
endpoint ENDPOINT_NAME due to the error: Failed to add IAM policy binding.
Please grant SERVICE_ACC_NAME@gcp-sa-aiplatform.iam.gserviceaccount.com the
iam.serviceAccountAdmin role on service account
vertex-prediction-role@PROJECT_INFO.iam.gserviceaccount.com
Solusi
Error ini berarti akun layanan kustom Anda mungkin belum dikonfigurasi dengan benar. Untuk membuat akun layanan kustom dengan izin IAM yang benar, lihat Menggunakan akun layanan kustom.
Tidak dapat mengambil token identitas saat menggunakan akun layanan kustom
Masalah
Saat menggunakan akun layanan kustom, tugas pelatihan yang berjalan di satu replika tidak dapat menjangkau layanan metadata Compute Engine yang diperlukan untuk mengambil token.
Anda akan melihat error yang mirip dengan:
Failed to refresh jwt, retry number 0: ("Failed to retrieve http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/identity?audience=...&format=full
from the Google Compute Engine Metadata service. Status: 404 Response:
\nb'Not Found\n'", <google.auth.transport.requests._Response object at
0x7fb19f058c50>)
Solusi
Untuk mengambil token identitas dengan akun layanan kustom, Anda harus menggunakan iamcredentials.googleapis.com.
Model yang dilatih khusus
Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin dapat membantu jika Anda mengalami masalah dengan model yang dilatih kustom.
Masalah pelatihan khusus
Masalah berikut dapat terjadi selama pelatihan khusus. Masalah ini terjadi pada
resource CustomJob
dan HyperparameterTuningJob
, termasuk yang dibuat
oleh resource TrainingPipeline
.
Kode error: 400
Masalah
Anda mengalami error berikut:
400 Machine type MACHINE_TYPE is not supported.
Anda mungkin melihat pesan error ini jika jenis mesin yang dipilih tidak didukung untuk pelatihan Vertex AI, atau jika resource tertentu tidak tersedia di wilayah yang dipilih.
Solusi
Hanya gunakan jenis mesin yang tersedia di region yang sesuai.
Replika dihentikan dengan kode status bukan nol
Masalah
Selama pelatihan terdistribusi, error dari pekerja mana pun akan menyebabkan pelatihan menjadi gagal.
Solusi
Untuk memeriksa stack trace bagi pekerja, lihat log pelatihan khusus Anda di konsol Google Cloud.
Lihat topik pemecahan masalah lainnya untuk memperbaiki error umum, lalu buat resource
CustomJob
, HyperparameterTuningJob
, atau TrainingPipeline
baru. Dalam banyak
kasus, kode error disebabkan oleh masalah dalam kode pelatihan Anda, tidak disebabkan oleh
layanan Vertex AI. Untuk menentukan apakah hal tersebut memang terjadi, Anda dapat menjalankan kode pelatihan di mesin lokal atau di Compute Engine.
Replika kehabisan memori
Masalah
Error dapat terjadi jika instance virtual machine (VM) pelatihan kehabisan memori selama pelatihan.
Solusi
Anda dapat melihat penggunaan memori VM pelatihan di konsol Google Cloud.
Meskipun error ini muncul, Anda mungkin tidak mendapati penggunaan memori 100% di VM,
karena layanan selain aplikasi pelatihan Anda yang berjalan di VM juga
memakai resource. Untuk jenis
mesin yang memiliki lebih sedikit
memori, layanan lain mungkin menggunakan persentase memori yang relatif besar.
Misalnya, pada VM n1-standard-4
, layanan dapat menggunakan hingga 40%
memori.
Anda dapat mengoptimalkan konsumsi memori aplikasi pelatihan, atau Anda dapat memilih jenis mesin yang lebih besar dengan lebih banyak memori.
Sumber daya yang tidak memadai di suatu region
Masalah
Anda mengalami masalah kehabisan stok di suatu wilayah.
Solusi
Vertex AI melatih model Anda menggunakan resource Compute Engine. Vertex AI tidak dapat menjadwalkan workload Anda jika Compute Engine memiliki kapasitas untuk CPU atau GPU tertentu di suatu region. Masalah ini tidak terkait dengan kuota project Anda.
Saat kapasitas Compute Engine tercapai, Vertex AI akan otomatis
mencoba ulang CustomJob
atau HyperparameterTuningJob
Anda hingga tiga kali. Tugas
akan gagal jika semua percobaan ulang gagal.
Stok habis biasanya terjadi saat Anda menggunakan GPU. Jika Anda mengalami error ini saat menggunakan GPU, cobalah beralih ke jenis GPU lain. Jika Anda dapat menggunakan region lain, cobalah melakukan pelatihan di region yang berbeda.
Error izin saat mengakses layanan Google Cloud lain
Jika Anda mengalami error izin saat mengakses layanan Google Cloud
lain dari kode pelatihan (misalnya:
google.api_core.exceptions.PermissionDenied: 403
), Anda mungkin memiliki salah satu
masalah berikut:
-
Masalah
Agen layanan atau akun layanan yang menjalankan kode Anda (baik Agen Layanan Kode Kustom Vertex AI untuk project Anda atau akun layanan kustom) tidak memiliki izin yang diperlukan.
Solusi
Pelajari cara memberikan izin kepada Agen Layanan Kode Kustom Vertex AI atau mengonfigurasi akun layanan kustom dengan izin yang diperlukan.
-
Masalah
Agen layanan atau akun layanan yang menjalankan kode Anda memiliki izin yang diperlukan, tetapi kode Anda mencoba mengakses resource dalam project yang salah. Hal ini mungkin menjadi masalah jika pesan error merujuk project ID yang diakhiri dengan
-tp
.Solusi
Karena cara Vertex AI menjalankan kode pelatihan Anda, masalah ini dapat terjadi secara tidak sengaja jika Anda tidak secara eksplisit menentukan project ID atau nomor project dalam kode Anda.
Pelajari cara memperbaiki masalah ini dengan menentukan project ID atau nomor project.
Kesalahan internal
Masalah
Pelatihan Anda gagal karena error sistem.
Solusi
Masalah ini mungkin bersifat sementara; coba kirim ulang CustomJob
,
HyperparameterTuningJob
, atau TrainingPipeline
. Jika error tetap berlanjut, hubungi dukungan.
Kode error 500 saat menggunakan image container pelanggan
Masalah
Anda melihat error 500 di log.
Solusi
Jenis error ini kemungkinan merupakan masalah pada image container kustom Anda, bukan error Vertex AI.
Akun layanan tidak dapat mengakses bucket Cloud Storage saat men-deploy ke endpoint
Masalah
Saat mencoba men-deploy model ke endpoint dan akun layanan Anda
tidak memiliki akses
storage.objects.list
ke bucket Cloud Storage yang terkait,
Anda mungkin mendapatkan error berikut:
custom-online-prediction@TENANT_PROJECT_ID.iam.gserviceaccount.com
does not have storage.objects.list access to the Cloud Storage bucket.
Secara default, container kustom yang men-deploy model Anda menggunakan akun layanan yang tidak memiliki akses ke bucket Cloud Storage Anda.
Solusi
Untuk mengatasinya, coba salah satu langkah berikut:
Salin file yang ingin Anda akses dari container ke dalam artefak model saat mengupload model. Vertex AI akan menyalinnya ke lokasi yang dapat diakses oleh akun layanan default, mirip dengan semua artefak model lainnya.
Salin file ke container sebagai bagian dari proses build container.
Tentukan akun layanan khusus
Penelusuran Arsitektur Neural
Masalah umum
- Setelah membatalkan tugas NAS, tugas utama (induk) akan berhenti, tetapi beberapa uji coba turunan tetap menampilkan status Berjalan. Abaikan status uji coba turunan yang menampilkan status Berjalan dalam kasus ini. Uji coba telah dihentikan, tetapi UI terus menampilkan status Berjalan. Selama tugas utama telah berhenti, Anda tidak akan dikenai biaya tambahan.
- Setelah melaporkan reward di pelatih, tunggu (aktifkan mode tidur) selama 10 menit sebelum tugas uji coba dihentikan.
Saat menggunakan Cloud Shell untuk menjalankan
TensorBoard
, link output yang dihasilkan mungkin tidak berfungsi. Dalam hal ini, tuliskan nomor port, gunakan alat Pratinjau Web, lalu pilih nomor port yang benar untuk menampilkan plot.Mengakses alat
Web Preview
:Jika Anda melihat pesan error seperti berikut di log pelatih:
gcsfuse errors: fuse: writeMessage: no such file or directory [16 0 0 0 218 255 255 255 242 25 111 1 0 0 0 0]
gunakan mesin dengan RAM yang lebih besar, karena kondisi OOM menyebabkan error ini.
Jika pelatih khusus Anda tidak dapat menemukan FLAG
job-dir
direktori tugas, imporjob_dir
dengan garis bawah, bukan tanda hubung. Catatan di tutorial-1 menjelaskan hal ini.Error NAN selama pelatihan Mungkin akan ada error NaN dalam tugas pelatihan seperti
NaN : Tensor had NaN values
. Kecepatan pembelajaran mungkin terlalu besar untuk arsitektur yang disarankan. Untuk informasi selengkapnya, lihat Error terkait kehabisan memori (OOM) dan kecepatan pembelajaran.Error OOM selama pelatihan Mungkin akan ada error OOM (out-of-memory) dalam tugas pelatihan. Ukuran tumpukan mungkin terlalu besar untuk memori akselerator. Untuk informasi selengkapnya, lihat Error terkait kehabisan memori (OOM) dan kecepatan pembelajaran.
Tugas pengontrol pemilihan model tugas proxy mati Dalam kasus yang jarang terjadi ketika tugas pengontrol pemilihan model tugas proxy mati, Anda dapat melanjutkan tugas dengan mengikuti langkah-langkah ini.
Tugas pengontrol penelusuran tugas proxy mati Dalam kasus yang jarang terjadi ketika tugas pengontrol penelusuran tugas proxy mati, Anda dapat melanjutkan tugas dengan mengikuti langkah-langkah ini.
Akun layanan tidak memiliki izin untuk mengakses Artifact Registry atau bucket. Jika Anda mendapatkan error seperti
Vertex AI Service Agent service-123456789@gcp-sa-aiplatform-cc.iam.gserviceaccount.com does not have permission to access Artifact Registry repository projects/my-project/locations/my-region/repositories/nas
atau error serupa untuk akses bucket, beri akun layanan ini peran editor penyimpanan dalam project Anda.
Vertex AI Feature Store
Bagian ini menjelaskan langkah-langkah pemecahan masalah yang mungkin membantu jika Anda mengalami masalah dengan Vertex AI Feature Store.
Resource not found
error saat mengirim permintaan penyerapan streaming atau penyaluran online
Masalah
Setelah Anda menyiapkan featurestore, jenis entity, atau resource fitur, akan ada
penundaan sebelum resource tersebut diterapkan ke
layanan FeaturestoreOnlineServingService
. Terkadang penerapan yang tertunda ini
dapat menyebabkan error resource not found
saat Anda mengirimkan permintaan penyerapan streaming
atau penyaluran online segera setelah membuat resource.
Solusi
Jika Anda menerima error ini, tunggu beberapa menit, lalu coba lagi permintaan Anda.
Penyerapan batch berhasil untuk fitur yang baru dibuat, tetapi permintaan penyaluran online menampilkan nilai kosong
Masalah
Khusus untuk fitur yang baru dibuat, ada penundaan sebelum fitur tersebut
diterapkan ke layanan FeaturestoreOnlineServingService
. Fitur dan
nilai ada, tetapi perlu waktu untuk diterapkan. Hal ini dapat menyebabkan permintaan penayangan
online Anda menampilkan nilai kosong.
Solusi
Jika Anda melihat ketidaksesuaian ini, tunggu beberapa menit, lalu coba lagi permintaan penyaluran online Anda.
Pemakaian CPU tinggi untuk node penyaluran online
Masalah
Pemakaian CPU Anda untuk node penyaluran online tinggi.
Solusi
Untuk mengurangi masalah ini, Anda dapat meningkatkan jumlah node penyaluran online dengan menambah jumlah node secara manual atau dengan mengaktifkan penskalaan otomatis. Perhatikan bahwa meskipun penskalaan otomatis diaktifkan, Vertex AI Feature Store memerlukan waktu untuk menyeimbangkan kembali data saat node ditambahkan atau dihapus. Untuk informasi tentang cara melihat metrik distribusi nilai fitur dari waktu ke waktu, lihat Melihat metrik nilai fitur.
Pemakaian CPU tinggi untuk node penyaluran online terpanas
Masalah
Jika pemakaian CPU untuk node terpanas tinggi, Anda dapat meningkatkan jumlah node penyaluran atau mengubah pola akses entity menjadi pseudo-random.
Solusi
Menyetel pola akses entity ke pseudo-random akan mengurangi tingginya penggunaan CPU yang dihasilkan dari entity yang sering mengakses yang terletak berdekatan satu sama lain di featurestore. Jika tidak ada solusi yang efektif, implementasikan cache sisi klien untuk menghindari akses entity yang sama berulang kali.
Latensi penyaluran online tinggi saat QPS rendah
Masalah
Periode tidak aktif atau aktivitas rendah pada QPS rendah dapat mengakibatkan masa berlaku beberapa cache sisi server berakhir. Hal ini dapat mengakibatkan adanya latensi tinggi saat traffic ke node penyaluran online dilanjutkan dengan QPS reguler atau lebih tinggi.
Solusi
Untuk mengatasi masalah ini, Anda harus menjaga koneksi tetap aktif dengan mengirimkan traffic buatan minimal 5 QPS ke featurestore.
Tugas penyerapan batch gagal setelah enam jam
Masalah
Tugas penyerapan batch dapat gagal karena sesi baca berakhir setelah enam jam.
Solusi
Untuk menghindari habisnya waktu tunggu, tingkatkan jumlah pekerja untuk menyelesaikan tugas penyerapan dalam batas waktu enam jam.
Error Resource exceeded
saat mengekspor nilai fitur
Masalah
Mengekspor data dalam jumlah besar dapat gagal dengan error resource terlampaui jika tugas ekspor melebihi kuota internal.
Solusi
Untuk menghindari error ini, Anda dapat mengonfigurasi parameter rentang waktu, start_time
dan end_time
, untuk memproses data dalam jumlah yang lebih kecil sekaligus. Untuk informasi tentang ekspor lengkap, lihat Ekspor lengkap.
Vertex AI Vizier
Saat menggunakan Vertex AI Vizier, Anda mungkin mengalami masalah berikut.
Kesalahan internal
Masalah
Error internal terjadi saat ada error sistem.
Solusi
Hal ini mungkin bersifat sementara. Coba kirim ulang permintaan, dan jika error terus berlanjut, hubungi dukungan.