이 페이지에서는 Vertex AI 사용 시 문제가 발생할 경우 도움이 될 수 있는 문제 해결 단계를 설명합니다.
일부 Vertex AI 구성요소의 문제 해결 단계는 별도로 나와 있습니다. 다음을 참조하세요.
이 페이지의 콘텐츠를 필터링하려면 주제를 클릭합니다.
AutoML 모델
이 섹션에서는 AutoML에 문제가 발생할 경우 도움이 될 수 있는 문제 해결 단계를 설명합니다.
테스트, 검증 또는 학습 세트의 라벨이 누락됨
문제
AutoML 분류 모델을 학습시킬 때 기본 데이터 분할을 사용하면, Vertex AI가 특정 세트(테스트, 검증 또는 학습)에 너무 적은 클래스 인스턴스를 할당하면서 학습 중에 오류가 발생할 수 있습니다. 이 문제는 불균형 클래스 또는 소량의 학습 데이터가 있을 때 더 자주 발생합니다.
해결책
이 문제를 해결하려면 학습 데이터를 추가하거나 데이터를 수동으로 분할하여 모든 세트에 충분한 클래스를 할당하거나 자주 사용되지 않는 라벨을 데이터 세트에서 삭제합니다. 자세한 내용은 AutoML 모델의 데이터 분할 정보를 참조하세요.
Vertex AI Studio
Vertex AI Studio로 작업할 때 다음 오류가 발생할 수 있습니다.
모델 조정을 시도하면 Internal error encountered
반환
문제
모델을 조정하려고 할 때 Internal error encountered
오류가 발생합니다.
해결책
다음 curl 명령어를 실행하여 빈 Vertex AI 데이터 세트를 만듭니다. 명령어에서 프로젝트 ID를 구성해야 합니다.
PROJECT_ID=PROJECT_ID
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://europe-west4-aiplatform.googleapis.com/ui/projects/$PROJECT_ID/locations/europe-west4/datasets \
-d '{
"display_name": "test-name1",
"metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml",
"saved_queries": [{"display_name": "saved_query_name", "problem_type": "IMAGE_CLASSIFICATION_MULTI_LABEL"}]
}'
명령어가 완료되면 5분 정도 기다린 후 모델 조정을 다시 시도합니다.
오류 코드: 429
문제
다음 오류가 발생합니다.
429: The online prediction request quota is exceeded for PUBLIC_BASE_MODEL_NAME.
해결책
나중에 백오프로 다시 시도하세요. 오류가 계속 발생하면 Vertex AI 지원에 문의하세요.
오류 코드: 410
문제
다음 오류가 발생합니다.
410: The request is missing the required authentication credential. Expected OAuth 2.0 access token, login cookie, or other valid authentication credential.
해결책
자세한 내용은 인증 개요를 참조하세요.
오류 코드: 403
문제
다음 오류가 발생합니다.
403: Permission denied.
해결책
API에 액세스하는 계정에 올바른 권한이 있는지 확인합니다.
Vertex AI Pipelines
이 섹션에서는 Vertex AI Pipelines에 문제가 발생할 경우 도움이 될 수 있는 문제 해결 단계를 설명합니다.
서비스 계정 역할을 할 권한이 없음
문제
Vertex AI Pipelines 워크플로를 실행할 때 다음 오류 메시지가 발생할 수 있습니다.
You do not have permission to act as service account: SERVICE_ACCOUNT. (or it may not exist).
해결책
이 오류는 워크플로를 실행 중인 서비스 계정에 리소스를 사용하는 데 필요한 액세스 권한이 없음을 의미합니다.
이 문제를 해결하려면 다음 중 하나를 시도해 보세요.
Vertex AI Service Agent
역할을 서비스 계정에 추가합니다.- 서비스 계정에 대해
iam.serviceAccounts.actAs
권한을 사용자에게 부여하세요.
오류 Internal error happened
문제
파이프라인에 Internal error happened
메시지와 함께 오류가 발생하면 로그 탐색기를 확인하고 파이프라인 이름을 검색합니다. 다음과 같은 오류가 표시될 수 있습니다.
java.lang.IllegalStateException: Failed to validate vpc network projects/PROJECT_ID/global/networks/VPC_NETWORK.APPLICATION_ERROR;google.cloud.servicenetworking.v1/ServicePeeringManagerV1.GetConsumerConfig;Reserved range: 'RANGE_NAME' not found for consumer project: 'PROJECT_ID' network: 'VPC_NETWORK'. com.google.api.tenant.error.TenantManagerException: Reserved range: 'RANGE_NAME' not found for consumer project
이는 Vertex AI의 VPC 피어링에 삭제된 IP 범위가 포함되었음을 의미합니다.
해결책
이 문제를 해결하려면 업데이트 명령어를 사용해서 VPC 피어링을 업데이트하고 유효한 IP 범위를 포함합니다.
잘못된 OAuth 범위 또는 ID 토큰 대상이 제공됨
문제
Vertex AI Pipelines 워크플로를 실행할 때 다음 오류 메시지가 발생합니다.
google.auth.exceptions.RefreshError: ('invalid_scope: Invalid OAuth scope
or ID token audience provided.', {'error': 'invalid_scope',
'error_description': 'Invalid OAuth scope or ID token audience provided.'})
해결책
이는 파이프라인 구성요소 중 하나에 사용자 인증 정보를 제공하지 않았거나 ai_platform.init()
를 사용하여 사용자 인증 정보를 설정하지 않았음을 의미합니다.
이 문제를 해결하려면 관련 파이프라인 구성요소에 대해 사용자 인증 정보를 설정하거나 환경 사용자 인증 정보를 설정하고 코드 시작 부분에 ai_platform.init()
를 사용합니다.
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = PATH_TO_JSON_KEY
Vertex AI Pipelines 구성요소에 100GB 이상의 디스크 공간 필요
문제
Vertex AI Pipelines 구성요소에 할당되는 기본 디스크 공간은 100GB이며 디스크 공간 증가가 지원되지 않습니다. 이 문제에 대해서는 공개 Issue Tracker를 참조하세요.
해결책
구성요소에 100GB 이상의 디스크 공간을 사용하려면 구성요소 메서드를 사용해서 구성요소를 커스텀 작업으로 변환해야 합니다. 이 연산자를 사용하면 구성요소에 사용되는 머신 유형 및 디스크 크기를 할당할 수 있습니다.
이 연산자 사용 방법의 예시는 구성 요소를 Vertex AI 커스텀 작업으로 변환 섹션에서 Vertex AI Pipelines: 사전 빌드된 Google Cloud 파이프라인 구성요소가 포함된 커스텀 학습을 참조하세요.
Vertex AI 네트워킹 문제
이 섹션에서는 Vertex AI의 네트워킹에 문제가 발생할 경우 도움이 될 수 있는 문제 해결 단계를 설명합니다.
gcloud services vpc-peerings get-vpc-service-controls \
--network YOUR_NETWORK
com.google.api.tenant.error.TenantManagerException: Reserved range: xxx not found for consumer project
문제
워크로드를 실행하거나 엔드포인트를 배포할 때 com.google.api.tenant.error.TenantManagerException:
Reserved range: xxx not found for consumer project
형식의 오류가 발생합니다.
이는 워크로드의 비공개 서비스 액세스 예약을 변경할 때 발생합니다. 삭제된 범위는 Vertex AI API에 등록되지 않았을 수 있습니다.
해결책
비공개 서비스 액세스 할당을 업데이트한 후 servicenetworking
에 대해 gcloud services vpc-peerings update
를 실행합니다.
파이프라인 또는 작업이 피어링된 VPC 네트워크 내의 엔드포인트에 액세스할 수 없음
문제
Vertex AI 파이프라인이 VPC 네트워크의 리소스에 연결하려고 시도할 때 타임아웃이 발생합니다.
해결책
문제를 해결하려면 다음 단계를 시도해 보세요.
- VPC 네트워크 피어링 설정의 모든 단계를 완료했는지 확인합니다.
피어링된 VPC 네트워크의 구성을 검토합니다. 작업이 실행되는 동안 네트워크가 올바른 서비스 네트워킹 범위에서 경로를 가져오는지 확인합니다.
이 범위에서 네트워크의 대상으로 연결을 허용하는 방화벽 규칙이 있는지 확인합니다.
작업이 실행되는 동안 피어링 연결이 경로를 가져오지 않으면 서비스 네트워킹 구성이 사용 중이 아님을 의미합니다. 이는 기본 네트워크 이외의 네트워크와 피어링 구성을 완료했기 때문일 수 있습니다. 이 경우 작업을 시작할 때 네트워크를 지정해야 합니다. 정규화된 네트워크 이름을 다음 형식으로 사용합니다.
projects/$PROJECT_ID/global/networks/$NETWORK_NAME
자세한 내용은 경로 개요를 참조하세요.
파이프라인 또는 작업이 네트워크 이외의 다른 네트워크에 있는 엔드포인트에 액세스할 수 없음
문제
파이프라인이나 작업이 해당 네트워크와 다른 네트워크에 있는 엔드포인트에 액세스할 수 없습니다.
해결책
기본적으로 피어링 구성은 VPC의 로컬 서브넷으로만 경로를 내보냅니다.
또한 전환 피어링은 지원되지 않으며 직접 피어링된 네트워크만 통신할 수 있습니다.
- Vertex AI가 네트워크를 통해 연결하고 다른 네트워크의 엔드포인트에 도달하도록 허용하려면 네트워크 경로를 피어링 연결로 내보내야 합니다. 피어링된 VPC 네트워크의 구성을 수정하고
Export custom routes
를 사용 설정합니다.
전환 피어링은 지원되지 않으므로 Vertex AI는 Export Custom Routes
를 사용 설정해도 다른 피어링된 네트워크 및 서비스의 경로를 학습하지 않습니다. 해결 방법에 대한 자세한 내용은 Vertex AI Pipelines의 네트워크 도달성 확장을 참조하세요.
Google Cloud 콘솔에서 경로가 충돌하지 않는 No route to host
문제
Google Cloud 콘솔에 표시되는 유일한 경로는 VPC 네트워크 피어링 구성을 완료할 때 예약된 범위와 자체 VPC에 알려진 경로입니다.
드물게 VPC를 Vertex AI 네트워크로 내보내는 IP 주소에 연결하려고 할 때 Vertex AI 작업에서 no route to host
오류가 발생할 수 있습니다.
이는 Vertex AI 작업이 IP 범위가 대상 IP와 충돌하는 관리형 GKE 클러스터의 네트워킹 네임스페이스 내에서 실행되기 때문일 수 있습니다. 자세한 내용은 GKE 네트워킹 기초를 참조하세요.
이러한 조건에서 워크로드는 자체 네트워킹 네임스페이스 내에서 IP에 연결하려고 하고 연결할 수 없으면 오류가 발생합니다.
해결책
로컬 네임스페이스 IP 주소가 반환되도록 워크로드를 만들고 피어링 연결을 통해 내보내는 경로와 충돌하지 않는지 확인합니다.
충돌하면 VPC 네트워크의 어떤 범위와도 겹치지 않는 작업 매개변수에 reservedIpRanges[]
목록을 전달합니다.
작업에서 워크로드의 내부 IP 주소에 다음 범위를 사용합니다.
RANGES_EXHAUSTED
, RANGES_NOT_RESERVED
문제
RANGES_EXHAUSTED
, RANGES_NOT_RESERVED
, RANGES_DELETED_LATER
형식의 오류는 기본 VPC 네트워크 피어링 구성에 문제가 있음을 나타냅니다. 이는 Vertex AI 서비스 자체의 오류가 아닌 네트워킹 오류입니다.
해결책
RANGES_EXHAUSTED
오류가 발생하면 먼저 이 신고가 유효한지 고려해야 합니다.
- Cloud 콘솔에서 Network Analyzer로 이동하여 VPC 네트워크에서 'IP 주소 할당 요약' 양식의 통계를 확인합니다. 할당이 100%에 도달했거나 거의 도달한 것으로 나타나면 예약에 새 범위를 추가할 수 있습니다.
- 또한 특정 크기의 예약으로 실행할 수 있는 최대 병렬 작업 수도 고려하세요.
자세한 내용은 Service Infrastructure 유효성 검사 오류를 참조하세요.
오류가 계속되면 지원팀에 문의하세요.
Router status is temporarily unavailable
문제
Vertex AI Pipelines를 시작하면 다음과 유사한 오류 메시지가 표시됩니다.
Router status is temporarily unavailable. Please try again later
해결책
이 오류 메시지는 이것이 일시적인 상태임을 나타냅니다. Vertex AI Pipelines를 다시 시작해 보세요.
오류가 계속되면 지원팀에 문의하세요.
Vertex AI Prediction
이 섹션에서는 Vertex AI Prediction에 문제가 발생할 경우 도움이 될 수 있는 문제 해결 단계를 설명합니다.
재시도 초과 오류
문제
일괄 예측 작업을 실행할 때 다음과 같은 오류가 발생합니다. 커스텀 모델을 실행하는 머신이 제한 시간 내에 예측을 완료하지 못할 수 있습니다.
('Post request fails. Cannot get predictions. Error: Exceeded retries: Non-OK
result 504 (upstream request timeout) from server, retry=3, elapsed=600.04s.', 16)
이는 Vertex AI 예측 서비스가 클라이언트에서 Vertex AI Prediction API로의 연결을 프록시하는 Google 프런트엔드 서비스에 등록될 때 발생할 수 있습니다.
Google 프런트엔드 서비스는 연결 시간이 초과되고 10분 이내에 API로부터 응답을 받지 못하면 500 HTTP 응답 코드를 클라이언트에 반환합니다.
해결책
이 문제를 해결하려면 다음 중 하나를 시도해 보세요.
- 컴퓨팅 노드를 늘리거나 머신 유형을 변경합니다.
- 주기적인 102 HTTP 응답 코드를 전송하도록 예측 컨테이너를 작성합니다. 이렇게 하면 Google 프런트엔드 서비스에서 10분 타이머가 재설정됩니다.
프로젝트가 이미 VPC에 연결되어 있음
문제
엔드포인트를 배포할 때 Vertex AI 엔드포인트에 이전에 가상 프라이빗 클라우드 네트워크가 사용되었고 리소스가 적절하게 삭제되지 않았음을 나타내는 다음과 같은 오류 메시지가 표시될 수 있습니다.
Currently only one VPC network per user project is supported. Your project is
already linked to "projects/YOUR_SHARED_VPC_HOST_PROJECT/global/networks/YOUR_SHARED_VPC_NETWORK".
To change the VPC network, please undeploy all Vertex AI deployment resources,
delete all endpoint resources, and then retry creating resources in 30 mins.
해결책
이 문제를 해결하려면 Cloud Shell에서 다음 명령어를 실행합니다.
gcloud services vpc-peerings delete \
--service=servicenetworking.googleapis.com \
--network=YOUR_SHARED_VPC_NETWORK \
--project=YOUR_SHARED_VPC_HOST_PROJECT
그러면 서비스 네트워킹 VPC에서 이전의 VPC 네트워크 연결이 해제됩니다.
Vertex AI 커스텀 서비스 계정 문제
이 섹션에서는 서비스 계정에 문제가 발생할 경우 도움이 될 수 있는 문제 해결 단계를 설명합니다.
서비스 계정 serviceAccountAdmin
오류가 발생하면서 모델 배포 실패
문제
다음과 같은 오류로 모델 배포가 실패합니다.
Failed to deploy model MODEL_NAME to
endpoint ENDPOINT_NAME due to the error: Failed to add IAM policy binding.
Please grant SERVICE_ACC_NAME@gcp-sa-aiplatform.iam.gserviceaccount.com the
iam.serviceAccountAdmin role on service account
vertex-prediction-role@PROJECT_INFO.iam.gserviceaccount.com
해결책
이 오류는 커스텀 서비스 계정이 올바르게 구성되지 않았음을 나타낼 수 있습니다. 올바른 IAM 권한이 있는 커스텀 서비스 계정을 만들려면 커스텀 서비스 계정 사용을 참조하세요.
커스텀 서비스 계정을 사용할 때 ID 토큰을 가져올 수 없음
문제
커스텀 서비스 계정을 사용할 때 단일 복제본으로 실행되는 학습 작업이 토큰을 검색하는 데 필요한 Compute Engine 메타데이터 서비스에 도달할 수 없습니다.
다음과 비슷한 오류가 표시됩니다.
Failed to refresh jwt, retry number 0: ("Failed to retrieve http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/identity?audience=...&format=full
from the Google Compute Engine Metadata service. Status: 404 Response:
\nb'Not Found\n'", <google.auth.transport.requests._Response object at
0x7fb19f058c50>)
해결책
커스텀 서비스 계정으로 ID 토큰을 가져오려면 iamcredentials.googleapis.com을 사용해야 합니다.
커스텀 학습 모델
이 섹션에서는 커스텀 학습 모델에 문제가 발생할 경우 도움이 될 수 있는 문제 해결 단계를 설명합니다.
커스텀 학습 문제
커스텀 학습 중에 다음 문제가 발생할 수 있습니다. 이 문제는 CustomJob
및 HyperparameterTuningJob
리소스(TrainingPipeline
리소스에서 생성된 리소스 포함)에 적용됩니다.
오류 코드: 400
문제
다음 오류가 발생합니다.
400 Machine type MACHINE_TYPE is not supported.
선택한 머신 유형이 Vertex AI 학습에 지원되지 않거나 선택한 리전에서 특정 리소스를 사용할 수 없으면 이 오류 메시지가 표시될 수 있습니다.
해결책
적절한 리전에서 사용 가능한 머신 유형만 사용합니다.
복제본이 0이 아닌 상태 코드로 종료됨
문제
분산 학습 중 어떠한 작업자에서든 오류 하나가 발생하면 학습이 실패합니다.
해결책
작업자의 스택 트레이스를 확인하려면 Google Cloud 콘솔에서 커스텀 학습 로그를 확인하세요.
다른 문제 해결 주제를 확인하여 일반적인 오류를 수정한 후 새로운 CustomJob
, HyperparameterTuningJob
또는 TrainingPipeline
리소스를 생성합니다. 대부분의 경우 오류 코드는 Vertex AI 서비스가 아닌 학습 코드의 문제로 인해 발생합니다. 이 경우에 해당하는지 여부를 확인하려면 로컬 머신이나 Compute Engine에서 학습 코드를 실행하면 됩니다.
복제본의 메모리 부족
문제
학습 중에 학습 가상 머신(VM) 인스턴스의 메모리가 부족한 경우 오류가 발생할 수 있습니다.
해결책
Google Cloud 콘솔에서 학습 VM의 메모리 사용량을 볼 수 있습니다.
이 오류가 발생하더라도 VM에서 실행되는 학습 애플리케이션 이외의 서비스가 리소스를 소비하기 때문에 VM에 메모리 사용량이 100% 표시되지 않을 수 있습니다. 메모리가 적은 머신 유형의 경우 다른 서비스에서 상대적으로 많은 양의 메모리를 소비할 가능성이 있습니다.
예를 들어 n1-standard-4
VM에서 서비스는 메모리를 최대 40%까지 소비할 수 있습니다.
학습 애플리케이션의 메모리 소비를 최적화하거나 더 큰 메모리의 머신 유형을 선택하세요.
리전의 리소스 부족
문제
리전에서 리소스 부족 문제가 발생합니다.
해결책
Vertex AI는 Compute Engine 리소스를 사용하여 모델을 학습시킵니다. Compute Engine이 리전 내 특정 CPU 또는 GPU의 용량에 도달한 경우 Vertex AI는 워크로드를 예약할 수 없습니다. 이 문제는 프로젝트 할당량과 관련이 없습니다.
Compute Engine 용량에 도달하면, Vertex AI가 CustomJob
또는 HyperparameterTuningJob
을 최대 세 번 자동으로 재시도합니다. 모든 재시도가 실패하면 작업이 실패합니다.
재고 부족은 일반적으로 GPU를 사용할 때 발생합니다. GPU를 사용할 때 이 오류가 발생하면 다른 GPU 유형으로 변경해 보세요. 다른 리전을 사용할 수 있는 경우에는 다른 리전에서 학습을 시도해 보세요.
다른 Google Cloud 서비스에 액세스할 때 권한 오류 발생
학습 코드(예: google.api_core.exceptions.PermissionDenied: 403
)에서 다른 Google Cloud 서비스에 액세스할 때 권한 오류가 발생하면 다음 문제 중 하나가 발생할 수 있습니다.
-
문제
코드를 실행하는 서비스 에이전트 또는 서비스 계정(프로젝트의 Vertex AI 커스텀 코드 서비스 에이전트 또는 커스텀 서비스 계정)에 필요한 권한이 없습니다.
해결책
Vertex AI 커스텀 코드 서비스 에이전트 권한을 부여하거나 필요한 권한이 있는 커스텀 서비스 계정을 구성하는 방법을 알아봅니다.
-
문제
코드를 실행하는 서비스 에이전트 또는 서비스 계정에 필요한 권한이 있지만 코드가 잘못된 프로젝트의 리소스에 액세스하려고 시도합니다. 이것은 오류 메시지가
-tp
로 끝나는 프로젝트 ID를 참조하는 경우 특히 문제가 될 수 있습니다.해결책
Vertex AI가 학습 코드를 실행하는 방식으로 인해 코드에서 프로젝트 ID 또는 프로젝트 번호를 명시적으로 지정하지 않으면 의도치 않게 이 문제가 발생할 수 있습니다.
프로젝트 ID 또는 프로젝트 번호를 지정하여 이 문제를 해결하는 방법을 알아보세요.
내부 오류
문제
시스템 오류로 인해 학습이 실패했습니다.
해결책
이 문제는 일시적일 수 있으니 CustomJob
, HyperparameterTuningJob
또는 TrainingPipeline
을 다시 제출해 보세요. 오류가 계속되면 지원팀에 문의하세요.
고객 컨테이너 이미지를 사용할 때 오류 코드 500 발생
문제
로그에 500 오류가 표시됩니다.
해결책
이러한 유형의 오류는 Vertex AI 오류가 아니라 커스텀 컨테이너 이미지의 문제일 수 있습니다.
엔드포인트에 배포할 때 서비스 계정에서 Cloud Storage 버킷에 액세스할 수 없음
문제
엔드포인트에 모델을 배포하려고 시도할 때 서비스 계정에 연관된 Cloud Storage 버킷에 대한 storage.objects.list
액세스 권한이 없으면 다음 오류가 표시될 수 있습니다.
custom-online-prediction@TENANT_PROJECT_ID.iam.gserviceaccount.com
does not have storage.objects.list access to the Cloud Storage bucket.
기본적으로 모델을 배포하는 커스텀 컨테이너는 Cloud Storage 버킷에 대해 액세스 권한이 없는 서비스 계정을 사용합니다.
해결책
이 문제를 해결하려면 다음 중 하나를 시도해 보세요.
모델을 업로드할 때 컨테이너에서 액세스하려고 하는 파일을 모델 아티팩트에 복사합니다. Vertex AI는 다른 모든 모델 아티팩트와 마찬가지로 기본 서비스 계정에서 액세스할 수 있는 위치에 복사합니다.
컨테이너 빌드 프로세스의 일부로 파일을 컨테이너에 복사합니다.
커스텀 서비스 계정을 지정합니다.
신경망 아키텍처 검색
알려진 문제
- NAS 작업을 취소하면 기본 작업(상위)이 중지되지만 일부 하위 시도는 계속 실행 중 상태로 표시됩니다. 이 경우 실행 중으로 표시되는 하위 시도 상태를 무시합니다. 시도가 중지되었지만 UI에 실행 중 상태가 계속 표시됩니다. 기본 작업이 중지되는 한 추가 요금은 청구되지 않습니다.
- 트레이너에서 보상을 보고한 후에는 시도 작업이 종료되기 전 10분 동안 기다려야(대기) 합니다.
Cloud Shell을 사용하여
TensorBoard
를 실행하면 생성된 출력 링크가 작동하지 않을 수 있습니다. 이 경우 포트 번호를 기록하고 웹 미리보기 도구를 사용하여 플롯을 표시할 올바른 포트 번호를 선택합니다.Web Preview
도구에 액세스:트레이너 로그에 다음과 같은 오류 메시지가 표시되는 경우:
gcsfuse errors: fuse: writeMessage: no such file or directory [16 0 0 0 218 255 255 255 242 25 111 1 0 0 0 0]
OOM 조건으로 인해 이 오류가 발생하기 때문에 RAM이 더 많은 머신을 사용합니다.
커스텀 트레이너에서 작업 디렉터리
job-dir
플래그를 찾을 수 없으면 하이픈 대신 밑줄이 있는job_dir
를 가져옵니다. 튜토리얼-1의 메모에 이 내용이 설명되어 있습니다.학습 중에 발생한 NAN 오류: 학습 작업에
NaN : Tensor had NaN values
와 같은 NaN 오류가 발생할 수 있습니다. 학습률이 제안된 아키텍처에 비해 너무 클 수 있습니다. 자세한 내용은 메모리 부족(OOM) 및 학습률 관련 오류를 참조하세요.학습 중에 OOM 오류 발생: 학습 작업에 OOM(메모리 부족) 오류가 발생할 수 있습니다. 배치 크기가 가속기 메모리에 비해 너무 클 수 있습니다. 자세한 내용은 메모리 부족(OOM) 및 학습률 관련 오류를 참조하세요.
프록시 태스크 모델 선택 컨트롤러 작업 종료: 드물지만 프록시 태스크 모델 선택 컨트롤러 작업이 종료되면 다음 단계에 따라 작업을 재개할 수 있습니다.
프록시 태스크 검색 컨트롤러 작업 종료: 드물지만 프록시 태스크 검색 컨트롤러 작업이 종료되면 다음 단계에 따라 작업을 재개할 수 있습니다.
서비스 계정에 Artifact Registry 또는 버킷에 액세스할 수 있는 권한이 없습니다.
Vertex AI Service Agent service-123456789@gcp-sa-aiplatform-cc.iam.gserviceaccount.com does not have permission to access Artifact Registry repository projects/my-project/locations/my-region/repositories/nas
와 같은 오류나 버킷 액세스에 대한 유사한 오류가 발생하면 프로젝트의 스토리지 편집자 역할을 이 서비스 계정에 부여합니다.
Vertex AI Feature Store
이 섹션에서는 Vertex AI Feature Store에 문제가 발생할 경우 도움이 될 수 있는 문제 해결 단계를 설명합니다.
스트리밍 수집 또는 온라인 서빙 요청을 보낼 때 Resource not found
오류 발생
문제
피처저장소, 항목 유형 또는 특성 리소스를 설정한 후에는 해당 리소스가 FeaturestoreOnlineServingService
서비스에 전파되기 전에 지연이 발생합니다. 경우에 따라 리소스 생성 직후 스트리밍 수집 또는 온라인 서빙 요청을 제출할 때 전파 지연으로 인해 resource not found
오류가 발생할 수 있습니다.
해결책
이 오류가 발생하면 몇 분 정도 기다린 후 다시 요청을 시도하세요.
새로 생성된 특성에 대해 배치 수집이 성공했지만 온라인 서빙 요청이 빈 값을 반환함
문제
새로 생성된 특성만 FeaturestoreOnlineServingService
서비스로 전파되기 전에 지연이 발생합니다. 특성 및 값이 있지만 전파되려면 시간이 걸립니다. 이로 인해 온라인 서빙 요청이 빈 값을 반환할 수 있습니다.
해결책
이 불일치가 발생하면 몇 분 정도 기다린 후 온라인 서빙 요청을 다시 시도하세요.
온라인 서빙 노드의 CPU 사용률이 높음
문제
온라인 서빙 노드의 CPU 사용률이 높습니다.
해결책
이 문제를 완화하려면 노드 수를 수동으로 늘리거나 자동 확장을 사용 설정하여 온라인 서빙 노드 수를 늘리면 됩니다. 자동 확장을 사용 설정해도 노드가 추가되거나 삭제될 때 Vertex AI Feature Store에 데이터를 재조정할 수 있는 시간이 필요합니다. 시간 경과에 따른 특성 값 분포 측정항목을 보는 방법은 특성 값 측정항목 보기를 참조하세요.
사용량이 가장 많은 온라인 서빙 노드의 CPU 사용률이 높음
문제
사용량이 가장 많은 노드의 CPU 사용률이 높으면 서빙 노드 수를 늘리거나 항목 액세스 패턴을 의사 랜덤으로 변경할 수 있습니다.
해결책
항목 액세스 패턴을 의사 랜덤으로 설정하면 피처스토어에서 서로 가까운 위치에 있는 항목에 자주 액세스하므로 높은 CPU 사용률이 줄어듭니다. 두 솔루션 모두 효과가 없으면 동일한 항목에 반복적으로 액세스하지 않도록 클라이언트 측 캐시를 구현합니다.
QPS가 낮으면 온라인 서빙 지연 시간이 높음
문제
비활성 상태이거나 QPS가 낮은 기간에 일부 서버 측 캐시가 만료될 수 있습니다. 이로 인해 온라인 서빙 노드에 대한 트래픽이 정기적으로 또는 더 높은 QPS로 재개될 때 지연 시간이 길어질 수 있습니다.
해결책
이 문제를 완화하려면 최소 5QPS의 인위적인 트래픽을 피처스토어에 전송하여 연결을 활성 상태로 유지해야 합니다.
6시간 후 일괄 수집 작업 실패
문제
읽기 세션이 6시간 후에 만료되므로 일괄 수집 작업이 실패할 수 있습니다.
해결책
제한 시간을 방지하려면 6시간 제한 내에 수집 작업을 완료할 작업자 수를 늘립니다.
특성 값을 내보낼 때 Resource exceeded
오류
문제
내보내기 작업이 내부 할당량을 초과하면 대용량 데이터 내보내기가 리소스 초과 오류가 발생하면서 실패할 수 있습니다.
해결책
이 오류를 방지하려면 기간 매개변수 start_time
및 end_time
을 구성하여 한 번에 소량의 데이터를 처리하면 됩니다. 전체 내보내기에 대한 자세한 내용은 전체 내보내기를 참조하세요.
Vertex AI Vizier
Vertex AI Vizier를 사용할 경우 다음과 같은 문제가 발생할 수 있습니다.
내부 오류
문제
내부 오류는 시스템 오류가 있으면 발생합니다.
해결책
일시적일 수 있습니다. 요청을 다시 전송해 보세요. 그래도 오류가 계속되면 지원팀에 문의하세요.