En esta página, se describen los pasos para solucionar problemas que pueden servirte si tienes dificultades cuando usas Vertex AI.
Los pasos para solucionar problemas de algunos componentes de Vertex AI se enumeran por separado. Consulta lo siguiente:
Para filtrar el contenido de esta página, haz clic en un tema:
Modelos AutoML
En esta sección, se describen los pasos para solucionar problemas, que pueden resultarte útiles si tienes problemas con AutoML.
Etiquetas faltantes en el conjunto de prueba, validación o entrenamiento
Problema
Si usas la división de datos predeterminada cuando entrenas un modelo de clasificación de AutoML, es posible que Vertex AI asigne muy pocas instancias de una clase a un conjunto específico (de prueba, validación o entrenamiento), lo que provoca un error durante el entrenamiento. Este problema ocurre con más frecuencia cuando tienes clases desequilibradas o una pequeña cantidad de datos de entrenamiento.
Solución
Para resolver este problema, agrega más datos de entrenamiento, divide tus datos de forma manual para asignar suficientes clases a cada conjunto o quita las etiquetas que aparecen con menos frecuencia de tu conjunto de datos. Para obtener más información, consulta Acerca de las divisiones de datos para los modelos de AutoML.
Vertex AI Studio
Cuando trabajes con Vertex AI Studio, es posible que recibas los siguientes errores:
Si intentas ajustar un modelo, se muestra Internal error encountered
.
Internal error encountered
.Problema
Encuentras un error Internal error encountered
cuando intentas ajustar un modelo.
Solución
Ejecuta el siguiente comando de curl para crear un conjunto de datos vacío de Vertex AI. Asegúrate de configurar el ID del proyecto en el comando.
PROJECT_ID=PROJECT_ID
curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://europe-west4-aiplatform.googleapis.com/ui/projects/$PROJECT_ID/locations/europe-west4/datasets \
-d '{
"display_name": "test-name1",
"metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml",
"saved_queries": [{"display_name": "saved_query_name", "problem_type": "IMAGE_CLASSIFICATION_MULTI_LABEL"}]
}'
Una vez que se complete el comando, espera cinco minutos y vuelve a ajustar el modelo.
Código de error: 429
Problema
Se mostrará el siguiente error:
429: The online prediction request quota is exceeded forPUBLIC_BASE_MODEL_NAME .
Solución
Vuelve a intentarlo más tarde con la retirada. Si los errores persisten, comunícate con la asistencia de Vertex AI.
Código de error: 410
Problema
Se mostrará el siguiente error:
410: The request is missing the required authentication credential. Expected OAuth 2.0 access token, login cookie, or other valid authentication credential.
Solución
Consulta la Descripción general de la autenticación para obtener más información.
Código de error: 403
Problema
Se mostrará el siguiente error:
403: Permission denied.
Solución
Asegúrate de que la cuenta que accede a la API tenga los permisos adecuados.
Vertex AI Pipelines
En esta sección, se describen los pasos para solucionar problemas, que pueden servirte si tienes dificultades con Vertex AI Pipelines.
No tienes permiso para actuar como cuenta de servicio
Problema
Cuando ejecutas el flujo de trabajo de Vertex AI Pipelines, es posible que encuentres el siguiente mensaje de error:
You do not have permission to act as service account: SERVICE_ACCOUNT . (or it may not exist).
Solución
Este error significa que la cuenta de servicio que ejecuta tu flujo de trabajo no tiene acceso a los recursos que necesita usar.
Para solucionar este problema, realiza una de las siguientes acciones:
- Agrega el rol
Vertex AI Service Agent
a la cuenta de servicio: - Otorga al usuario el permiso
iam.serviceAccounts.actAs
en la cuenta de servicio.
Error Internal error happened
Problema
Si tu canalización falla con un mensaje Internal error happened
, verifica el Explorador de registros y busca el nombre de la canalización. Deberías ver un error como el siguiente:
java.lang.IllegalStateException: Failed to validate vpc network projects/PROJECT_ID /global/networks/VPC_NETWORK .APPLICATION_ERROR;google.cloud.servicenetworking.v1/ServicePeeringManagerV1.GetConsumerConfig;Reserved range: ' RANGE_NAME ' not found for consumer project: 'PROJECT_ID ' network: 'VPC_NETWORK '. com.google.api.tenant.error.TenantManagerException: Reserved range: 'RANGE_NAME ' not found for consumer project
Esto significa que el intercambio de tráfico de VPC para Vertex AI incluye un rango de IP que se borró.
Solución
Para resolver este problema, actualiza el intercambio de tráfico de VPC con el comando de actualización y, luego, incluye rangos de IP válidos.
Se proporcionó un permiso de OAuth o un público del token de ID no válido
Problema
Cuando ejecutas el flujo de trabajo de Vertex AI Pipelines, encuentras el siguiente mensaje de error:
google.auth.exceptions.RefreshError: ('invalid_scope: Invalid OAuth scope
or ID token audience provided.', {'error': 'invalid_scope',
'error_description': 'Invalid OAuth scope or ID token audience provided.'})
Solución
Esto significa que no proporcionaste credenciales en uno de los componentes de la canalización o no usaste ai_platform.init()
para configurar las credenciales.
A fin de resolver este problema, establece las credenciales para el componente de canalización relevante o configura las credenciales del entorno y usa ai_platform.init()
al comienzo de tu código.
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] =PATH_TO_JSON_KEY
Los componentes de Vertex AI Pipelines requieren más espacio en el disco que 100 GB
Problema
El espacio en el disco predeterminado asignado a los componentes de Vertex AI Pipelines es de 100 GB y no se admite el aumento del espacio en el disco. Consulta la Herramienta de seguimiento de errores pública para este problema.
Solución
Para que un componente use más de 100 GB de espacio en el disco, convierte el componente en un trabajo personalizado mediante el método de componentes. Con este operador, puedes asignar el tipo de máquina y el tamaño del disco que usa el componente.
Para ver un ejemplo de cómo usar este operador, consulta Vertex AI Pipelines: entrenamiento personalizado con componentes de canalización de Google Cloud Google Cloud compilados previamente, en la sección Convierte el componente a un trabajo personalizado de Vertex AI.
Problemas de red de Vertex AI
En esta sección, se describen los pasos para solucionar problemas, que pueden resultarte útiles si tienes problemas con las herramientas de redes de Vertex AI.
gcloud services vpc-peerings get-vpc-service-controls \
--network YOUR_NETWORK
Las cargas de trabajo no pueden acceder a los extremos de tu red de VPC cuando se usan rangos de IP públicas de uso privado para Vertex AI.
Problema
Los rangos de IP públicas de uso privado no se importan de forma predeterminada.
Solución
Para usar rangos de direcciones IP públicas de uso privado, debes habilitar la importación de rangos de direcciones IP públicas de uso privado.
com.google.api.tenant.error.TenantManagerException: Reserved range: xxx not found for consumer project
Problema
Recibes errores del formulario com.google.api.tenant.error.TenantManagerException:
Reserved range: xxx not found for consumer project
cuando ejecutas cargas de trabajo o
implementas extremos.
Esto ocurre cuando cambias las reservas de acceso a servicios privados para tus cargas de trabajo. Es posible que los rangos borrados no se hayan registrado con la API de Vertex AI.
Solución
Ejecuta gcloud services vpc-peerings update
para servicenetworking
después de actualizar las asignaciones de acceso a servicios privados.
La canalización o el trabajo no pueden acceder a los extremos dentro de tu red de VPC con intercambio de tráfico
Problema
Se agota el tiempo de espera de la canalización de Vertex AI cuando intenta conectarse a recursos de tu red de VPC.
Solución
Intenta lo siguiente para resolver el problema:
- Asegúrate de que completaste todos los pasos en Configura el intercambio de tráfico entre redes de VPC.
Revisa la configuración de la red de VPC con intercambio de tráfico. Asegúrate de que tu red importe rutas desde el rango de herramientas de redes de servicio correcto mientras se ejecuta el trabajo.
Asegúrate de tener una regla de firewall que permita conexiones desde este rango al destino de tu red.
Si la conexión de intercambio de tráfico no importa ninguna ruta mientras se ejecuta el trabajo, esto significa que no se usa la configuración de herramientas de red de servicio. Es probable que esto se deba a que completaste la configuración del intercambio de tráfico con una red que no es la predeterminada. Si este es el caso, asegúrate de especificar tu red cuando inicies un trabajo. Usa el nombre de la red completamente calificado en el siguiente formato:
projects/$PROJECT_ID/global/networks/$NETWORK_NAME
.Para obtener más información, consulta Descripción general de las rutas.
La canalización o el trabajo no pueden acceder a los extremos en otras redes más allá de tu red
Problema
Tu canalización o trabajo no puede acceder a los extremos en redes más allá de tu red.
Solución
De forma predeterminada, la configuración de intercambio de tráfico solo exporta rutas a las subredes locales en tu VPC.
Además, no se admite el intercambio de tráfico transitivo y solo las redes con intercambio de tráfico directo pueden comunicarse.
- Para permitir que Vertex AI se conecte a través de tu red y llegue a extremos en otras redes, debes exportar las rutas de red a la conexión de intercambio de tráfico. Edita la configuración de tu red de VPC con intercambio de tráfico y habilita
Export custom routes
.
Ir a Intercambio de tráfico entre redes de VPC
Debido a que no se admite el intercambio de tráfico transitivo, Vertex AI no aprende rutas a otras redes y servicios con intercambio de tráfico, incluso con Export Custom Routes
habilitado. Para obtener información sobre las soluciones alternativas, consulta Extiende la accesibilidad de la red de Vertex AI Pipelines.
No route to host
sin conflictos de ruta evidentes en la consola de Google Cloud
Problema
Las únicas rutas que puedes ver en la consola de Google Cloud son las conocidas para tu VPC y los rangos reservados cuando completas la configuración de Intercambio de tráfico entre redes de VPC.
En ocasiones poco comunes, un trabajo de Vertex AI puede arrojar un reclamo no route to host
cuando se intenta acceder a una dirección IP que tu VPC exporta a la red de Vertex AI.
Esto puede deberse a que los trabajos de Vertex AI se ejecutan dentro de un espacio de nombres de herramientas de redes en un clúster de GKE administrado cuyo rango de IP entra en conflicto con la IP de destino. Consulta los Conceptos básicos de las herramientas de redes de GKE para obtener más información.
En estas condiciones, la carga de trabajo intenta conectarse a la IP dentro de su propio espacio de nombres de red y muestra el error si no puede acceder a ella.
Solución
Crea tu carga de trabajo para que muestre las direcciones IP de espacio de nombres local y confirma que esto no entre en conflicto con ninguna ruta que exportes a través de la conexión de intercambio de tráfico.
Si hay un conflicto, pasa una lista de reservedIpRanges[]
en los parámetros del trabajo que no se superpongan con ningún rango en tu red de VPC.
El trabajo usa estos rangos para las direcciones IP internas de la carga de trabajo.
RANGES_EXHAUSTED
, RANGES_NOT_RESERVED
Problema
Los errores de los formatos RANGES_EXHAUSTED
, RANGES_NOT_RESERVED
y RANGES_DELETED_LATER
indican un problema con la configuración subyacente del intercambio de tráfico entre redes de VPC. Estos son errores de red y no errores del servicio de Vertex AI.
Solución
Cuando te enfrentes a un error RANGES_EXHAUSTED
, primero debes considerar si esta queja es válida.
- Visita Network Analyzer en la consola de Cloud y busca estadísticas del formulario "Resumen de la asignación de direcciones IP" en la red de VPC. Si estos indican que la asignación está en el 100% o cerca de este, puedes agregar un nuevo rango a la reserva.
- También considera la cantidad máxima de trabajos en paralelo que se pueden ejecutar con una reserva de un tamaño determinado.
Para obtener más información, consulta Errores de validación de Service Infrastructure
Si el error persiste, comunícate con el equipo de asistencia.
Router status is temporarily unavailable
Problema
Cuando inicias Vertex AI Pipelines, recibes un mensaje de error similar al siguiente:
Router status is temporarily unavailable. Please try again later
Solución
El mensaje de error indica que esta es una condición temporal. Vuelve a iniciar Vertex AI Pipelines.
Si el error persiste, comunícate con el equipo de asistencia.
Predicción de Vertex AI
En esta sección, se describen los pasos para solucionar problemas, que pueden servirte si tienes dificultades con la predicción de Vertex AI.
Error de reintentos excedidos
Problema
Obtienes un error como el siguiente cuando ejecutas trabajos de predicción por lotes, que indica que es posible que la máquina que ejecuta el modelo personalizado no pueda completar las predicciones dentro del límite de tiempo.
('Post request fails. Cannot get predictions. Error: Exceeded retries: Non-OK
result 504 (upstream request timeout) from server, retry=3, elapsed=600.04s.', 16)
Esto puede ocurrir cuando el servicio de predicción de Vertex AI se registra con el servicio de Google Front End, que establece conexiones de proxy del cliente a la API de Vertex AI Prediction.
El servicio de Google Front End agota el tiempo de espera de la conexión y muestra un código de respuesta HTTP 500 al cliente si no recibe una respuesta de la API en un plazo de 10 minutos.
Solución
Para resolver este problema, prueba una de las siguientes opciones:
- Aumenta los nodos de procesamiento o cambia el tipo de máquina.
- Crea tu contenedor de predicción para enviar códigos de respuesta HTTP 102 periódicos. Esto restablecerá el temporizador de 10 minutos en el servicio de Google Front End.
Proyecto ya vinculado a la VPC
Problema
Cuando implementes un extremo, es posible que veas un mensaje de error como el siguiente, que indica que tus extremos de Vertex AI usaron antes una red de nube privada virtual y que los recursos no se limpiaron de forma adecuada.
Currently only one VPC network per user project is supported. Your project is
already linked to "projects/YOUR_SHARED_VPC_HOST_PROJECT /global/networks/YOUR_SHARED_VPC_NETWORK ".
To change the VPC network, please undeploy all Vertex AI deployment resources,
delete all endpoint resources, and then retry creating resources in 30 mins.
Solución
Para resolver este problema, intenta ejecutar este comando en Cloud Shell.
gcloud services vpc-peerings delete \
--service=servicenetworking.googleapis.com \
--network=YOUR_SHARED_VPC_NETWORK \
--project=YOUR_SHARED_VPC_HOST_PROJECT
Esto desconecta de forma manual tu red de VPC anterior de la VPC de Service Networking.
Falla de implementación o eliminación de extremos inesperada
Problema
Una implementación de modelo falla de forma inesperada, se detecta que se borró un extremo o se desimplementó un modelo implementado anteriormente.
Es posible que tu cuenta de facturación no sea válida. Si permanece no válida durante mucho tiempo, es posible que se quiten algunos recursos de los proyectos asociados a tu cuenta. Por ejemplo, es posible que se borren tus extremos y modelos. No es posible recuperar los recursos quitados.
Solución
Para resolver este problema, puedes intentar lo siguiente:
- Verifica el estado de facturación de tus proyectos.
- Comunícate con el equipo de asistencia de Facturación de Cloud para solicitar ayuda con las preguntas sobre facturación.
Para obtener más información, consulta Preguntas sobre facturación.
Problemas de cuentas de servicio personalizadas de Vertex AI
En esta sección, se describen los pasos de solución de problemas, que pueden resultarte útiles si tienes problemas con las cuentas de servicio.
La implementación del modelo falla con el error serviceAccountAdmin
de la cuenta de servicio
Problema
La implementación de tu modelo falla con un error como el siguiente:
Failed to deploy model MODEL_NAME to
endpoint ENDPOINT_NAME due to the error: Failed to add IAM policy binding.
Please grant SERVICE_ACC_NAME@gcp-sa-aiplatform.iam.gserviceaccount.com the
iam.serviceAccountAdmin role on service account
vertex-prediction-role@PROJECT_INFO.iam.gserviceaccount.com
Solución
Este error significa que es posible que tu cuenta de servicio personalizada no se haya configurado de forma correcta. Para crear una cuenta de servicio personalizada con los permisos de IAM correctos, consulta Usa una cuenta de servicio personalizada.
No se puede recuperar el token de identidad cuando se usa la cuenta de servicio personalizada
Problema
Cuando se usa una cuenta de servicio personalizada, los trabajos de entrenamiento que se ejecutan en una sola réplica no pueden acceder al servicio de metadatos de Compute Engine necesario para recuperar un token.
Verás un error similar a este:
Failed to refresh jwt, retry number 0: ("Failed to retrieve http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/identity?audience=...&format=full
from the Google Compute Engine Metadata service. Status: 404 Response:
\nb'Not Found\n'", <google.auth.transport.requests._Response object at
0x7fb19f058c50>)
Solución
Para recuperar el token de identidad con una cuenta de servicio personalizada, debes usar iamcredentials.googleapis.com.
Modelos entrenados de forma personalizada
En esta sección, se describen los pasos de solución de problemas, que pueden resultarte útiles si tienes problemas para usar modelos personalizados.
Problemas del entrenamiento personalizado
Los siguientes problemas pueden ocurrir durante el entrenamiento personalizado. Estos problemas afectan a los recursos CustomJob
, HyperparameterTuningJob
y a los que crean los recursos TrainingPipeline
.
Código de error: 400
Problema
Se mostrará el siguiente error:
400 Machine type MACHINE_TYPE is not supported.
Es posible que veas este mensaje de error si el tipo de máquina seleccionado no es compatible con el entrenamiento de Vertex AI o si un recurso específico no está disponible en la región seleccionada.
Solución
Usa solo los tipos de máquinas disponibles en las regiones adecuadas.
La réplica salió con un código de estado distinto de cero
Problema
Durante el entrenamiento distribuido, un error de cualquier trabajador hace que el entrenamiento falle.
Solución
Para verificar el seguimiento de pila del trabajador, consulta tus registros de entrenamiento personalizados en la consola de Google Cloud.
Consulta los otros temas de solución de problemas para solucionar errores comunes y, luego, crea un recurso CustomJob
, HyperparameterTuningJob
o TrainingPipeline
nuevo. En muchos casos, los códigos de error se producen por problemas en el código de entrenamiento, no por el servicio de Vertex AI. Para determinar si este es el caso, puedes ejecutar tu código de entrenamiento en tu máquina local o en Compute Engine.
La réplica se quedó sin memoria
Problema
Puede ocurrir un error si una instancia de máquina virtual (VM) de entrenamiento se queda sin memoria durante el entrenamiento.
Solución
Puedes ver el uso de memoria de las VMs de entrenamiento en la consola de Google Cloud.
Incluso cuando recibes este error, es posible que no veas un uso de memoria del 100% en la VM, ya que los servicios que no correspondan a la aplicación de entrenamiento que se ejecutan en la VM también consumen recursos. En el caso de los tipos de máquinas que tienen menos memoria, otros servicios pueden consumir un porcentaje de memoria relativamente grande.
Por ejemplo, en una VM n1-standard-4
, los servicios pueden consumir hasta el 40% de la memoria.
Puedes optimizar el consumo de memoria de tu aplicación de entrenamiento o puedes elegir un tipo de máquina más grande con más memoria.
Recursos insuficientes en una región
Problema
Tienes un problema de agotamiento de stock en una región.
Solución
Vertex AI entrena tus modelos con recursos de Compute Engine. Vertex AI no puede programar tu carga de trabajo si Compute Engine tiene capacidad para una CPU o GPU determinada en una región. Este problema no está relacionado con la cuota de tu proyecto.
Cuando alcanzas la capacidad de Compute Engine, Vertex AI reintenta automáticamente CustomJob
o HyperparameterTuningJob
hasta tres veces. El trabajo falla si fallan todos los reintentos.
Por lo general, un agotamiento de stock ocurre cuando usas GPU. Si encuentras este error cuando usas GPU, intenta cambiar a un tipo de GPU diferente. Si puedes usar otra región, intenta entrenar en una región diferente.
Error de permiso cuando se accede a otro servicio de Google Cloud
Si encuentras un error de permisos cuando accedes a otro servicio de Google Clouddesde el código de entrenamiento (por ejemplo, google.api_core.exceptions.PermissionDenied: 403
), es posible que tengas uno de los siguientes problemas:
-
Problema
El agente de servicio o la cuenta de servicio que ejecuta tu código (ya sea el agente de servicio de Vertex AI para tu proyecto o una cuenta de servicio personalizada) no tiene el permiso requerido.
Solución
Obtén más información sobre cómo otorgar los permisos de agente de servicio de código personalizado de Vertex AI o configurar una cuenta de servicio personalizada con los permisos necesarios.
-
Problema
El agente de servicio o la cuenta de servicio que ejecuta tu código sí tiene el permiso requerido, pero tu código intenta acceder a un recurso en el proyecto incorrecto. Es muy probable que este sea el problema si el mensaje de error hace referencia a un ID de proyecto que termina en
-tp
.Solución
Debido a la forma en que Vertex AI ejecuta tu código de entrenamiento, este problema puede ocurrir inadvertidamente si no especificas explícitamente un número o ID del proyecto en tu código.
Para obtener información sobre cómo solucionar este problema, especifica un número o ID del proyecto.
Error interno
Problema
Tu entrenamiento falló debido a un error del sistema.
Solución
El problema puede ser transitorio. Vuelve a enviar CustomJob
, HyperparameterTuningJob
o TrainingPipeline
. Si el error persiste, comunícate con el equipo de asistencia.
Código de error 500 cuando se usa una imagen de contenedor de cliente
Problema
Verás un error 500 en tus registros.
Solución
Es probable que este tipo de error sea un problema con tu imagen de contenedor personalizada y no un error de Vertex AI.
La cuenta de servicio no puede acceder al bucket de Cloud Storage cuando se implementa en un extremo
Problema
Cuando intentas implementar un modelo en un extremo y tu cuenta de servicio no tiene acceso storage.objects.list
al bucket de Cloud Storage relacionado, es posible que veas el siguiente error:
custom-online-prediction@TENANT_PROJECT_ID .iam.gserviceaccount.com
does not have storage.objects.list access to the Cloud Storage bucket.
De forma predeterminada, el contenedor personalizado que implementa tu modelo usa una cuenta de servicio que no tiene acceso a tu bucket de Cloud Storage.
Solución
Para resolver esto, realiza una de las siguientes acciones:
Copia el archivo al que intentas acceder desde el contenedor en artefactos del modelo cuando subas el modelo. Vertex AI lo copiará en una ubicación a la que tenga acceso la cuenta de servicio predeterminada, similar a todos los otros artefactos del modelo.
Copia el archivo en el contenedor como parte del proceso de compilación del contenedor.
Especifica una cuenta de servicio personalizada.
Búsqueda de arquitectura neuronal
Problemas conocidos
- Después de cancelar el trabajo de NAS, el trabajo principal (el superior) se detiene, pero algunas de las pruebas secundarias continúan mostrando un estado En ejecución. Ignora el estado de prueba secundaria que muestra En ejecución en este caso. Las pruebas se detuvieron, pero la IU continúa mostrando el estado En ejecución. Siempre que el trabajo principal se haya detenido, no se te cobrará más.
- Después de informar las recompensas en el entrenador, espera (suspende) 10 minutos antes de que se cierren los trabajos de prueba.
Cuando usas Cloud Shell para ejecutar
TensorBoard
, es posible que el vínculo de salida generado no funcione. En este caso, escribe el número de puerto, usa la herramienta Vista previa en la Web y selecciona el número de puerto correcto para mostrar los trazados.Accede a la herramienta de
Web Preview
:Si ves mensajes de error como los siguientes en los registros del entrenador:
gcsfuse errors: fuse: writeMessage: no such file or directory [16 0 0 0 218 255 255 255 242 25 111 1 0 0 0 0]
Usa una máquina con más RAM, ya que una condición de OOM causa este error.
Si tu entrenador personalizado no puede encontrar la marca
job-dir
del directorio de trabajo, importajob_dir
con un guion bajo en lugar de un guion. Esto se explica en tutorial-1.Error NAN durante el entrenamiento Es posible que haya errores de NaN en el trabajo de entrenamiento como
NaN : Tensor had NaN values
. La tasa de aprendizaje podría ser demasiado grande para la arquitectura sugerida. Para obtener más información, consulta Errores de memoria insuficiente (OOM) y tasa de aprendizaje.Error de OOM durante el entrenamientoEs posible que haya errores de OOM (sin memoria) en el trabajo de entrenamiento. El tamaño del lote puede ser demasiado grande para la memoria del acelerador. Para obtener más información, consulta Errores de memoria insuficiente (OOM) y tasa de aprendizaje.
El trabajo de controlador del selector de tareas de proxy se cierra En el caso poco frecuente de que el trabajo de controlador de selección de modelo de tarea de proxy se cierre, puedes reanudar el trabajo si sigues estos pasosestos pasos.
El trabajo de controlador de búsqueda de tarea de proxy se cierra En el caso poco frecuente de que el trabajo de controlador de búsqueda de tarea de proxy se cierre, puedes reanudar el trabajo si sigues estos pasos.
La cuenta de servicio no tiene permiso para acceder a Artifact Registry o bucket. Si obtienes un error como
Vertex AI Service Agent service-123456789@gcp-sa-aiplatform-cc.iam.gserviceaccount.com does not have permission to access Artifact Registry repository projects/my-project/locations/my-region/repositories/nas
o un error similar para el acceso al bucket, asigna a esta cuenta de servicio un rol de editor de almacenamiento en tu proyecto.
Vertex AI Feature Store
En esta sección, se describen los pasos para solucionar problemas que pueden resultarte útiles si tienes problemas con Vertex AI Feature Store.
Error Resource not found
cuando se envía una transferencia de transmisión o una solicitud de entrega en línea
Problema
Después de configurar un almacén de funciones, un tipo de entidad o recursos de funciones, hay una demora
antes de que esos recursos se propaguen al
servicio FeaturestoreOnlineServingService
. En ocasiones, esta propagación retrasada
puede generar un error resource not found
cuando envías una transferencia de transmisión
o una solicitud de entrega en línea inmediatamente después de crear un recurso.
Solución
Si recibes este error, espera unos minutos y vuelve a intentar la solicitud.
La transferencia por lotes se realizó correctamente para los atributos recién creados, pero la solicitud de entrega en línea muestra valores vacíos
Problema
Solo para los atributos recién creados, hay un retraso antes de que se
propaguen al servicio FeaturestoreOnlineServingService
. Los atributos y
valores existen, pero tardan en propagarse. Esto puede provocar que la solicitud de entrega en línea muestre valores vacíos.
Solución
Si ves esta inconsistencia, espera unos minutos y vuelve a intentar la solicitud de entrega en línea.
El uso de CPU es alto para un nodo de entrega en línea
Problema
El uso de CPU para un nodo de entrega en línea es alto.
Solución
Para mitigar este problema, puedes aumentar la cantidad de nodos de entrega en línea aumentando de forma manual el recuento de nodos o habilitando el ajuste de escala automático. Ten en cuenta que, incluso si el ajuste de escala automático está habilitado, Vertex AI Feature Store necesita tiempo para volver a balancear los datos cuando se agregan o quitan nodos. Para obtener información sobre cómo ver las métricas de distribución del valor de los atributos a lo largo del tiempo, consulta Visualiza métricas de valores de atributos.
El uso de CPU es alto para el nodo de entrega en línea más activo
Problema
Si el uso de CPU es alto para el nodo más activo, puedes aumentar la cantidad de nodos de entrega o cambiar el patrón de acceso a la entidad a seudoaleatorio.
Solución
Configurar el patrón de acceso a entidades como seudoaleatorio mitiga el alto uso de CPU que se genera a partir del acceso frecuente a entidades que están cerca otras en el almacén de atributos. Si ninguna de las soluciones es eficaz, implementa una caché del cliente para evitar acceder varias veces a las mismas entidades.
La latencia de la entrega en línea es alta cuando las QPS son bajas
Problema
El período de inactividad o actividad baja con una frecuencia de QPS baja puede provocar que venzan algunas memorias caché del servidor. Esto puede generar una latencia alta cuando el tráfico a los nodos de entrega en línea se reanuda con QPS normales o más altas.
Solución
Para mitigar este problema, debes mantener la conexión activa mediante el envío de tráfico artificial de al menos 5 QPS al almacén de atributos.
El trabajo de transferencia por lotes falla después de seis horas
Problema
El trabajo de transferencia por lotes puede fallar porque la sesión de lectura vence después de seis horas.
Solución
A fin de evitar el tiempo de espera, aumenta la cantidad de trabajadores para completar el trabajo de transferencia dentro del límite de tiempo de seis horas.
Error Resource exceeded
cuando se exportan valores de atributos
Problema
Exportar un gran volumen de datos puede fallar con un error de recurso excedido si el trabajo de exportación excede la cuota interna.
Solución
Para evitar este error, puedes configurar los parámetros de intervalo de tiempo, start_time
y end_time
, a fin de procesar cantidades más pequeñas de datos a la vez. Para obtener información sobre la exportación completa, consulta Exportación completa.
Vertex AI Vizier
Cuando uses Vertex AI Vizier, podrías experimentar los siguientes problemas.
Error interno
Problema
El error interno ocurre cuando hay un error del sistema.
Solución
Puede ser transitorio. Vuelve a enviar la solicitud y, si el error persiste, comunícate con el equipo de asistencia.