Solucionar problemas de Vertex AI

En esta página, se describen los pasos para solucionar problemas que pueden servirte si tienes dificultades cuando usas Vertex AI.

Los pasos para solucionar problemas de algunos componentes de Vertex AI se enumeran por separado. Consulta lo siguiente:

Para filtrar el contenido de esta página, haz clic en un tema:

En esta sección, se describen los pasos para solucionar problemas, que pueden resultarte útiles si tienes problemas con AutoML.

Etiquetas faltantes en el conjunto de prueba, validación o entrenamiento

Problema

Si usas la división de datos predeterminada cuando entrenas un modelo de clasificación de AutoML, es posible que Vertex AI asigne muy pocas instancias de una clase a un conjunto específico (de prueba, validación o entrenamiento), lo que provoca un error durante el entrenamiento. Este problema ocurre con más frecuencia cuando tienes clases desequilibradas o una pequeña cantidad de datos de entrenamiento.

Solución

Para resolver este problema, agrega más datos de entrenamiento, divide tus datos de forma manual para asignar suficientes clases a cada conjunto o quita las etiquetas que aparecen con menos frecuencia de tu conjunto de datos. Para obtener más información, consulta Acerca de las divisiones de datos para los modelos de AutoML.

Vertex AI Studio

Cuando trabajes con Vertex AI Studio, es posible que recibas los siguientes errores:

Si intentas ajustar un modelo, se muestra Internal error encountered.

Problema

Encuentras un error Internal error encountered cuando intentas ajustar un modelo.

Solución

Ejecuta el siguiente comando de curl para crear un conjunto de datos vacío de Vertex AI. Asegúrate de configurar el ID del proyecto en el comando.

PROJECT_ID=PROJECT_ID

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://europe-west4-aiplatform.googleapis.com/ui/projects/$PROJECT_ID/locations/europe-west4/datasets \
-d '{
    "display_name": "test-name1",
    "metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml",
    "saved_queries": [{"display_name": "saved_query_name", "problem_type": "IMAGE_CLASSIFICATION_MULTI_LABEL"}]
}'

Una vez que se complete el comando, espera cinco minutos y vuelve a ajustar el modelo.

Código de error: 429

Problema

Se mostrará el siguiente error:

429: The online prediction request quota is exceeded for
PUBLIC_BASE_MODEL_NAME.

Solución

Vuelve a intentarlo más tarde con la retirada. Si los errores persisten, comunícate con la asistencia de Vertex AI.

Código de error: 410

Problema

Se mostrará el siguiente error:

410: The request is missing the required authentication credential. Expected
OAuth 2.0 access token, login cookie, or other valid authentication credential.

Solución

Consulta la Descripción general de la autenticación para obtener más información.

Código de error: 403

Problema

Se mostrará el siguiente error:

403: Permission denied.

Solución

Asegúrate de que la cuenta que accede a la API tenga los permisos adecuados.

Vertex AI Pipelines

En esta sección, se describen los pasos para solucionar problemas, que pueden servirte si tienes dificultades con Vertex AI Pipelines.

No tienes permiso para actuar como cuenta de servicio

Problema

Cuando ejecutas el flujo de trabajo de Vertex AI Pipelines, es posible que encuentres el siguiente mensaje de error:

You do not have permission to act as service account: SERVICE_ACCOUNT. (or it may not exist).

Solución

Este error significa que la cuenta de servicio que ejecuta tu flujo de trabajo no tiene acceso a los recursos que necesita usar.

Para solucionar este problema, realiza una de las siguientes acciones:

  • Agrega el rol Vertex AI Service Agent a la cuenta de servicio:
  • Otorga al usuario el permiso iam.serviceAccounts.actAs en la cuenta de servicio.

Error Internal error happened

Problema

Si tu canalización falla con un mensaje Internal error happened, verifica el Explorador de registros y busca el nombre de la canalización. Deberías ver un error como el siguiente:

java.lang.IllegalStateException: Failed to validate vpc
network projects/PROJECT_ID/global/networks/VPC_NETWORK.

APPLICATION_ERROR;google.cloud.servicenetworking.v1/ServicePeeringManagerV1.GetConsumerConfig;Reserved
range: 'RANGE_NAME' not found for consumer project:
'PROJECT_ID' network: 'VPC_NETWORK'.
com.google.api.tenant.error.TenantManagerException: Reserved range:
'RANGE_NAME' not found for consumer project

Esto significa que el intercambio de tráfico de VPC para Vertex AI incluye un rango de IP que se borró.

Solución

Para resolver este problema, actualiza el intercambio de tráfico de VPC con el comando de actualización y, luego, incluye rangos de IP válidos.

Se proporcionó un permiso de OAuth o un público del token de ID no válido

Problema

Cuando ejecutas el flujo de trabajo de Vertex AI Pipelines, encuentras el siguiente mensaje de error:

google.auth.exceptions.RefreshError: ('invalid_scope: Invalid OAuth scope
or ID token audience provided.', {'error': 'invalid_scope',
'error_description': 'Invalid OAuth scope or ID token audience provided.'})

Solución

Esto significa que no proporcionaste credenciales en uno de los componentes de la canalización o no usaste ai_platform.init() para configurar las credenciales.

A fin de resolver este problema, establece las credenciales para el componente de canalización relevante o configura las credenciales del entorno y usa ai_platform.init() al comienzo de tu código.

os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = PATH_TO_JSON_KEY

Los componentes de Vertex AI Pipelines requieren más espacio en el disco que 100 GB

Problema

El espacio en el disco predeterminado asignado a los componentes de Vertex AI Pipelines es de 100 GB y no se admite el aumento del espacio en el disco. Consulta la Herramienta de seguimiento de errores pública para este problema.

Solución

Para que un componente use más de 100 GB de espacio en el disco, convierte el componente en un trabajo personalizado mediante el método de componentes. Con este operador, puedes asignar el tipo de máquina y el tamaño del disco que usa el componente.

Para ver un ejemplo de cómo usar este operador, consulta Vertex AI Pipelines: entrenamiento personalizado con componentes de canalización de Google Cloud Google Cloud compilados previamente, en la sección Convierte el componente a un trabajo personalizado de Vertex AI.

Problemas de red de Vertex AI

En esta sección, se describen los pasos para solucionar problemas, que pueden resultarte útiles si tienes problemas con las herramientas de redes de Vertex AI.

gcloud services vpc-peerings get-vpc-service-controls \
  --network YOUR_NETWORK

Las cargas de trabajo no pueden acceder a los extremos de tu red de VPC cuando se usan rangos de IP públicas de uso privado para Vertex AI.

Problema

Los rangos de IP públicas de uso privado no se importan de forma predeterminada.

Solución

Para usar rangos de direcciones IP públicas de uso privado, debes habilitar la importación de rangos de direcciones IP públicas de uso privado.

com.google.api.tenant.error.TenantManagerException: Reserved range: xxx not found for consumer project

Problema

Recibes errores del formulario com.google.api.tenant.error.TenantManagerException: Reserved range: xxx not found for consumer project cuando ejecutas cargas de trabajo o implementas extremos.

Esto ocurre cuando cambias las reservas de acceso a servicios privados para tus cargas de trabajo. Es posible que los rangos borrados no se hayan registrado con la API de Vertex AI.

Solución

Ejecuta gcloud services vpc-peerings update para servicenetworking después de actualizar las asignaciones de acceso a servicios privados.

La canalización o el trabajo no pueden acceder a los extremos dentro de tu red de VPC con intercambio de tráfico

Problema

Se agota el tiempo de espera de la canalización de Vertex AI cuando intenta conectarse a recursos de tu red de VPC.

Solución

Intenta lo siguiente para resolver el problema:

  • Asegúrate de que completaste todos los pasos en Configura el intercambio de tráfico entre redes de VPC.
  • Revisa la configuración de la red de VPC con intercambio de tráfico. Asegúrate de que tu red importe rutas desde el rango de herramientas de redes de servicio correcto mientras se ejecuta el trabajo.

    Ir a Intercambio de tráfico entre redes de VPC

  • Asegúrate de tener una regla de firewall que permita conexiones desde este rango al destino de tu red.

  • Si la conexión de intercambio de tráfico no importa ninguna ruta mientras se ejecuta el trabajo, esto significa que no se usa la configuración de herramientas de red de servicio. Es probable que esto se deba a que completaste la configuración del intercambio de tráfico con una red que no es la predeterminada. Si este es el caso, asegúrate de especificar tu red cuando inicies un trabajo. Usa el nombre de la red completamente calificado en el siguiente formato: projects/$PROJECT_ID/global/networks/$NETWORK_NAME.

    Para obtener más información, consulta Descripción general de las rutas.

La canalización o el trabajo no pueden acceder a los extremos en otras redes más allá de tu red

Problema

Tu canalización o trabajo no puede acceder a los extremos en redes más allá de tu red.

Solución

De forma predeterminada, la configuración de intercambio de tráfico solo exporta rutas a las subredes locales en tu VPC.

Además, no se admite el intercambio de tráfico transitivo y solo las redes con intercambio de tráfico directo pueden comunicarse.

  • Para permitir que Vertex AI se conecte a través de tu red y llegue a extremos en otras redes, debes exportar las rutas de red a la conexión de intercambio de tráfico. Edita la configuración de tu red de VPC con intercambio de tráfico y habilita Export custom routes.

Ir a Intercambio de tráfico entre redes de VPC

Debido a que no se admite el intercambio de tráfico transitivo, Vertex AI no aprende rutas a otras redes y servicios con intercambio de tráfico, incluso con Export Custom Routes habilitado. Para obtener información sobre las soluciones alternativas, consulta Extiende la accesibilidad de la red de Vertex AI Pipelines.

No route to host sin conflictos de ruta evidentes en la consola de Google Cloud

Problema

Las únicas rutas que puedes ver en la consola de Google Cloud son las conocidas para tu VPC y los rangos reservados cuando completas la configuración de Intercambio de tráfico entre redes de VPC.

En ocasiones poco comunes, un trabajo de Vertex AI puede arrojar un reclamo no route to host cuando se intenta acceder a una dirección IP que tu VPC exporta a la red de Vertex AI.

Esto puede deberse a que los trabajos de Vertex AI se ejecutan dentro de un espacio de nombres de herramientas de redes en un clúster de GKE administrado cuyo rango de IP entra en conflicto con la IP de destino. Consulta los Conceptos básicos de las herramientas de redes de GKE para obtener más información.

En estas condiciones, la carga de trabajo intenta conectarse a la IP dentro de su propio espacio de nombres de red y muestra el error si no puede acceder a ella.

Solución

Crea tu carga de trabajo para que muestre las direcciones IP de espacio de nombres local y confirma que esto no entre en conflicto con ninguna ruta que exportes a través de la conexión de intercambio de tráfico. Si hay un conflicto, pasa una lista de reservedIpRanges[] en los parámetros del trabajo que no se superpongan con ningún rango en tu red de VPC. El trabajo usa estos rangos para las direcciones IP internas de la carga de trabajo.

RANGES_EXHAUSTED, RANGES_NOT_RESERVED

Problema

Los errores de los formatos RANGES_EXHAUSTED, RANGES_NOT_RESERVED y RANGES_DELETED_LATER indican un problema con la configuración subyacente del intercambio de tráfico entre redes de VPC. Estos son errores de red y no errores del servicio de Vertex AI.

Solución

Cuando te enfrentes a un error RANGES_EXHAUSTED, primero debes considerar si esta queja es válida.

  • Visita Network Analyzer en la consola de Cloud y busca estadísticas del formulario "Resumen de la asignación de direcciones IP" en la red de VPC. Si estos indican que la asignación está en el 100% o cerca de este, puedes agregar un nuevo rango a la reserva.
  • También considera la cantidad máxima de trabajos en paralelo que se pueden ejecutar con una reserva de un tamaño determinado.

Para obtener más información, consulta Errores de validación de Service Infrastructure

Si el error persiste, comunícate con el equipo de asistencia.

Router status is temporarily unavailable

Problema

Cuando inicias Vertex AI Pipelines, recibes un mensaje de error similar al siguiente:

Router status is temporarily unavailable. Please try again later

Solución

El mensaje de error indica que esta es una condición temporal. Vuelve a iniciar Vertex AI Pipelines.

Si el error persiste, comunícate con el equipo de asistencia.

Predicción de Vertex AI

En esta sección, se describen los pasos para solucionar problemas, que pueden servirte si tienes dificultades con la predicción de Vertex AI.

Error de reintentos excedidos

Problema

Obtienes un error como el siguiente cuando ejecutas trabajos de predicción por lotes, que indica que es posible que la máquina que ejecuta el modelo personalizado no pueda completar las predicciones dentro del límite de tiempo.

('Post request fails. Cannot get predictions. Error: Exceeded retries: Non-OK
result 504 (upstream request timeout) from server, retry=3, elapsed=600.04s.', 16)

Esto puede ocurrir cuando el servicio de predicción de Vertex AI se registra con el servicio de Google Front End, que establece conexiones de proxy del cliente a la API de Vertex AI Prediction.

El servicio de Google Front End agota el tiempo de espera de la conexión y muestra un código de respuesta HTTP 500 al cliente si no recibe una respuesta de la API en un plazo de 10 minutos.

Solución

Para resolver este problema, prueba una de las siguientes opciones:

  • Aumenta los nodos de procesamiento o cambia el tipo de máquina.
  • Crea tu contenedor de predicción para enviar códigos de respuesta HTTP 102 periódicos. Esto restablecerá el temporizador de 10 minutos en el servicio de Google Front End.

Proyecto ya vinculado a la VPC

Problema

Cuando implementes un extremo, es posible que veas un mensaje de error como el siguiente, que indica que tus extremos de Vertex AI usaron antes una red de nube privada virtual y que los recursos no se limpiaron de forma adecuada.

Currently only one VPC network per user project is supported. Your project is
already linked to "projects/YOUR_SHARED_VPC_HOST_PROJECT/global/networks/YOUR_SHARED_VPC_NETWORK".
To change the VPC network, please undeploy all Vertex AI deployment resources,
delete all endpoint resources, and then retry creating resources in 30 mins.

Solución

Para resolver este problema, intenta ejecutar este comando en Cloud Shell.

gcloud services vpc-peerings delete \
    --service=servicenetworking.googleapis.com \
    --network=YOUR_SHARED_VPC_NETWORK \
    --project=YOUR_SHARED_VPC_HOST_PROJECT

Esto desconecta de forma manual tu red de VPC anterior de la VPC de Service Networking.

Falla de implementación o eliminación de extremos inesperada

Problema

Una implementación de modelo falla de forma inesperada, se detecta que se borró un extremo o se desimplementó un modelo implementado anteriormente.

Es posible que tu cuenta de facturación no sea válida. Si permanece no válida durante mucho tiempo, es posible que se quiten algunos recursos de los proyectos asociados a tu cuenta. Por ejemplo, es posible que se borren tus extremos y modelos. No es posible recuperar los recursos quitados.

Solución

Para resolver este problema, puedes intentar lo siguiente:

Para obtener más información, consulta Preguntas sobre facturación.

Problemas de cuentas de servicio personalizadas de Vertex AI

En esta sección, se describen los pasos de solución de problemas, que pueden resultarte útiles si tienes problemas con las cuentas de servicio.

La implementación del modelo falla con el error serviceAccountAdmin de la cuenta de servicio

Problema

La implementación de tu modelo falla con un error como el siguiente:

Failed to deploy model MODEL_NAME to endpoint ENDPOINT_NAME due to the error: Failed to add IAM policy binding. Please grant SERVICE_ACC_NAME@gcp-sa-aiplatform.iam.gserviceaccount.com the iam.serviceAccountAdmin role on service account vertex-prediction-role@PROJECT_INFO.iam.gserviceaccount.com

Solución

Este error significa que es posible que tu cuenta de servicio personalizada no se haya configurado de forma correcta. Para crear una cuenta de servicio personalizada con los permisos de IAM correctos, consulta Usa una cuenta de servicio personalizada.

No se puede recuperar el token de identidad cuando se usa la cuenta de servicio personalizada

Problema

Cuando se usa una cuenta de servicio personalizada, los trabajos de entrenamiento que se ejecutan en una sola réplica no pueden acceder al servicio de metadatos de Compute Engine necesario para recuperar un token.

Verás un error similar a este:

Failed to refresh jwt, retry number 0: ("Failed to retrieve http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/identity?audience=...&format=full
from the Google Compute Engine Metadata service. Status: 404 Response:
\nb'Not Found\n'", <google.auth.transport.requests._Response object at
0x7fb19f058c50>)

Solución

Para recuperar el token de identidad con una cuenta de servicio personalizada, debes usar iamcredentials.googleapis.com.

Modelos entrenados de forma personalizada

En esta sección, se describen los pasos de solución de problemas, que pueden resultarte útiles si tienes problemas para usar modelos personalizados.

Problemas del entrenamiento personalizado

Los siguientes problemas pueden ocurrir durante el entrenamiento personalizado. Estos problemas afectan a los recursos CustomJob, HyperparameterTuningJob y a los que crean los recursos TrainingPipeline.

Código de error: 400

Problema

Se mostrará el siguiente error:

400 Machine type MACHINE_TYPE is not supported.

Es posible que veas este mensaje de error si el tipo de máquina seleccionado no es compatible con el entrenamiento de Vertex AI o si un recurso específico no está disponible en la región seleccionada.

Solución

Usa solo los tipos de máquinas disponibles en las regiones adecuadas.

La réplica salió con un código de estado distinto de cero

Problema

Durante el entrenamiento distribuido, un error de cualquier trabajador hace que el entrenamiento falle.

Solución

Para verificar el seguimiento de pila del trabajador, consulta tus registros de entrenamiento personalizados en la consola de Google Cloud.

Consulta los otros temas de solución de problemas para solucionar errores comunes y, luego, crea un recurso CustomJob, HyperparameterTuningJob o TrainingPipeline nuevo. En muchos casos, los códigos de error se producen por problemas en el código de entrenamiento, no por el servicio de Vertex AI. Para determinar si este es el caso, puedes ejecutar tu código de entrenamiento en tu máquina local o en Compute Engine.

La réplica se quedó sin memoria

Problema

Puede ocurrir un error si una instancia de máquina virtual (VM) de entrenamiento se queda sin memoria durante el entrenamiento.

Solución

Puedes ver el uso de memoria de las VMs de entrenamiento en la consola de Google Cloud.

Incluso cuando recibes este error, es posible que no veas un uso de memoria del 100% en la VM, ya que los servicios que no correspondan a la aplicación de entrenamiento que se ejecutan en la VM también consumen recursos. En el caso de los tipos de máquinas que tienen menos memoria, otros servicios pueden consumir un porcentaje de memoria relativamente grande. Por ejemplo, en una VM n1-standard-4, los servicios pueden consumir hasta el 40% de la memoria.

Puedes optimizar el consumo de memoria de tu aplicación de entrenamiento o puedes elegir un tipo de máquina más grande con más memoria.

Recursos insuficientes en una región

Problema

Tienes un problema de agotamiento de stock en una región.

Solución

Vertex AI entrena tus modelos con recursos de Compute Engine. Vertex AI no puede programar tu carga de trabajo si Compute Engine tiene capacidad para una CPU o GPU determinada en una región. Este problema no está relacionado con la cuota de tu proyecto.

Cuando alcanzas la capacidad de Compute Engine, Vertex AI reintenta automáticamente CustomJob o HyperparameterTuningJob hasta tres veces. El trabajo falla si fallan todos los reintentos.

Por lo general, un agotamiento de stock ocurre cuando usas GPU. Si encuentras este error cuando usas GPU, intenta cambiar a un tipo de GPU diferente. Si puedes usar otra región, intenta entrenar en una región diferente.

Error de permiso cuando se accede a otro servicio de Google Cloud

Si encuentras un error de permisos cuando accedes a otro servicio de Google Clouddesde el código de entrenamiento (por ejemplo, google.api_core.exceptions.PermissionDenied: 403), es posible que tengas uno de los siguientes problemas:

Error interno

Problema

Tu entrenamiento falló debido a un error del sistema.

Solución

El problema puede ser transitorio. Vuelve a enviar CustomJob, HyperparameterTuningJob o TrainingPipeline. Si el error persiste, comunícate con el equipo de asistencia.

Código de error 500 cuando se usa una imagen de contenedor de cliente

Problema

Verás un error 500 en tus registros.

Solución

Es probable que este tipo de error sea un problema con tu imagen de contenedor personalizada y no un error de Vertex AI.

La cuenta de servicio no puede acceder al bucket de Cloud Storage cuando se implementa en un extremo

Problema

Cuando intentas implementar un modelo en un extremo y tu cuenta de servicio no tiene acceso storage.objects.list al bucket de Cloud Storage relacionado, es posible que veas el siguiente error:

custom-online-prediction@TENANT_PROJECT_ID.iam.gserviceaccount.com
does not have storage.objects.list access to the Cloud Storage bucket.

De forma predeterminada, el contenedor personalizado que implementa tu modelo usa una cuenta de servicio que no tiene acceso a tu bucket de Cloud Storage.

Solución

Para resolver esto, realiza una de las siguientes acciones:

  • Copia el archivo al que intentas acceder desde el contenedor en artefactos del modelo cuando subas el modelo. Vertex AI lo copiará en una ubicación a la que tenga acceso la cuenta de servicio predeterminada, similar a todos los otros artefactos del modelo.

  • Copia el archivo en el contenedor como parte del proceso de compilación del contenedor.

  • Especifica una cuenta de servicio personalizada.

Búsqueda de arquitectura neuronal

Problemas conocidos

  • Después de cancelar el trabajo de NAS, el trabajo principal (el superior) se detiene, pero algunas de las pruebas secundarias continúan mostrando un estado En ejecución. Ignora el estado de prueba secundaria que muestra En ejecución en este caso. Las pruebas se detuvieron, pero la IU continúa mostrando el estado En ejecución. Siempre que el trabajo principal se haya detenido, no se te cobrará más.
  • Después de informar las recompensas en el entrenador, espera (suspende) 10 minutos antes de que se cierren los trabajos de prueba.
  • Cuando usas Cloud Shell para ejecutar TensorBoard, es posible que el vínculo de salida generado no funcione. En este caso, escribe el número de puerto, usa la herramienta Vista previa en la Web y selecciona el número de puerto correcto para mostrar los trazados.

    Accede a la herramienta de Web Preview:

    Un gráfico de atribución de atributos para la duración prevista de un viaje en bicicleta.

  • Si ves mensajes de error como los siguientes en los registros del entrenador:

    gcsfuse errors: fuse: writeMessage: no such file or directory [16 0 0 0 218 255 255 255 242 25 111 1 0 0 0 0]
    

    Usa una máquina con más RAM, ya que una condición de OOM causa este error.

  • Si tu entrenador personalizado no puede encontrar la marca job-dir del directorio de trabajo, importa job_dir con un guion bajo en lugar de un guion. Esto se explica en tutorial-1.

  • Error NAN durante el entrenamiento Es posible que haya errores de NaN en el trabajo de entrenamiento como NaN : Tensor had NaN values. La tasa de aprendizaje podría ser demasiado grande para la arquitectura sugerida. Para obtener más información, consulta Errores de memoria insuficiente (OOM) y tasa de aprendizaje.

  • Error de OOM durante el entrenamientoEs posible que haya errores de OOM (sin memoria) en el trabajo de entrenamiento. El tamaño del lote puede ser demasiado grande para la memoria del acelerador. Para obtener más información, consulta Errores de memoria insuficiente (OOM) y tasa de aprendizaje.

  • El trabajo de controlador del selector de tareas de proxy se cierra En el caso poco frecuente de que el trabajo de controlador de selección de modelo de tarea de proxy se cierre, puedes reanudar el trabajo si sigues estos pasosestos pasos.

  • El trabajo de controlador de búsqueda de tarea de proxy se cierra En el caso poco frecuente de que el trabajo de controlador de búsqueda de tarea de proxy se cierre, puedes reanudar el trabajo si sigues estos pasos.

  • La cuenta de servicio no tiene permiso para acceder a Artifact Registry o bucket. Si obtienes un error como Vertex AI Service Agent service-123456789@gcp-sa-aiplatform-cc.iam.gserviceaccount.com does not have permission to access Artifact Registry repository projects/my-project/locations/my-region/repositories/nas o un error similar para el acceso al bucket, asigna a esta cuenta de servicio un rol de editor de almacenamiento en tu proyecto.

Vertex AI Feature Store

En esta sección, se describen los pasos para solucionar problemas que pueden resultarte útiles si tienes problemas con Vertex AI Feature Store.

Error Resource not found cuando se envía una transferencia de transmisión o una solicitud de entrega en línea

Problema

Después de configurar un almacén de funciones, un tipo de entidad o recursos de funciones, hay una demora antes de que esos recursos se propaguen al servicio FeaturestoreOnlineServingService. En ocasiones, esta propagación retrasada puede generar un error resource not found cuando envías una transferencia de transmisión o una solicitud de entrega en línea inmediatamente después de crear un recurso.

Solución

Si recibes este error, espera unos minutos y vuelve a intentar la solicitud.

La transferencia por lotes se realizó correctamente para los atributos recién creados, pero la solicitud de entrega en línea muestra valores vacíos

Problema

Solo para los atributos recién creados, hay un retraso antes de que se propaguen al servicio FeaturestoreOnlineServingService. Los atributos y valores existen, pero tardan en propagarse. Esto puede provocar que la solicitud de entrega en línea muestre valores vacíos.

Solución

Si ves esta inconsistencia, espera unos minutos y vuelve a intentar la solicitud de entrega en línea.

El uso de CPU es alto para un nodo de entrega en línea

Problema

El uso de CPU para un nodo de entrega en línea es alto.

Solución

Para mitigar este problema, puedes aumentar la cantidad de nodos de entrega en línea aumentando de forma manual el recuento de nodos o habilitando el ajuste de escala automático. Ten en cuenta que, incluso si el ajuste de escala automático está habilitado, Vertex AI Feature Store necesita tiempo para volver a balancear los datos cuando se agregan o quitan nodos. Para obtener información sobre cómo ver las métricas de distribución del valor de los atributos a lo largo del tiempo, consulta Visualiza métricas de valores de atributos.

El uso de CPU es alto para el nodo de entrega en línea más activo

Problema

Si el uso de CPU es alto para el nodo más activo, puedes aumentar la cantidad de nodos de entrega o cambiar el patrón de acceso a la entidad a seudoaleatorio.

Solución

Configurar el patrón de acceso a entidades como seudoaleatorio mitiga el alto uso de CPU que se genera a partir del acceso frecuente a entidades que están cerca otras en el almacén de atributos. Si ninguna de las soluciones es eficaz, implementa una caché del cliente para evitar acceder varias veces a las mismas entidades.

La latencia de la entrega en línea es alta cuando las QPS son bajas

Problema

El período de inactividad o actividad baja con una frecuencia de QPS baja puede provocar que venzan algunas memorias caché del servidor. Esto puede generar una latencia alta cuando el tráfico a los nodos de entrega en línea se reanuda con QPS normales o más altas.

Solución

Para mitigar este problema, debes mantener la conexión activa mediante el envío de tráfico artificial de al menos 5 QPS al almacén de atributos.

El trabajo de transferencia por lotes falla después de seis horas

Problema

El trabajo de transferencia por lotes puede fallar porque la sesión de lectura vence después de seis horas.

Solución

A fin de evitar el tiempo de espera, aumenta la cantidad de trabajadores para completar el trabajo de transferencia dentro del límite de tiempo de seis horas.

Error Resource exceeded cuando se exportan valores de atributos

Problema

Exportar un gran volumen de datos puede fallar con un error de recurso excedido si el trabajo de exportación excede la cuota interna.

Solución

Para evitar este error, puedes configurar los parámetros de intervalo de tiempo, start_time y end_time, a fin de procesar cantidades más pequeñas de datos a la vez. Para obtener información sobre la exportación completa, consulta Exportación completa.

Vertex AI Vizier

Cuando uses Vertex AI Vizier, podrías experimentar los siguientes problemas.

Error interno

Problema

El error interno ocurre cuando hay un error del sistema.

Solución

Puede ser transitorio. Vuelve a enviar la solicitud y, si el error persiste, comunícate con el equipo de asistencia.