Solucionar problemas de Vertex AI

En esta página se describen los pasos para solucionar problemas que pueden resultarte útiles si tienes algún problema al usar Vertex AI.

Los pasos para solucionar problemas de algunos componentes de Vertex AI se indican por separado. Consulta lo siguiente:

Para filtrar el contenido de esta página, haz clic en un tema:

Modelos de AutoML

En esta sección se describen los pasos para solucionar problemas que pueden resultarte útiles si tienes algún problema con AutoML.

Faltan etiquetas en el conjunto de prueba, validación o entrenamiento

Problema

Si usas la división de datos predeterminada al entrenar un modelo de clasificación de AutoML, Vertex AI podría asignar muy pocas instancias de una clase a un conjunto concreto (de prueba, de validación o de entrenamiento), lo que provocaría un error durante el entrenamiento. Este problema se produce con más frecuencia cuando las clases están desequilibradas o cuando la cantidad de datos de entrenamiento es pequeña.

Solución

Para solucionar este problema, añade más datos de entrenamiento, divide manualmente los datos para asignar suficientes clases a cada conjunto o elimina las etiquetas menos frecuentes del conjunto de datos. Para obtener más información, consulta el artículo Acerca de las divisiones de datos para los modelos de AutoML.

Vertex AI Studio

Cuando trabajes con Vertex AI Studio, es posible que recibas los siguientes errores:

Al intentar ajustar un modelo, se devuelve Internal error encountered

Problema

Se produce un error Internal error encountered al intentar ajustar un modelo.

Solución

Ejecuta el siguiente comando curl para crear un conjunto de datos de Vertex AI vacío. Asegúrate de configurar el ID de tu proyecto en el comando.

PROJECT_ID=PROJECT_ID

curl \
-X POST \
-H "Authorization: Bearer $(gcloud auth print-access-token)" \
-H "Content-Type: application/json" \
https://europe-west4-aiplatform.googleapis.com/ui/projects/$PROJECT_ID/locations/europe-west4/datasets \
-d '{
    "display_name": "test-name1",
    "metadata_schema_uri": "gs://google-cloud-aiplatform/schema/dataset/metadata/image_1.0.0.yaml",
    "saved_queries": [{"display_name": "saved_query_name", "problem_type": "IMAGE_CLASSIFICATION_MULTI_LABEL"}]
}'

Cuando se haya completado el comando, espera cinco minutos y vuelve a intentar ajustar el modelo.

Código de error: 429

Problema

Se produce el siguiente error:

429: The online prediction request quota is exceeded for
PUBLIC_BASE_MODEL_NAME.

Solución

Vuelve a intentarlo más tarde con un tiempo de espera. Si sigues teniendo problemas, ponte en contacto con el equipo de Asistencia de Vertex AI.

Código de error: 410

Problema

Se produce el siguiente error:

410: The request is missing the required authentication credential. Expected
OAuth 2.0 access token, login cookie, or other valid authentication credential.

Solución

Consulta la descripción general de la autenticación para obtener más información.

Código de error: 403

Problema

Se produce el siguiente error:

403: Permission denied.

Solución

Asegúrate de que la cuenta que accede a la API tenga los permisos adecuados.

Vertex AI Pipelines

En esta sección se describen los pasos para solucionar problemas que pueden resultarte útiles si tienes algún problema con Vertex AI Pipelines.

No tienes permiso para actuar como cuenta de servicio

Problema

Cuando ejecutas tu flujo de trabajo de Vertex AI Pipelines, puede que aparezca el siguiente mensaje de error:

You do not have permission to act as service account: SERVICE_ACCOUNT. (or it may not exist).

Solución

Este error significa que la cuenta de servicio que ejecuta tu flujo de trabajo no tiene acceso a los recursos que necesita usar.

Para solucionar este problema, prueba una de las siguientes opciones:

  • Añade el rol Vertex AI Service Agent a la cuenta de servicio.
  • Concede al usuario el permiso iam.serviceAccounts.actAs en la cuenta de servicio.

Error Internal error happened

Problema

Si tu canal falla y aparece un mensaje Internal error happened, consulta el Explorador de registros y busca el nombre del canal. Es posible que veas un error como el siguiente:

java.lang.IllegalStateException: Failed to validate vpc
network projects/PROJECT_ID/global/networks/VPC_NETWORK.

APPLICATION_ERROR;google.cloud.servicenetworking.v1/ServicePeeringManagerV1.GetConsumerConfig;Reserved
range: 'RANGE_NAME' not found for consumer project:
'PROJECT_ID' network: 'VPC_NETWORK'.
com.google.api.tenant.error.TenantManagerException: Reserved range:
'RANGE_NAME' not found for consumer project

Esto significa que el emparejamiento de VPC para Vertex AI incluye un intervalo de IPs que se ha eliminado.

Solución

Para solucionar este problema, actualice la interconexión de VPC mediante el comando update e incluya intervalos de IP válidos.

Se ha proporcionado un ámbito de OAuth o una audiencia de token de ID no válidos

Problema

Cuando ejecutas tu flujo de trabajo de Vertex AI Pipelines, aparece el siguiente mensaje de error:

google.auth.exceptions.RefreshError: ('invalid_scope: Invalid OAuth scope
or ID token audience provided.', {'error': 'invalid_scope',
'error_description': 'Invalid OAuth scope or ID token audience provided.'})

Solución

Esto significa que no ha proporcionado credenciales en uno de los componentes de la canalización o que no ha usado ai_platform.init() para definir las credenciales.

Para resolver este problema, defina las credenciales del componente de la canalización correspondiente o las credenciales del entorno y use ai_platform.init() al principio del código.

os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = PATH_TO_JSON_KEY

Los componentes de Vertex AI Pipelines requieren más de 100 GB de espacio en disco

Problema

El espacio en disco predeterminado asignado a los componentes de Vertex AI Pipelines es de 100 GB y no se puede aumentar. Consulta la herramienta pública de seguimiento de incidencias para obtener más información sobre este problema.

Solución

Para que un componente use más de 100 GB de espacio en disco, conviértelo en un trabajo personalizado mediante el método components. Con este operador, puedes asignar el tipo de máquina y el tamaño del disco que usa el componente.

Para ver un ejemplo de cómo usar este operador, consulta Vertex AI Pipelines: entrenamiento personalizado con componentes de Google Cloud Pipeline precompilados en la sección Convert the component to a Vertex AI Custom Job (Convertir el componente en una tarea personalizada de Vertex AI).

Problemas de redes de Vertex AI

En esta sección se describen los pasos para solucionar problemas que pueden resultarte útiles si tienes algún problema con las redes de Vertex AI.

gcloud services vpc-peerings get-vpc-service-controls \
  --network YOUR_NETWORK

Las cargas de trabajo no pueden acceder a los endpoints de tu red de VPC cuando se usan intervalos de IP públicas usados de forma privada para Vertex AI

Problema

Los intervalos de IP públicas usadas de forma privada no se importan de forma predeterminada.

Solución

Para usar intervalos de IP públicas usadas de forma privada, debes habilitar la importación de intervalos de IP públicas usadas de forma privada.

com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project

Problema

Recibes errores del tipo com.google.api.tenant.error.TenantManagerException: Reserved range: nnn not found for consumer project al ejecutar cargas de trabajo o desplegar endpoints.

Esto ocurre cuando cambias las reservas de acceso a servicios privados de tus cargas de trabajo. Es posible que los intervalos eliminados no se hayan registrado en la API de Vertex AI.

Solución

Ejecuta gcloud services vpc-peerings update para servicenetworking después de actualizar las asignaciones de acceso privado a los servicios.

La canalización o el trabajo no pueden acceder a los endpoints de tu red de VPC emparejada

Problema

Tu canalización de Vertex AI agota el tiempo de espera cuando intenta conectarse a recursos de tu red de VPC.

Solución

Para solucionar el problema, prueba lo siguiente:

  • Asegúrate de que has completado todos los pasos de Configurar el emparejamiento entre redes de VPC.
  • Revisa la configuración de tu red de VPC emparejada. Asegúrate de que tu red importe rutas del intervalo de redes de servicio correcto mientras se ejecuta el trabajo.

    Ir a Emparejamiento entre redes de VPC

  • Asegúrate de que tienes una regla de cortafuegos que permita las conexiones de este intervalo al destino de tu red.

  • Si la conexión de peering no importa ninguna ruta mientras se ejecuta tu tarea, significa que no se está usando la configuración de redes de servicios. Es probable que se deba a que has completado la configuración del peering con una red que no es la predeterminada. Si es así, asegúrate de especificar tu red al iniciar un trabajo. Usa el nombre de red completo con el siguiente formato: projects/$PROJECT_ID/global/networks/$NETWORK_NAME.

    Para obtener más información, consulta la descripción general de las rutas.

La canalización o el trabajo no pueden acceder a los endpoints de otras redes que no sean la tuya

Problema

Tu canalización o trabajo no puede acceder a los endpoints de redes que no sean la tuya.

Solución

De forma predeterminada, la configuración de emparejamiento solo exporta rutas a las subredes locales de tu VPC.

Además, el emparejamiento transitivo no se admite y solo las redes con emparejamiento directo pueden comunicarse.

  • Para permitir que Vertex AI se conecte a través de tu red y llegue a los endpoints de otras redes, debes exportar las rutas de tu red a tu conexión de peering. Edita la configuración de tu red de VPC emparejada y habilita Export custom routes.

Ir a Emparejamiento entre redes de VPC

Como no se admite el emparejamiento transitivo, Vertex AI no aprende rutas a otras redes y servicios emparejados, aunque Export Custom Routes esté habilitado. Para obtener información sobre las soluciones alternativas, consulta Ampliar la accesibilidad de la red de Vertex AI Pipelines.

No route to host sin conflictos de rutas evidentes en la consola Google Cloud

Problema

Las únicas rutas que puedes ver en la consola de Google Cloud son las que conoce tu propia VPC, así como los intervalos reservados cuando completas la configuración de emparejamiento entre redes de VPC.

En contadas ocasiones, un trabajo de Vertex AI puede generar una no route to hostqueja al intentar acceder a una dirección IP que tu VPC está exportando a la red de Vertex AI.

Esto puede deberse a que los trabajos de Vertex AI se ejecutan en un espacio de nombres de red de un clúster de GKE gestionado cuyo intervalo de IPs está en conflicto con la IP de destino. Consulta los conceptos básicos de la red de GKE para obtener más información.

En estas condiciones, la carga de trabajo intenta conectarse a la IP dentro de su propio espacio de nombres de red y genera el error si no puede acceder a ella.

Solución

Diseña tu carga de trabajo para que devuelva las direcciones IP de su espacio de nombres local y confirma que no entra en conflicto con ninguna ruta que exportes a través de la conexión de peering. Si hay un conflicto, pasa una lista de reservedIpRanges[] en los parámetros de la tarea que no se solapen con ningún intervalo de tu red de VPC. El trabajo usa estos intervalos para las direcciones IP internas de la carga de trabajo.

RANGES_EXHAUSTED, RANGES_NOT_RESERVED

Problema

Los errores de los tipos RANGES_EXHAUSTED, RANGES_NOT_RESERVED y RANGES_DELETED_LATER indican un problema con la configuración subyacente del emparejamiento entre redes de VPC. Se trata de errores de red y no de errores del propio servicio Vertex AI.

Solución

Cuando te encuentres con un error RANGES_EXHAUSTED, primero debes plantearte si esta reclamación es válida.

  • Visita Network Analyzer en la consola de Cloud y busca estadísticas del tipo "Resumen de la asignación de direcciones IP" en la red de VPC. Si estos valores indican que la asignación es del 100 % o está cerca de ese porcentaje, puedes añadir un nuevo intervalo a la reserva.
  • También debes tener en cuenta el número máximo de tareas paralelas que se pueden ejecutar con una reserva de un tamaño determinado.

Para obtener más información, consulta Errores de validación de la infraestructura de servicios.

Si el error persiste, ponte en contacto con el equipo de Asistencia.

Router status is temporarily unavailable

Problema

Cuando inicias Vertex AI Pipelines, recibes un mensaje de error similar al siguiente:

Router status is temporarily unavailable. Please try again later

Solución

El mensaje de error indica que se trata de una condición temporal. Prueba a iniciar Vertex AI Pipelines de nuevo.

Si el error persiste, ponte en contacto con el equipo de Asistencia.

Las cargas de trabajo no pueden resolver los nombres de host de los dominios DNS de tu VPC

Problema

Las cargas de trabajo de Vertex AI no pueden conectarse a los nombres de host configurados en tu VPC. Ya ha confirmado que se puede acceder a estos nombres de host desde los clientes de su VPC.

Esto se debe a que las cargas de trabajo se ejecutan en un proyecto gestionado por Google. La VPC de este entorno gestionado debe estar emparejada con la tuya para poder consumir cualquiera de tus recursos de red. Además, las zonas de DNS a las que necesiten acceder estas cargas de trabajo deben compartirse específicamente con la VPC gestionada por Google.

Solución

  • Asegúrate de haber configurado el emparejamiento entre redes de VPC para Vertex AI en tu red de VPC.
  • Sigue los pasos para compartir tus zonas DNS privadas con la red de productores de Vertex AI.
  • Asegúrate de que tus cargas de trabajo de Vertex AI se lancen con la marca --network que especifica tu red de VPC. De esta forma, pueden ejecutarse en la red gestionada por Google y acceder a las zonas DNS que hayas compartido.

Problemas de conectividad causados por comportamientos del lado del cliente

Si tienes problemas de conectividad al intentar usar las APIs, la causa principal podría estar en el lado del cliente. Google CloudEn esta sección se sugieren soluciones del lado del cliente que pueden mejorar tu experiencia.

Restablecimientos de conexión y paquetes perdidos

Problema

Cuando intentas usar las APIs de Google Cloud , se producen restablecimientos de conexión y paquetes perdidos.

Solución

Para solucionar este problema, ten en cuenta lo siguiente:

  • Si el volumen de tráfico de transacciones es alto y se requiere una latencia baja, comprueba si hay algún problema conocido con las tarjetas de línea de los clientes locales que pueda provocar que se reinicien las conexiones TCP o que se pierdan paquetes.
  • Comprueba si algún servicio del lado del cliente en la ruta de la solicitud usa iptables. Por ejemplo, clústeres de Kubernetes o algunos cortafuegos con estado y dispositivos NAT. De forma predeterminada, el subsistema de seguimiento de conexiones (conntrack) de Linux seguirá estrictamente las especificaciones del protocolo TCP y, por ejemplo, descartará los paquetes TCP fuera de secuencia. Para desactivar este comportamiento, activa el parámetro del kernel de Linux net.netfilter.nf_conntrack_tcp_be_liberal o su equivalente.

Conexiones incompletas

Problema

Cuando intentas usar APIs, las conexiones no se completan. Google Cloud

Solución

Para solucionar este problema, ten en cuenta lo siguiente:

  • Cuando la ruta de reenvío tenga varias rutas de vuelta al cliente, asegúrate de que entiendes el concepto de reenvío de ruta inversa. Desactiva este comportamiento si sospechas que está bloqueando las conexiones.
  • En el caso de las conexiones con balanceo de carga, comprueba si las reglas de tu cortafuegos entrante permiten que los paquetes de respuesta lleguen a ambos balanceadores de carga.

Otros problemas de conexión que no están relacionados con las APIs

Para solucionar problemas de conexión que no sean de la API, ten en cuenta lo siguiente:

  • Si hay algún proxy en la ruta de la solicitud, plantéate si puede provocar alguno de los problemas que estás experimentando. Consulta la documentación y asegúrate de solucionar los problemas del proxy cuando te enfrentes a problemas como latencia inexplicable, conexiones perdidas, anulaciones de DNS, bloqueos entre orígenes y otros problemas similares.
  • Esto ocurre sobre todo cuando se gestionan respuestas 429 de APIs de Google Cloud . La lógica del lado del cliente que vuelve a intentar la conexión inmediatamente puede empeorar el problema. Asegúrate de entender e implementar el tiempo de espera exponencial al implementar reintentos.

Predicción de Vertex AI

En esta sección se describen los pasos para solucionar problemas que pueden resultarte útiles si tienes algún problema con la predicción de Vertex AI.

Error de reintentos excedidos

Problema

Al ejecutar tareas de predicción por lotes, se produce un error como el siguiente, que indica que es posible que la máquina que ejecuta el modelo personalizado no pueda completar las predicciones en el plazo establecido.

('Post request fails. Cannot get predictions. Error: Exceeded retries: Non-OK
result 504 (upstream request timeout) from server, retry=3, elapsed=600.04s.', 16)

Esto puede ocurrir cuando el servicio de predicción de Vertex AI se registra en el servicio de frontend de Google, que proxyiza las conexiones del cliente a la API Prediction de Vertex AI.

El servicio de frontend de Google agota el tiempo de espera de la conexión y devuelve el código de respuesta HTTP 500 al cliente si no recibe una respuesta de la API en un plazo de 10 minutos.

Solución

Para solucionar este problema, prueba una de las siguientes opciones:

  • Aumenta el número de nodos de computación o cambia el tipo de máquina.
  • Crea tu contenedor de predicción para enviar códigos de respuesta HTTP 102 periódicos. De esta forma, se reinicia el temporizador de 10 minutos del servicio Google Front End.

El proyecto ya está vinculado a la VPC

Problema

Al implementar un endpoint, puede que veas un mensaje de error como el siguiente, que indica que tus endpoints de Vertex AI han usado anteriormente una red de Virtual Private Cloud y que los recursos no se han limpiado correctamente.

Currently only one VPC network per user project is supported. Your project is
already linked to "projects/YOUR_SHARED_VPC_HOST_PROJECT/global/networks/YOUR_SHARED_VPC_NETWORK".
To change the VPC network, please undeploy all Vertex AI deployment resources,
delete all endpoint resources, and then retry creating resources in 30 mins.

Solución

Para solucionar este problema, prueba a ejecutar este comando en Cloud Shell.

gcloud services vpc-peerings delete \
    --service=servicenetworking.googleapis.com \
    --network=YOUR_SHARED_VPC_NETWORK \
    --project=YOUR_SHARED_VPC_HOST_PROJECT

De esta forma, se desconecta manualmente tu antigua red de VPC de la VPC de Service Networking.

Fallo inesperado de la implementación o eliminación de un endpoint

Problema

El despliegue de un modelo falla de forma inesperada, se elimina un endpoint o se anula el despliegue de un modelo que se había desplegado anteriormente.

Es posible que tu cuenta de facturación no sea válida. Si sigue siendo no válido durante mucho tiempo, es posible que se eliminen algunos recursos de los proyectos asociados a tu cuenta. Por ejemplo, es posible que se eliminen tus endpoints y modelos. Los recursos eliminados no se pueden recuperar.

Solución

Para solucionar este problema, puedes probar lo siguiente:

Para obtener más información, consulta las preguntas sobre la facturación.

Problemas con las cuentas de servicio personalizadas de Vertex AI

En esta sección se describen los pasos para solucionar problemas que pueden resultarte útiles si tienes algún problema con las cuentas de servicio.

No se puede desplegar el modelo y se produce un error en la cuenta de servicio serviceAccountAdmin

Problema

El despliegue del modelo falla y se muestra un error como el siguiente:

Failed to deploy model MODEL_NAME to endpoint ENDPOINT_NAME due to the error: Failed to add IAM policy binding. Please grant SERVICE_ACC_NAME@gcp-sa-aiplatform.iam.gserviceaccount.com the iam.serviceAccountAdmin role on service account vertex-prediction-role@PROJECT_INFO.iam.gserviceaccount.com

Solución

Este error significa que es posible que tu cuenta de servicio personalizada no se haya configurado correctamente. Para crear una cuenta de servicio personalizada con los permisos de gestión de identidades y accesos correctos, consulta Usar una cuenta de servicio personalizada.

No se puede obtener el token de identidad al usar una cuenta de servicio personalizada

Problema

Cuando se usa una cuenta de servicio personalizada, los trabajos de entrenamiento que se ejecutan en una sola réplica no pueden acceder al servicio de metadatos de Compute Engine necesario para obtener un token.

Verá un error similar al siguiente:

Failed to refresh jwt, retry number 0: ("Failed to retrieve http://metadata.google.internal/computeMetadata/v1/instance/service-accounts/default/identity?audience=...&format=full
from the Google Compute Engine Metadata service. Status: 404 Response:
\nb'Not Found\n'", <google.auth.transport.requests._Response object at
0x7fb19f058c50>)

Solución

Para obtener el token de identidad con una cuenta de servicio personalizada, debes usar iamcredentials.googleapis.com.

Modelos con entrenamiento personalizado

En esta sección se describen pasos para solucionar problemas que pueden resultarte útiles si tienes algún problema con los modelos entrenados de forma personalizada.

Problemas con el entrenamiento personalizado

Los siguientes problemas pueden producirse durante el entrenamiento personalizado. Los problemas se aplican a los recursos CustomJob y HyperparameterTuningJob, incluidos los creados por recursos TrainingPipeline.

Código de error: 400

Problema

Se produce el siguiente error:

400 Machine type MACHINE_TYPE is not supported.

Puede que veas este mensaje de error si el tipo de máquina seleccionado no es compatible con el entrenamiento de Vertex AI o si un recurso específico no está disponible en la región seleccionada.

Solución

Utiliza solo los tipos de máquinas disponibles en las regiones adecuadas.

La réplica se ha cerrado con un código de estado distinto de cero

Problema

Durante el entrenamiento distribuido, si se produce un error en cualquier trabajador, el entrenamiento falla.

Solución

Para consultar el seguimiento de pila del trabajador, consulta los registros de entrenamiento personalizado en la consolaGoogle Cloud .

Consulta los demás temas de solución de problemas para corregir errores habituales y, a continuación, crea un recurso CustomJob, HyperparameterTuningJob o TrainingPipeline. En muchos casos, los códigos de error se deben a problemas en el código de entrenamiento, no al servicio Vertex AI. Para determinar si es así, puedes ejecutar el código de entrenamiento en tu máquina local o en Compute Engine.

La réplica se ha quedado sin memoria

Problema

Se puede producir un error si una instancia de máquina virtual de entrenamiento se queda sin memoria durante el entrenamiento.

Solución

Puedes ver el uso de memoria de tus VMs de entrenamiento en la Google Cloud consola.

Aunque se produzca este error, es posible que no veas un uso de memoria del 100% en la VM, ya que los servicios que se ejecutan en la VM y que no son tu aplicación de entrenamiento también consumen recursos. En el caso de los tipos de máquina que tienen menos memoria, otros servicios pueden consumir un porcentaje relativamente grande de memoria. Por ejemplo, en una máquina virtual n1-standard-4, los servicios pueden consumir hasta el 40% de la memoria.

Puedes optimizar el consumo de memoria de tu aplicación de entrenamiento o elegir un tipo de máquina más grande con más memoria.

Recursos insuficientes en una región

Problema

Se produce un problema de falta de stock en una región.

Solución

Vertex AI entrena tus modelos usando recursos de Compute Engine. Vertex AI no puede programar tu carga de trabajo si Compute Engine ha alcanzado la capacidad de una CPU o GPU concreta en una región. Este problema no está relacionado con tu cuota de proyecto.

Cuando se alcanza la capacidad de Compute Engine, Vertex AI vuelve a intentar automáticamente la operación CustomJob o HyperparameterTuningJob hasta tres veces. El trabajo falla si todos los reintentos fallan.

Normalmente, se produce una falta de stock cuando usas GPUs. Si aparece este error al usar GPUs, prueba a cambiar a otro tipo de GPU. Si puedes usar otra región, prueba a entrenar el modelo en otra.

Error de permisos al acceder a otro servicio de Google Cloud

Si se produce un error de permiso al acceder a otro Google Cloud servicio desde tu código de formación (por ejemplo: google.api_core.exceptions.PermissionDenied: 403), puede que tengas uno de los siguientes problemas:

Problemas de rendimiento al usar Cloud Storage FUSE

Problema

Los trabajos de Cloud Storage FUSE se ejecutan lentamente.

Solución

Consulta "Directrices de optimización del rendimiento" en Usar Cloud Storage como sistema de archivos montado.

pip install falla al usar KFP con Controles de Servicio de VPC

Problema

Aparece el siguiente error:

ModuleNotFoundError: No module named MODULE_NAME. WARNING: Retrying (Retry(total=0, connect=None, read=None, redirect=None, status=None)) after connection broken by 'ConnectTimeoutError(&lt;pip._vendor.urllib3.connection.HTTPSConnection object at 0x7f70250bac10&gt;, 'Connection to pypi.org timed out. (connect timeout=15)')': /simple/nltk/

Solución

El perímetro de servicio de Controles de Servicio de VPC bloquea el acceso de Vertex AI a APIs y servicios de terceros en Internet. Para instalar los paquetes, usa packageUris para instalar las dependencias de los segmentos de Cloud Storage. Para obtener información general sobre el uso de esta técnica, consulta "Usar contenedores personalizados" en Controles de Servicio de VPC con Vertex AI.

Error interno

Problema

El entrenamiento ha fallado debido a un error del sistema.

Solución

Puede que el problema sea temporal. Intenta volver a enviar el CustomJob, HyperparameterTuningJob o TrainingPipeline. Si el error persiste, ponte en contacto con el equipo de Asistencia.

Error 500 al usar una imagen de contenedor personalizada

Problema

Aparece un error 500 en los registros.

Solución

Es probable que este tipo de error se deba a un problema con tu imagen de contenedor personalizada y no a un error de Vertex AI.

La cuenta de servicio no puede acceder al segmento de Cloud Storage al implementar en un endpoint

Problema

Cuando intentas implementar un modelo en un endpoint y tu cuenta de servicio no tiene acceso storage.objects.list al segmento de Cloud Storage relacionado, es posible que veas el siguiente error:

custom-online-prediction@TENANT_PROJECT_ID.iam.gserviceaccount.com
does not have storage.objects.list access to the Cloud Storage bucket.

De forma predeterminada, el contenedor personalizado que implementa tu modelo usa una cuenta de servicio que no tiene acceso a tu segmento de Cloud Storage.

Solución

Para solucionar este problema, prueba una de las siguientes opciones:

  • Copia el archivo al que intentas acceder desde el contenedor en artefactos del modelo al subir el modelo. Vertex AI lo copiará en una ubicación a la que tenga acceso la cuenta de servicio predeterminada, al igual que todos los demás artefactos del modelo.

  • Copia el archivo en el contenedor como parte del proceso de compilación del contenedor.

  • Especifica una cuenta de servicio personalizada.

Búsqueda con arquitectura neuronal

Problemas conocidos

  • Después de cancelar la tarea de NAS, la tarea principal (la tarea padre) se detiene, pero algunas de las pruebas secundarias siguen mostrando el estado En ejecución. Ignora el estado de la prueba secundaria que muestra En curso en este caso. Las pruebas se han detenido, pero la interfaz de usuario sigue mostrando el estado En ejecución. Siempre que el trabajo principal se haya detenido, no se te cobrará nada adicional.
  • Después de registrar las recompensas en el entrenador, espera (suspende) 10 minutos antes de que finalicen las tareas de prueba.
  • Cuando se usa Cloud Shell para ejecutar TensorBoard, es posible que el enlace de salida generado no funcione. En este caso, anota el número de puerto, usa la herramienta Vista previa web y selecciona el número de puerto correcto para mostrar los gráficos.

    Para acceder a la herramienta Web Preview, sigue estos pasos:

    Gráfico de atribución de funciones de la duración prevista de un viaje en bicicleta.

  • Si ves mensajes de error como los siguientes en los registros del entrenador:

    gcsfuse errors: fuse: writeMessage: no such file or directory [16 0 0 0 218 255 255 255 242 25 111 1 0 0 0 0]
    

    Utiliza una máquina con más RAM, ya que este error se debe a una condición de falta de memoria.

  • Si tu entrenador personalizado no puede encontrar el directorio de trabajo job-dir FLAG, importa job_dir con un guion bajo en lugar de un guion. En una nota del tutorial 1 se explica este concepto.

  • Error NaN durante el entrenamiento Puede haber errores NaN en la tarea de entrenamiento, como NaN : Tensor had NaN values. La tasa de aprendizaje puede ser demasiado alta para la arquitectura sugerida. Para obtener más información, consulta Errores relacionados con la falta de memoria (OOM) y la tasa de aprendizaje.

  • Error de falta de memoria durante el entrenamiento Puede que se produzcan errores de falta de memoria en la tarea de entrenamiento. Es posible que el tamaño del lote sea demasiado grande para la memoria del acelerador. Para obtener más información, consulta Errores relacionados con la falta de memoria (OOM) y la tasa de aprendizaje.

  • Fallo del trabajo del controlador de selección del modelo de tareas proxy En el caso poco probable de que falle el trabajo del controlador de selección del modelo de tareas proxy, puedes reanudarlo siguiendo estos pasos.

  • El trabajo del controlador de búsqueda de tareas proxy falla En el caso poco habitual de que falle el trabajo del controlador de búsqueda de tareas proxy, puedes reanudarlo siguiendo estos pasos.

  • La cuenta de servicio no tiene permiso para acceder a Artifact Registry o al segmento. Si recibes un error como Vertex AI Service Agent service-123456789@gcp-sa-aiplatform-cc.iam.gserviceaccount.com does not have permission to access Artifact Registry repository projects/my-project/locations/my-region/repositories/nas o un error similar al acceder al segmento, asigna a esta cuenta de servicio el rol de editor de almacenamiento en tu proyecto.

Vertex AI Feature Store

En esta sección se describen los pasos para solucionar problemas que pueden resultarte útiles si tienes algún problema con Vertex AI Feature Store.

Error Resource not found al enviar una solicitud de ingestión de streaming o de servicio online

Problema

Después de configurar un almacén de características, un tipo de entidad o recursos de características, hay un retraso antes de que esos recursos se propaguen al servicio FeaturestoreOnlineServingService. A veces, esta propagación retrasada puede provocar un error resource not found cuando envías una solicitud de ingestión de streaming o de servicio online inmediatamente después de crear un recurso.

Solución

Si recibes este error, espera unos minutos y vuelve a intentarlo.

La ingestión por lotes se ha realizado correctamente para las funciones recién creadas, pero la solicitud de servicio online devuelve valores vacíos

Problema

Solo en el caso de las funciones recién creadas, hay un retraso antes de que se propaguen al servicio FeaturestoreOnlineServingService. Las funciones y los valores existen, pero tardan en propagarse. Esto puede provocar que tu solicitud de servicio online devuelva valores vacíos.

Solución

Si detecta esta incoherencia, espere unos minutos y vuelva a enviar su solicitud de publicación online.

El uso de CPU es alto en un nodo de servicio online

Problema

La utilización de la CPU de un nodo de servicio online es alta.

Solución

Para mitigar este problema, puede aumentar el número de nodos de servicio online. Para ello, aumente manualmente el número de nodos o habilite el autoescalado. Ten en cuenta que, aunque el escalado automático esté habilitado, Vertex AI Feature Store necesita tiempo para reequilibrar los datos cuando se añaden o se eliminan nodos. Para obtener información sobre cómo ver las métricas de distribución de valores de las características a lo largo del tiempo, consulta Ver métricas de valores de las características.

El uso de CPU es alto en el nodo de servicio online más activo

Problema

Si el uso de la CPU es alto en el nodo más activo, puedes aumentar el número de nodos de servicio o cambiar el patrón de acceso a la entidad a seudoaleatorio.

Solución

Si se asigna el patrón de acceso a entidades pseudoaleatorio, se reduce el uso elevado de la CPU que se produce al acceder con frecuencia a entidades que están cerca unas de otras en el almacén de características. Si ninguna de las soluciones es eficaz, implementa una caché del lado del cliente para evitar acceder a las mismas entidades repetidamente.

La latencia de la entrega online es alta cuando el número de consultas por segundo es bajo

Problema

El periodo de inactividad o de baja actividad con un QPS bajo puede provocar que caduquen algunas cachés del lado del servidor. Esto puede provocar una latencia alta cuando se reanuda el tráfico a los nodos de servicio online con QPS normal o superior.

Solución

Para mitigar este problema, debe mantener activa la conexión enviando tráfico artificial de al menos 5 QPS al almacén de características.

La tarea de ingestión por lotes falla después de seis horas

Problema

La tarea de ingestión por lotes puede fallar porque la sesión de lectura caduca al cabo de seis horas.

Solución

Para evitar el tiempo de espera, aumenta el número de trabajadores para completar el trabajo de ingesta en el plazo de seis horas.

Error Resource exceeded al exportar valores de funciones

Problema

Si el trabajo de exportación supera la cuota interna, se puede producir un error de superación de recursos al exportar un gran volumen de datos.

Solución

Para evitar este error, puede configurar los parámetros de intervalo de tiempo, start_time y end_time, para procesar cantidades de datos más pequeñas a la vez. Para obtener información sobre la exportación completa, consulta Exportación completa.

Vertex AI Vizier

Cuando usas Vertex AI Vizier, pueden surgir los siguientes problemas.

Error interno

Problema

El error interno se produce cuando hay un error del sistema.

Solución

Puede que sea temporal. Intenta volver a enviar la solicitud y, si el error persiste, ponte en contacto con el equipo de Asistencia.

Errores de permisos al usar roles de cuenta de servicio con Vertex AI

Problema

Se producen errores generales de permisos al usar roles de cuenta de servicio con Vertex AI.

Estos errores pueden aparecer en Cloud Logging en los registros de componentes del producto o en los registros de auditoría. También pueden aparecer en cualquier combinación de los proyectos afectados.

Estos problemas pueden deberse a uno o ambos de los siguientes motivos:

  • Uso del rol Service Account Token Creator cuando se debería haber usado el rol Service Account User, o viceversa. Estos roles conceden diferentes permisos en una cuenta de servicio y no son intercambiables. Para obtener información sobre las diferencias entre los roles Service Account Token Creator y Service Account User, consulta Roles de cuenta de servicio.

  • Has concedido permisos a una cuenta de servicio en varios proyectos, lo que no está permitido de forma predeterminada.

Solución

Para solucionar el problema, prueba una o varias de las siguientes opciones:

  • Determina si se necesita el rol Service Account Token Creator o Service Account User. Para obtener más información, consulta la documentación de gestión de identidades y accesos de los servicios de Vertex AI que estés usando, así como cualquier otra integración de producto que estés usando.

  • Si has concedido permisos a una cuenta de servicio en varios proyectos, habilita la opción para que las cuentas de servicio se puedan adjuntar en varios proyectos. Para ello, asegúrate de que iam.disableCrossProjectServiceAccountUsage. no se aplica. Para asegurarte de que iam.disableCrossProjectServiceAccountUsage no se aplica, ejecuta el siguiente comando:

    gcloud resource-manager org-policies disable-enforce \
      iam.disableCrossProjectServiceAccountUsage \
      --project=PROJECT_ID