Organiza tus páginas con colecciones
Guarda y categoriza el contenido según tus preferencias.
Un modo de falla es un estado incorrecto de la aplicación que genera una alerta. La aplicación debe recuperarse de un modo de falla para ejecutarse correctamente. Por ejemplo, el sistema muestra una alerta cuando las APIs previamente entrenadas por IA no están listas para usarse y superan el límite de tiempo de habilitación designado. Si se produce un modo de falla y la aplicación no se puede recuperar, comunícate con el operador de infraestructura para obtener ayuda.
Pueden producirse los siguientes modos de falla (MF) y generar una alerta:
Las fallas de preparación del servicio se producen debido a uno de los siguientes FM:
FM1: No se pueden programar cargas de trabajo: No se puede programar una o más cargas de trabajo del servicio de IA debido a la falta de recursos, como GPU, memoria o algún otro error.
FM3: No se pueden configurar los componentes: No se puede configurar ni crear uno de los componentes necesarios de un servicio de IA debido a permisos incorrectos o a otros problemas. Esos componentes son, por ejemplo, DNS o Ingress.
FM4: Los servicios no alcanzan el estado Enabled: Los servicios previamente entrenados no pueden estar listos después de solicitar el proceso de habilitación. En la página, se muestra el estado Enabling de uno o más servicios y, posiblemente, la infraestructura de IA sin cambiar al estado Enabled.
Fallas en la interfaz de usuario
Las fallas en la interfaz de usuario se producen debido a uno de los siguientes FM:
Falla en la comunicación entre el frontend y el backend: La página muestra un mensaje de error que indica problemas con la comunicación del backend. Las entradas del registro de errores tienen códigos del AIPL0500 al AIPL0502.
Los extremos de la API de servicio no se muestran en la página: Si hay un error, la página muestra el mensaje Unable to fetch the endpoint en lugar del extremo.
[[["Fácil de comprender","easyToUnderstand","thumb-up"],["Resolvió mi problema","solvedMyProblem","thumb-up"],["Otro","otherUp","thumb-up"]],[["Difícil de entender","hardToUnderstand","thumb-down"],["Información o código de muestra incorrectos","incorrectInformationOrSampleCode","thumb-down"],["Faltan la información o los ejemplos que necesito","missingTheInformationSamplesINeed","thumb-down"],["Problema de traducción","translationIssue","thumb-down"],["Otro","otherDown","thumb-down"]],["Última actualización: 2025-09-04 (UTC)"],[[["\u003cp\u003eFailure modes are incorrect application states that trigger alerts, and the application must recover from these states to function properly.\u003c/p\u003e\n"],["\u003cp\u003eService readiness failures can occur when AI service workloads cannot be scheduled or configured, or when pre-trained services fail to reach the \u003ccode\u003eEnabled\u003c/code\u003e status.\u003c/p\u003e\n"],["\u003cp\u003eUser interface failures manifest as communication problems between the frontend and backend, or when service API endpoints fail to be displayed.\u003c/p\u003e\n"],["\u003cp\u003eThe three potential failure modes that may trigger an alert are related to the service readiness, AI data-plane runtime, or the user interface.\u003c/p\u003e\n"]]],[],null,["# Failure modes\n\nA failure mode is an incorrect application state that prompts an alert. The application must recover from a failure mode to run successfully. For example, the system prompts an alert when the AI pre-trained APIs aren't ready for use and exceed the designated enable time limit. If a failure mode occurs and the application cannot recover, contact your Infrastructure Operator for help.\n\nThe following failure modes (FMs) might occur and prompt an alert:\n\n- [Service readiness failures](#service-readiness-failures)\n- [AI data-plane runtime failures](#ai-data-plane-runtime-failures)\n- [User interface failures](#user-interface-failures)\n\n### Service readiness failures\n\nThe service readiness failures occur because of one of the following FMs:\n\n- **FM1 - Unable to schedule workloads**: One or more of the AI service workloads cannot be scheduled due to the lack of resources such as GPU, memory, or some other error.\n- **FM3 - Unable to configure components**: One of the required components of an AI service cannot be configured or created because of incorrect permissions or other issues. Those components are, for example, DNS or Ingress.\n- **FM4 - Services not reaching the `Enabled` status** : The pre-trained services cannot become ready after prompting the enablement process. The page displays the `Enabling` status for one or more services and, possibly, the AI infrastructure without changing to the `Enabled` status.\n\n### User interface failures\n\nThe user interface failures occur because of one of the following FMs:\n\n- **Frontend and backend communication failure** : The page displays an error message showing issues with backend communication. Error log entries have codes from `AIPL0500` to `AIPL0502`.\n- **Service API endpoints aren't displayed on the page** : If there is an error, the page shows the `Unable to fetch the endpoint` message instead of the endpoint."]]