障害モード

障害モードとは、アラートを生成する誤ったアプリケーションの状態です。アプリケーションは、障害モードから復旧して正常に実行する必要があります。たとえば、AI 事前トレーニング済み API を使用する準備が整っておらず、指定された有効期限を超えた場合、システムはアラートを生成します。障害モードが発生し、アプリケーションが復元できない場合は、インフラストラクチャ オペレーターにお問い合わせください。

次の障害モード(FM)が発生し、アラートが生成されることがあります。

サービスの準備状況の失敗

サービス準備の失敗は、次のいずれかの FM が原因で発生します。

  • FM1 - ワークロードをスケジュールできない: GPU やメモリなどのリソースの不足、またはその他のエラーにより、1 つ以上の AI サービス ワークロードをスケジュールできません。
  • FM3 - コンポーネントを構成できない: 権限が正しくないなどの問題により、AI サービスの必須コンポーネントのいずれかを構成または作成できません。これらのコンポーネントには、DNS や Ingress などがあります。
  • FM4 - サービスが Enabled ステータスに到達しない: 事前トレーニング済みのサービスが、有効化プロセスを促すプロンプトの後に準備完了にならない。このページには、1 つ以上のサービスの Enabling ステータスと、場合によっては AI インフラストラクチャのステータスが表示されます。Enabled ステータスに切り替わることはありません。

ユーザー インターフェースの失敗

ユーザー インターフェースの障害は、次のいずれかの FM が原因で発生します。

  • フロントエンドとバックエンドの通信障害: バックエンドの通信に関する問題を示すエラー メッセージがページに表示されます。エラーログのエントリには、AIPL0500 から AIPL0502 までのコードが含まれています。
  • サービス API エンドポイントがページに表示されない: エラーが発生すると、ページにはエンドポイントではなく Unable to fetch the endpoint メッセージが表示されます。