Compatibilidad

Acceder a las notificaciones de software

Consulta las siguientes herramientas para recibir notificaciones cuando aparezca un problema en los componentes de software de tu plataforma:

  • El panel de software común: Para recibir notificaciones sobre información del estado del sistema, como componentes, clústeres, servicios y VMs de GKE Enterprise
  • Tu buzón de correo electrónico: Para las notificaciones por correo electrónico que incluyen información básica sobre el problema, como códigos de error.

Haz clic en una notificación para ver la página del componente problemático y acceder a los registros pertinentes.

Configura los destinatarios de las notificaciones

Configura los siguientes canales de comunicación para recibir alertas, incluso si están desconectados del panel:

  • Mensajes SMS
  • Notificaciones por correo electrónico
  • PagerDuty

Organiza el tipo de notificación y el rol del destinatario, como facturación, software y hardware.

Comprende los errores de software

Sigue estas prácticas para acceder a la información pertinente sobre los errores en los componentes de software, resolver el problema y comunicarte con el equipo de asistencia de manera eficaz:

  • Busca el código de error de cada error.
  • Usa los códigos de error para buscar en la documentación local y en línea.
  • La interfaz de usuario proporciona fragmentos de información sobre errores específicos. Mantén el puntero sobre un código de error para ver los fragmentos.

Cómo limpiar la información de solución de problemas de software de los datos sensibles

Sanea la información de solución de problemas de los componentes de software, incluidas las configuraciones, los registros, el estado y las métricas de todos los datos sensibles, y cumple con los requisitos de soberanía.

Google Distributed Cloud (GDC) aislado proporciona una lista de palabras clave sensibles predeterminadas para ofuscar y quitar. Sigue estos pasos para borrar la información de solución de problemas:

  1. Personaliza la lista predeterminada agregando y quitando palabras clave personalizadas.
  2. Recibir un informe de todas las ocurrencias ofuscadas
  3. Recibir advertencias sobre posible información sensible restante

Entre los elementos críticos que se deben ofuscar, se incluyen los siguientes:

  • Nombres de dominio completamente calificados (FQDN)
  • Direcciones IP
  • Nombres de usuario
  • Nombres de host
  • Nombres de las cargas de trabajo
  • Hashes
  • Certificados
  • Nombres de los clientes

Crea una instantánea del sistema de software

Crea una instantánea de los componentes de software para incluir toda la información necesaria para solucionar el problema y comunicarte con el equipo de asistencia de manera eficaz:

  1. Selecciona los componentes que quieras incluir.
  2. Genera un archivo tar con todos los registros, la configuración, el estado y las métricas necesarios.
  3. Especifica el componente que se depurará.
  4. Especifica cómo limpiar los datos.

Comparte información con el equipo de asistencia

Google proporciona asistencia de nivel 1 (L1) y nivel 2 (L2) para GDC.

Aplica políticas sobre el uso compartido de instantáneas

Sigue estas prácticas para asegurarte de que los datos de instantáneas que compartas con el equipo de asistencia sean seguros, estén protegidos y sujetos a las políticas de retención de datos que controles:

  • Definir y aplicar políticas de control de acceso a la instantánea
  • Definir y aplicar políticas de retención de datos para la instantánea
  • Configura un canal seguro para subir la instantánea al portal de asistencia.

Acceder a las notificaciones de hardware

Verifica las notificaciones sobre cuándo aparece un problema en los componentes de hardware de tu plataforma. Las notificaciones aparecen en el Administrador del sistema con información sobre el estado del sistema de los componentes de hardware, como racks, servidores, conmutadores y almacenamiento.

También puedes recibir notificaciones por correo electrónico. Incluyen información básica sobre el problema, como códigos de error. Haz clic en la notificación para ver la página del componente problemático y acceder a los registros pertinentes.

Solicita actualizaciones de capacidad

Supervisa, prevé y solicita capacidad de hardware adicional para garantizar el estado y la escalabilidad de tus cargas de trabajo.

Procesa la instantánea del sistema

Antes de procesar la instantánea del sistema, asegúrate de cumplir con los siguientes requisitos:

  • La herramienta de instantáneas tiene una conexión a un clúster en ejecución.
  • Tienes los siguientes permisos necesarios para leer la configuración y los registros en el clúster:
    • Los operadores de aplicaciones tienen capacidades administrativas.
    • Los administradores de la plataforma tienen permisos de acceso restringidos a la información asignada.

Para procesar la instantánea del sistema, selecciona los componentes del sistema que deseas incluir en la instantánea. La herramienta se conecta a tu clúster para extraer información de cada componente seleccionado. Después de recuperar los datos, estos se someten a un procesamiento posterior para filtrar los datos sensibles. Luego, la herramienta agrupa la información en un archivo ZIP.

De manera opcional, puedes inspeccionar el archivo ZIP y su contenido para asegurarte de que no captures datos sensibles antes de compartirlo con el equipo de asistencia.

Accede a la documentación de asistencia

Accede a la siguiente documentación y guías para solucionar el problema del cliente:

  • Guías de asistencia
  • Documentación pública, prácticas recomendadas, preguntas frecuentes y base de conocimiento
  • La comunidad de usuarios

Un socio puede brindar asistencia L1 y L2, por lo que estos artefactos deben estar disponibles de forma pública.

Cómo derivar un problema de software al nivel 3

Sigue estos pasos para derivar un problema de software a Google y obtener asistencia avanzada o de nivel 3 (L3):

  1. Solicita permiso para compartir datos de instantáneas con Google.
  2. Abre un ticket de asistencia con Google.
  3. Proporciona a Google acceso a tu instantánea.
  4. Supervisar y proporcionar visibilidad de las operaciones que Google realiza en la instantánea

Deriva un problema de hardware al nivel 3

Sigue estos pasos para derivar a Google un problema causado por una falla de hardware:

  1. Extrae y depura la información mínima para solucionar problemas de los componentes de hardware:
    • Registros
    • Estado y configuraciones
    • Métricas
    • Información física, como el número de rack, el tipo de componente, el número de serie y la ubicación física
  2. Solicita permiso para compartir datos de instantáneas con Google.
  3. Abre un ticket de asistencia con Google.
  4. Proporciona a Google acceso a tu instantánea.
  5. Supervisar y proporcionar visibilidad de las operaciones que Google realiza en la instantánea

Abre un caso de asistencia de hardware

Google tiene acceso a las mismas herramientas de solución de problemas para diagnosticar la instantánea del cliente. Abre un caso de asistencia con el socio de hardware como servicio (HWaaS) para obtener asistencia de hardware a través del sistema de tickets compartido.

Los tickets de asistencia tienen los siguientes niveles de prioridad con los correspondientes acuerdos de nivel de servicio (ANS):

  • Crítico
  • Alto
  • Medio

Compartir datos de clientes con el socio de HWaaS

Sigue estos pasos para compartir los datos de hardware del sistema con el socio de hardware y habilitar la solución de problemas de hardware:

  1. Solicita permiso para compartir datos de instantáneas con un socio de HWaaS.
  2. Asegúrate de cumplir con los requisitos de soberanía: nacionalidad y ubicación del agente de asistencia.
  3. Otorga al socio de HWaaS acceso seguro a la instantánea del hardware del cliente, incluidos el número de serie, la ubicación física, los registros, las métricas y los archivos de configuración.
  4. Notificar a las personas a las que les otorgaste acceso
  5. Aplicar el vencimiento automático de los privilegios de acceso
  6. Registra todas las actividades y compártelas con todas las partes involucradas.

Notifica a Google los resultados de la solución de problemas y corrige la línea de tiempo

Informa a Google sobre la causa raíz del problema y ofrece una solución gradual para que Google pueda notificar al cliente final y al socio. Usa un sistema de tickets para proporcionar detalles de la tarea de corrección requerida y un cronograma estimado para su finalización.

Coordina el acceso al centro de datos

Coordina la logística y los permisos para acceder de forma segura al centro de datos y realizar la reparación de hardware necesaria.

El socio de HWaaS garantiza el cumplimiento de los requisitos de soberanía, como la nacionalidad del agente de asistencia. Necesitan la siguiente información:

  • Son los detalles del punto de contacto del centro de datos y la ubicación.
  • Ubicación exacta del componente y el rack con problemas en el centro de datos
  • Proceso para obtener la autorización y el permiso de acceso al centro de datos en un horario acordado
  • Proceso para programar una intervención en las instalaciones de un centro de datos

Obtén asistencia de hardware para SLO y ANS

Google brinda asistencia a través de un socio fabricante de equipo original (OEM) de hardware. El proceso es el siguiente:

  1. Google negocia la asistencia de hardware para los objetivos de nivel de servicio (SLO) y los acuerdos de nivel de servicio (ANS) con un socio de HWaaS.
  2. Los SLO y los ANS varían según la criticidad del incidente, que puede ser crítica, alta o media.
  3. El socio de HWaaS actualiza el ticket con el estado y el tiempo estimado para solucionar el problema.
  4. El socio de HWaaS confirma cuando se resuelve el problema.

Capacidad de actualización

Para responder a una solicitud de aumento de capacidad, usa la capacidad adicional integrada si está disponible. Ir a las instalaciones y actualizar la capacidad física si no hay capacidad adicional disponible en los racks

Programa revisiones recurrentes con Google

Configura revisiones periódicas con el socio de HWaaS para verificar el estado actual de las implementaciones y planificar las intervenciones programadas.

Realiza las siguientes acciones durante las revisiones recurrentes:

  • Verifica las actualizaciones programadas necesarias para el sistema operativo, el hardware y el firmware.
  • Revisa el estado de las implementaciones existentes.
  • Planificar implementaciones nuevas

Comunica el mantenimiento y las actualizaciones programados

Comunícate con los clientes existentes sobre los próximos planes de mantenimiento programado. Realiza las siguientes acciones con ellos:

  • Selecciona los recursos que deseas actualizar.
  • Especifica por qué las actualizaciones se realizarán en su estado actual.
  • Determina quién realizará las actualizaciones y cuándo, dónde y cómo.
  • Planifica el posible impacto y los tiempos de inactividad.

Cómo configurar el mantenimiento programado

Programa un mantenimiento preventivo periódico y asegúrate de que el sistema esté actualizado y funcione bien. El HWaaS informa sobre la finalización del mantenimiento. Necesita los siguientes procesos:

  • Un proceso para obtener la autorización de acceso al centro de datos
  • Un proceso para programar la intervención en las instalaciones del centro de datos