Integración en Personalized Service Health

Si bien las interrupciones del servicio son inevitables, la comunicación transparente y anticipada es esencial para evaluar lo que sucede, mantener informadas a las partes interesadas y ejecutar acciones para minimizar el impacto en tu empresa.

La operación de una aplicación en la nube confiable es una responsabilidad compartida entreGoogle Cloud y los desarrolladores de aplicaciones. Cuando se produce una interrupción del servicio, Google Cloud apunta a comunicar el incidente rápidamente y proporcionar una evaluación del impacto. Debes evaluar cómo recibir notificaciones, actuar en incidentes emergentes y administrar el impacto en tu aplicación.

Personalized Service Health puede ayudarte con este proceso. Puedes integrarlo de varias maneras para enterarte de los incidentes emergentes, evaluar el impacto en tus aplicaciones y recibir actualizaciones de Google Cloud. En este documento, se proporciona una descripción general de cómo recibir indicadores de interrupciones del servicio deGoogle Cloud, incluidas recomendaciones para integrarlos.

Decide dónde realizar la integración

Google Cloud proporciona los siguientes productos para ayudarte a comprender el estado de los Google Cloud productos:

  • Estado del servicio de Google Cloud: Proporciona una descripción general de toda la plataforma de todos los productos deGoogle Cloud en todas las ubicaciones. Abarca incidentes con un alcance y una gravedad más amplios, y está disponible en los siguientes productos:
  • Personalized Service Health: Proporciona una vista personalizada de los Google Cloud productos que usan tus proyectos o toda tu organización. Abarca una variedad más amplia de incidentes que los publicados en Service Health de Google Cloud. Personalized Service Health está disponible en los siguientes lugares:

Te recomendamos que realices la integración con Personalized Service Health para brindarte la mayor cobertura y variedad de opciones de integración.

Punto de integración Caso práctico Beneficios Dependencias
Panel de Play Console (Personalized Service Health) Cómo ver las interrupciones activas Personalizado para tus proyectos, disponible de forma predeterminada Identity and Access Management (IAM)
Consola de Google Cloud
Alertas (Personalized Service Health) Notificaciones proactivas Personalizado para tus proyectos, conveniente y proactivo IAM
Cloud Logging
Cloud Monitoring
API (Personalized Service Health) Integra con otro sistema o herramienta Personalizadas para tus proyectos o tu organización IAM

Elige el método de interacción con Personalized Service Health

Debes considerar Personalized Service Health en el contexto de tus operaciones, supervisión y modelo de respuesta ante incidentes previstos. Si evalúas cómo tus equipos usan los indicadores durante los incidentes y antes de ellos, puedes decidir cómo quieres usar Personalized Service Health.

En la siguiente tabla, se muestra cómo puedes interactuar con el estado del servicio personalizado, según su configuración.

Situación de ejemplo en tu organización Integración con Personalized Service Health Ejemplos de herramientas con las que podrías realizar la integración
Desarrolladores que están de guardia para algunas aplicaciones Alertas de proyectos individuales

Panel de Play Console

Google Cloud Observability, PagerDuty
Respuesta ante incidentes centralizada en toda una organización Integración de la API con el sistema existente mediante la API de OrganizationEvents (v1, v1beta) PagerDuty, paneles personalizados
Plataforma interna para administrar recursos y operaciones en la nube API de Service Health
Alertas de proyectos individuales
Integración de la API de Service Health con una plataforma interna para desarrolladores
Backstage, Terraform
Muchos proyectos configurados y administrados de forma programática (por ejemplo, más de 1,000) API de Service Health
Notificaciones automáticas basadas en APIs
Backstage, Terraform y PagerDuty

Usa Personalized Service Health durante un incidente

Una vez que realices la integración con Personalized Service Health y comiences a recibir notificaciones de alerta, Personalized Service Health te proporcionará información sobre las Google Cloudinterrupciones que pueden ayudarte a administrar su impacto.

Detecta y analiza el incidente

Estas son algunas preguntas que podrías hacer en esta etapa:

  • ¿Es un problema real?
  • ¿Puedes validar el impacto?
  • ¿Cuáles son los síntomas?
  • ¿Qué usuarios, productos o partes de la empresa se ven afectados? ¿En qué regiones geográficas?

Personalized Service Health te ayuda a comprender si el problema proviene de tu proyecto o de Google, de modo que puedas implementar la respuesta adecuada al incidente. Te permite encontrar y ver información del evento para que puedas supervisar el evento, los productos afectados y las ubicaciones que afectan tu proyecto.

Estos son algunos pasos que puedes seguir:

  1. Revisa la alerta si la tienes configurada.
    • ¿Qué causó que se activara esta alerta?
    • ¿Cómo se relacionan estas alertas con todas las demás alertas potencialmente específicas del producto?
  2. Accede al panel de Service Health de tu proyecto o organización. Puedes ver los eventos, los productos afectados y las ubicaciones de un vistazo, y responder las siguientes preguntas:
    • ¿Cuáles de tus proyectos se ven afectados?
    • ¿Qué productos de los que depende tu proyecto se ven afectados?
    • ¿El evento afecta a recursos específicos dentro de esas ubicaciones?
  3. Revisa los eventos y comprende su alcance, impacto y relevancia para tu proyecto.
  4. Identifica un evento que parezca estar relacionado con el problema que tienes.
  5. Busca los pasos de verificación, la mitigación (si está disponible) y el tiempo de resolución esperado del evento.

Personalized Service Health te ayuda a revisar el estado actual y el impacto de los incidentes que afectan a tu proyecto o organización, de modo que puedas administrarlos y responder a ellos de manera eficiente. Por ejemplo, puedes priorizar de manera eficaz si identificas con precisión el incidente de mayor prioridad.

Mitiga, resuelve o deriva el incidente

Estas son algunas preguntas que podrías hacer en esta etapa:

  • ¿Cómo puedes solucionar el incidente?
  • ¿Puedes solucionarlo directamente?
  • ¿Debes iniciar una conmutación por error ahora o esperar más tiempo?
  • ¿A quién debes notificar para que lo solucionen?

Personalized Service Health te ayuda a comprender el impacto de un incidente en tus proyectos y recursos, informarte sobre las soluciones disponibles y recibir actualizaciones sobre el tiempo de resolución estimado.

Supervisa el progreso hacia la resolución del incidente

La descripción general del evento en el panel de estado del servicio identifica información clave, como los síntomas y las soluciones alternativas, que son necesarias para la mitigación, y muestra cuándo cambia el estado. Estos detalles te permiten hacer lo siguiente:

  • Supervisa un resumen continuo del impacto potencial a medida que evoluciona la situación.
  • Mantente al tanto de los desarrollos nuevos y la hora esperada de la próxima comunicación o actualización.
  • Consultar cuándo se publica un síntoma
  • Consultar cuándo se identifica una solución alternativa
  • Consulta cuándo el estado cambia a Resuelto.

Puedes realizar las siguientes acciones mientras supervisas el progreso:

  • Revisa las soluciones alternativas, si están disponibles.
  • Implementa la respuesta ante incidentes adecuada para tu proyecto o organización.
  • Continúa supervisando el evento hasta que se mitigue o resuelva.

Cuándo comunicarse con el equipo de asistencia

Google está al tanto de los eventos que aparecen en el panel de Service Health. Para saber qué está haciendo Google con un evento, selecciónalo para ver los detalles.

Si un problema no parece estar representado en ninguno de los eventos del panel, comunícate con el equipo de asistencia.

Usa Personalized Service Health con otras fuentes de información de incidentes

Independientemente de la configuración de tu empresa, usa Personalized Service Health como un indicador adicional cuando evalúes el impacto de los incidentes. Asegúrate de poder revisar varias fuentes de información sobre incidentes para que puedas decidir los próximos pasos en función de los datos y las pruebas.

Estos son algunos motivos para usar varias fuentes de información sobre incidentes:

  • Es posible que un producto de Google Cloud esté experimentando un incidente en una ubicación, pero es posible que tus proyectos no se vean afectados porque se encuentran en una ubicación diferente.
  • Si tu sistema de publicación tiene dos réplicas completas en zonas separadas y falla un producto Google Cloud fundamental en una zona, Service Health personalizado te informará sobre esa falla. Sin embargo, es posible que tus usuarios no se vean afectados y que no debas tomar medidas de inmediato.
  • Si tu proyecto depende de muchos productos Google Cloud dentro de una ubicación, Personalized Service Health no sabrá lo siguiente:
    • Si tu proyecto requiere que todos los productos sean funcionales.
    • Si tu proyecto seguirá funcionando en caso de que falle un producto.
    • Si toda tu aplicación se ve afectada si falla uno o más de los productos.
  • El estado del servicio personalizado también puede degradarse o fallar. Para verificarlo, puedes comprobar su estado.

Deberás interpretar los indicadores de Personalized Service Health según corresponda a tu configuración.