Planifica los eventos de tráfico máximo y de lanzamiento

Last reviewed 2023-06-25 UTC

En este documento del framework de arquitectura de Google Cloud, se muestra cómo planificar eventos de tráfico máximo y de lanzamiento para evitar interrupciones en el negocio.

Los eventos de tráfico máximo son eventos importantes relacionados con el negocio que causan un aumento repentino del tráfico más allá del modelo de referencia estándar de la aplicación. Estos eventos de tráfico máximo requieren escalamiento planificado.

Por ejemplo, los negocios minoristas con presencia en línea pueden esperar eventos de tráfico máximo durante las festividades. El Black Friday, un día después del Día de Acción de Gracias en Estados Unidos, es uno de los días de compras con más actividad del año. Para el sector de la atención médica en Estados Unidos, los meses de octubre y noviembre pueden tener eventos de tráfico máximo debido a los aumentos repentinos del tráfico en línea para la inscripción de beneficios.

Los eventos de lanzamiento son cualquier lanzamiento importante o migración de capacidades nuevas en producción. Por ejemplo, una migración local a la nube o el lanzamiento de una función nueva o un servicio nuevo de un producto.

Si lanzas un producto nuevo, debes esperar una mayor carga en tus sistemas durante el anuncio y, posiblemente, después. Estos eventos con frecuencia pueden causar aumentos de carga de 5 a 20 veces (o más) en los sistemas de frontend. Ese aumento de carga también aumenta la carga en los sistemas de backend. A menudo, estas cargas de frontend y backend se caracterizan por contar con escalamiento rápido durante un período breve a medida que el evento se abre para el tráfico web. Los eventos de lanzamiento implican una disminución final del tráfico hacia niveles normales. Esta disminución suele ser más lenta que el escalamiento hasta el máximo.

Los eventos de tráfico máximo y lanzamiento incluyen tres etapas:

  • Planificación y preparación para el evento de lanzamiento o de tráfico máximo
  • Lanzamiento del evento
  • Revisión del rendimiento y el análisis posterior de los eventos

Las prácticas descritas en este documento pueden ayudar a que cada una de estas etapas se ejecute sin problemas.

Crea una guía general para los eventos de lanzamiento y de tráfico máximo

Crea una guía general con una visión a largo plazo de los eventos de tráfico máximo actual y futuro. Sigue agregando lecciones aprendidas en el documento a fin de que pueda ser una referencia para eventos de tráfico máximo futuros.

Planifica tu lanzamiento y los eventos de tráfico máximo

Planifica con anticipación. Crea proyecciones de negocios para los próximos lanzamientos y eventos de tráfico máximo esperados (y también inesperados). Preparar tu sistema para aumentos de escalamiento depende de comprender las proyecciones de tu negocio. Cuanto más sepas sobre las previsiones anteriores, más precisas serán las previsiones nuevas de tu empresa. Esas previsiones nuevas son entradas críticas para proyectar la demanda esperada en tu sistema.

Establecer la administración del programa y la planificación coordinada, en toda tu organización y con proveedores externos, también es clave para el éxito. Se deben crear estos equipos pronto para que el equipo de administración del programa pueda definir cronogramas, presupuestos seguros y recopilar recursos para infraestructura adicional, asistencia de pruebas y entrenamiento.

Es importante configurar canales de comunicación claros. La comunicación es fundamental para todas las etapas de un lanzamiento o un evento de tráfico máximo. Analiza los riesgos y las áreas de preocupación de forma anticipada y resuelve los problemas antes de que se conviertan en bloqueadores. Crea la documentación de planificación de eventos. Resume la información más crítica sobre el evento de tráfico máximo y distribúyela. Esto ayuda a las personas a adquirir información sobre la planificación y resuelve preguntas básicas. El documento ayuda a que nuevas personas participen en la planificación de eventos de tráfico máximo.

Documenta tu plan para cada evento. Cuando documentes tu plan, asegúrate de hacer lo siguiente:

  • Identifica cualquier suposición, riesgos y factores desconocidos.
  • Revisa los eventos anteriores a fin de determinar la información relevante para el próximo evento de lanzamiento o de tráfico máximo. Determina qué datos están disponibles y qué valor proporcionaron en el pasado.
  • Detalla el plan de reversión para los eventos de lanzamiento y migración.
  • Realiza una revisión de la arquitectura:
    • Documenta los recursos clave y los componentes de la arquitectura.
    • Usa el framework de arquitectura para revisar todos los aspectos del entorno en busca de riesgos y problemas de escalamiento.
    • Crea un diagrama sobre cómo se conectan los componentes principales. Puedes usar la herramienta de diagramas de la arquitectura de Google Cloud. Crear diagramas puede ayudarte a aislar problemas, lo que puede acelerar su resolución.
  • Si corresponde, configura el servicio para que use acciones de alerta a fin de reiniciarse automáticamente si hay una falla. Cuando uses Compute Engine, considera usar el ajuste de escala automático para controlar los aumentos de la capacidad de procesamiento.
  • Para asegurarte de que los recursos de Compute Engine estén disponibles cuando los necesites, usa reservas. Las reservas proporcionan un nivel de seguridad muy alto a fin de obtener capacidad para los recursos zonales de Compute Engine. Puedes usar las reservas para asegurarte de que tu proyecto tenga recursos disponibles.
  • Identifica las métricas y alertas para realizar un seguimiento de ellas:
    • Identifica las métricas del sistema y de la empresa para supervisar el evento. Si no se recopilan métricas o indicadores de nivel de servicio (SLI), modifica el sistema para recopilar estos datos.
    • Asegúrate de tener suficientes funciones de supervisión y alertas, y de haber revisado los patrones de tráfico máximos normales y anteriores. Asegúrate de que las alertas estén configuradas de forma correcta. Usa las herramientas de Google Cloud Monitoring para ver el uso de la aplicación, la capacidad y el estado general de las aplicaciones y la infraestructura.
    • Asegúrate de que las métricas del sistema se capturen con niveles de supervisión y alerta de interés.
  • Revisa los requisitos de mayor capacidad con tu equipo de cuentas de Google Cloud y planifica la administración de cuotas requerida. Para obtener más detalles, revisa Asegúrate de que las cuotas coincidan con los requisitos de capacidad.
  • Asegúrate de tener niveles de asistencia de nube adecuados, de que tu equipo comprenda cómo abrir casos de asistencia y que tengas establecida una ruta de derivación. Para obtener más detalles, revisa la sección sobre cómo establecer los procesos de derivación y asistencia de la nube.
  • Define un plan de comunicación, un cronograma y las responsabilidades:
    • Interactúa con las partes interesadas multifuncionales para coordinar la comunicación y la planificación del programa. Estas partes interesadas pueden incluir personas adecuadas de equipos técnicos, operativos y de liderazgo, y proveedores externos.
    • Establece un cronograma claro que contenga las tareas críticas y los equipos responsables de ellas.
    • Establece una matriz de asignación de responsabilidades (RACI) para comunicar la propiedad a los equipos, los líderes de equipos, las partes interesadas y las partes responsables.
    • Puedes usar el Servicio de administración de eventos de la Asistencia premium para eventos planificados de tráfico máximo. Con este servicio, la Atención al cliente se asocia con tu equipo para crear un plan y proporcionar orientación durante el evento.

Establecer procesos de revisión

Cuando finalice el evento de tráfico máximo o de lanzamiento, revísalo para documentar las lecciones que aprendiste. Luego, actualiza tu guía con esas lecciones. Por último, aplica lo que aprendiste en el próximo evento mayor. Es importante aprender de los eventos anteriores, en especial, cuando se destacan restricciones del sistema bajo estrés.

Las revisiones retrospectivas, también llamadas post mortem, para eventos de tráfico máximo o eventos de lanzamiento son una técnica útil a fin de capturar datos y comprender los incidentes que ocurrieron. Realiza esta revisión para el tráfico máximo y los eventos de lanzamiento que se ejecutaron como se esperaba y para cualquier incidente que haya causado problemas. A medida que hagas esta revisión, fomenta una cultura libre de culpas.

Para obtener más información sobre los procesos a posteriori, consulta Cultura a posteriori: Aprender de los fracasos.

¿Qué sigue?