Se usó la API de Cloud Translation para traducir esta página.

Well-Architected Framework: Pilar de excelencia operativa

Last reviewed 2025-02-14 UTC

El pilar de excelencia operativa del Google Cloud marco de trabajo bien diseñado proporciona recomendaciones para operar cargas de trabajo de manera eficiente en Google Cloud. La excelencia operativa en la nube implica diseñar, implementar y administrar soluciones en la nube que proporcionen valor, rendimiento, seguridad y confiabilidad. Las recomendaciones de este pilar te ayudan a mejorar y adaptar continuamente las cargas de trabajo para satisfacer las necesidades dinámicas y en constante evolución de la nube.

El pilar de excelencia operativa es pertinente para los siguientes públicos:

Administradores y líderes: Un framework para establecer y mantener la excelencia operativa en la nube, y garantizar que las inversiones en la nube aporten valor y respalden los objetivos comerciales.
Equipos de operaciones en la nube: Orientación para administrar incidentes y problemas, planificar la capacidad, optimizar el rendimiento y administrar los cambios
Ingenieros de confiabilidad de sitios (SRE): Prácticas recomendadas que te ayudan a alcanzar altos niveles de confiabilidad del servicio, incluida la supervisión, la respuesta ante incidentes y la automatización.
Arquitectos e ingenieros de la nube: Requisitos operativos y prácticas recomendadas para las fases de diseño e implementación, que ayudan a garantizar que las soluciones se diseñen para lograr eficiencia operativa y escalabilidad.
Equipos de DevOps: Orientación sobre automatización, canalizaciones de CI/CD y administración de cambios para ayudar a habilitar una entrega de software más rápida y confiable

Para lograr la excelencia operativa, debes adoptar la automatización, la orquestación y las estadísticas basadas en datos. La automatización ayuda a eliminar el trabajo manual. También optimiza y crea medidas de protección en torno a las tareas repetitivas. La organización ayuda a coordinar procesos complejos. Las estadísticas basadas en datos permiten tomar decisiones fundamentadas en evidencia. Si usas estas prácticas, puedes optimizar las operaciones en la nube, reducir los costos, mejorar la disponibilidad del servicio y aumentar la seguridad.

La excelencia operativa en la nube va más allá de la competencia técnica en las operaciones en la nube. Incluye un cambio cultural que fomenta el aprendizaje y la experimentación continuos. Los equipos deben tener la capacidad de innovar, iterar y adoptar una mentalidad de crecimiento. Una cultura de excelencia operativa fomenta un entorno de colaboración en el que se alienta a las personas a compartir ideas, cuestionar suposiciones y promover mejoras.

Para conocer los principios y las recomendaciones de excelencia operativa específicos de las cargas de trabajo de IA y AA, consulta Perspectiva de IA y AA: excelencia operativa en el Framework de Well-Architected.

Principios básicos

Las recomendaciones del pilar de excelencia operativa del Framework de Well-Architected se correlacionan con los siguientes principios básicos:

Garantiza la preparación y el rendimiento operativos con CloudOps: Garantiza que las soluciones en la nube cumplan con los requisitos operativos y de rendimiento. Para ello, define objetivos de nivel de servicio (SLO) y realiza una supervisión integral, pruebas de rendimiento y planificación de capacidad.
Administrar incidentes y problemas: Minimiza el impacto de los incidentes en la nube y evita su recurrencia a través de una observabilidad integral, procedimientos claros de respuesta ante incidentes, retrospectivas exhaustivas y medidas preventivas.
Administra y optimiza los recursos de la nube: Optimiza y administra los recursos de la nube con estrategias como el ajuste de tamaño adecuado, el ajuste de escala automático y el uso de herramientas eficaces de supervisión de costos.
Automatiza y administra los cambios: Automatiza procesos, optimiza la administración de cambios y alivia la carga del trabajo manual.
Mejora e innova de forma continua: Enfócate en las mejoras continuas y la introducción de nuevas soluciones para mantenerte competitivo.

Colaboradores

Autores:

Ryan Cox | Arquitecto principal
Hadrian Knotz | Arquitecto empresarial

Otros colaboradores:

Daniel Lees | Arquitecto de Seguridad en la Nube
Filipe Gracio, PhD | Ingeniero de Atención al Cliente y especialista en IA/AA
Gary Harmson | Arquitecto principal
José Andrade | Ingeniero de Atención al cliente, especialista en SRE
Autor: Kumar Dhanagopal | Desarrollador de soluciones entre productos
Nicolas Pintaux | Ingeniero de Atención al Cliente y especialista en modernización de aplicaciones
Radhika Kanakam | Líder del programa, Google Cloud Well-Architected Framework
Samantha He | Escritora técnica
Zach Seils | Especialista en herramientas de redes
Wade Holmes | Director de Soluciones Globales

Garantiza la preparación y el rendimiento operativos con CloudOps

Este principio del pilar de excelencia operativa del Google Cloud framework de Well-Architected te ayuda a garantizar la preparación operativa y el rendimiento de tus cargas de trabajo en la nube. Se hace hincapié en establecer expectativas y compromisos claros para el rendimiento del servicio, implementar una supervisión y alertas sólidas, realizar pruebas de rendimiento y planificar de forma proactiva las necesidades de capacidad.

Descripción general del principio

Es posible que las diferentes organizaciones interpreten la preparación operativa de manera diferente. La preparación operativa es la forma en que tu organización se prepara para operar con éxito las cargas de trabajo en Google Cloud. Prepararse para operar una carga de trabajo en la nube compleja y de varias capas requiere una planificación cuidadosa tanto para el lanzamiento como para las operaciones del day-2. Estas operaciones suelen llamarse CloudOps.

Áreas de enfoque de la preparación operativa

La preparación operativa consta de cuatro áreas de enfoque. Cada área de enfoque consta de un conjunto de actividades y componentes necesarios para prepararse para operar una aplicación o un entorno complejos en Google Cloud. En la siguiente tabla, se enumeran los componentes y las actividades de cada área de enfoque:

Área de enfoque de la preparación operativa	Actividades y componentes
Personal	Definir roles y responsabilidades claros para los equipos que administran y operan los recursos de la nube Asegurarse de que los miembros del equipo tengan las habilidades adecuadas Desarrollar un programa de aprendizaje Establecer una estructura de equipo clara Contratar el talento necesario
Procesos	Observabilidad. Administrar las interrupciones del servicio Entrega en la nube Operaciones principales en la nube
Herramientas	Herramientas necesarias para admitir procesos de CloudOps
Administración	Niveles de servicio y generación de informes. Finanzas de la nube Modelo operativo de la nube Juntas de revisión y administración de la arquitectura Arquitectura y cumplimiento de la nube

Recomendaciones

Para garantizar la preparación y el rendimiento operativos con CloudOps, considera las recomendaciones de las siguientes secciones. Cada recomendación de este documento es pertinente para una o más de las áreas de enfoque de la preparación operativa.

Define los SLO y los ANS

Una responsabilidad central del equipo de operaciones en la nube es definir los objetivos de nivel de servicio (SLO) y los acuerdos de nivel de servicio (SLA) para todas las cargas de trabajo críticas. Esta recomendación es pertinente para el área de enfoque de preparación operativa de la gobernanza.

Los SLO deben ser específicos, medibles, alcanzables, pertinentes y con plazos determinados (SMART), y deben reflejar el nivel de servicio y rendimiento que deseas.

Específica: Articula claramente el nivel de servicio y rendimiento requeridos.
Medible: Cuantificable y rastreable.
Alcanzable: Se puede lograr dentro de los límites de las capacidades y los recursos de tu organización.
Pertinente: Se alinea con los objetivos y las prioridades comerciales.
Delimitada en el tiempo: Tiene un período definido para la medición y la evaluación.

Por ejemplo, un SLO para una aplicación web podría ser "disponibilidad del 99.9%" o "tiempo de respuesta promedio inferior a 200 ms". Estos SLO definen claramente el nivel de servicio y el rendimiento requeridos para la aplicación web, y se pueden medir y hacer un seguimiento de ellos a lo largo del tiempo.

Los ANS describen los compromisos con los clientes en relación con la disponibilidad, el rendimiento y la asistencia del servicio, incluidas las penalizaciones o los recursos por incumplimiento. Los ANS deben incluir detalles específicos sobre los servicios que se proporcionan, el nivel de servicio que se puede esperar, las responsabilidades del proveedor de servicios y del cliente, y las penalizaciones o los recursos por incumplimiento. Los ANS sirven como un acuerdo contractual entre las dos partes, lo que garantiza que ambas tengan una comprensión clara de las expectativas y las obligaciones asociadas con el servicio en la nube.

Google Cloud proporciona herramientas como Cloud Monitoring y los indicadores de nivel de servicio (SLI) para ayudarte a definir y hacer un seguimiento de los SLO. Cloud Monitoring proporciona capacidades integrales de supervisión y observabilidad que permiten a tu organización recopilar y analizar métricas relacionadas con la disponibilidad, el rendimiento y la latencia de las aplicaciones y los servicios basados en la nube. Los SLI son métricas específicas que puedes usar para medir y hacer un seguimiento de los SLO a lo largo del tiempo. Con estas herramientas, puedes supervisar y administrar de manera eficaz los servicios en la nube, y asegurarte de que cumplan con los SLO y los ANS.

Definir y comunicar claramente los SLO y los ANS para todos tus servicios en la nube críticos ayuda a garantizar la confiabilidad y el rendimiento de tus aplicaciones y servicios implementados.

Implementa una observabilidad integral

Para obtener visibilidad en tiempo real del estado y el rendimiento de tu entorno de nube, te recomendamos que uses una combinación de herramientas de Google Cloud Observability y soluciones de terceros. Esta recomendación es pertinente para las siguientes áreas de enfoque de la preparación operativa: procesos y herramientas.

Implementar una combinación de soluciones de observabilidad te proporciona una estrategia integral que abarca varios aspectos de tu infraestructura y aplicaciones en la nube. Google Cloud Observability es una plataforma unificada para recopilar, analizar y visualizar métricas, registros y seguimientos de diversosGoogle Cloud servicios, aplicaciones y fuentes externas. Con Cloud Monitoring, puedes obtener estadísticas sobre el uso de recursos, las características de rendimiento y el estado general de tus recursos.

Para garantizar una supervisión integral, supervisa las métricas importantes que se alineen con los indicadores de estado del sistema, como el uso de CPU, el uso de memoria, el tráfico de red, las E/S de disco y los tiempos de respuesta de las aplicaciones. También debes tener en cuenta las métricas específicas de la empresa. Si haces un seguimiento de estas métricas, podrás identificar posibles cuellos de botella, problemas de rendimiento y limitaciones de recursos. Además, puedes configurar alertas para notificar de forma proactiva a los equipos pertinentes sobre posibles problemas o anomalías.

Para mejorar aún más tus capacidades de supervisión, puedes integrar soluciones de terceros con Google Cloud Observability. Estas soluciones pueden proporcionar funciones adicionales, como análisis avanzados, detección de anomalías potenciada por aprendizaje automático y capacidades de administración de incidentes. Esta combinación de herramientas de observabilidad de Google Cloud y soluciones de terceros te permite crear un ecosistema de supervisión sólido y personalizable que se adapta a tus necesidades específicas. Si usas este enfoque combinado, puedes identificar y abordar problemas de forma proactiva, optimizar el uso de recursos y garantizar la confiabilidad y disponibilidad generales de tus aplicaciones y servicios en la nube.

Implementa pruebas de rendimiento y de carga

Realizar pruebas de rendimiento periódicas te ayuda a garantizar que tus aplicaciones y tu infraestructura basadas en la nube puedan controlar las cargas máximas y mantener un rendimiento óptimo. Las pruebas de carga simulan patrones de tráfico realistas. Las pruebas de estrés llevan el sistema al límite para identificar posibles cuellos de botella y limitaciones de rendimiento. Esta recomendación es pertinente para las siguientes áreas de enfoque de la preparación operativa: procesos y herramientas.

Las herramientas como Cloud Load Balancing y los servicios de prueba de carga pueden ayudarte a simular patrones de tráfico del mundo real y a realizar pruebas de estrés en tus aplicaciones. Estas herramientas proporcionan información valiosa sobre el comportamiento del sistema en diversas condiciones de carga y pueden ayudarte a identificar las áreas que requieren optimización.

Según los resultados de las pruebas de rendimiento, puedes tomar decisiones para optimizar tu infraestructura y aplicaciones en la nube y lograr un rendimiento y una escalabilidad óptimos. Esta optimización puede implicar ajustar la asignación de recursos, configurar los parámetros o implementar mecanismos de almacenamiento en caché.

Por ejemplo, si detectas que tu aplicación se ralentiza durante los períodos de tráfico alto, es posible que debas aumentar la cantidad de máquinas virtuales o contenedores asignados a la aplicación. Como alternativa, es posible que debas ajustar la configuración de tu servidor web o base de datos para mejorar el rendimiento.

Si realizas pruebas de rendimiento con regularidad y aplicas las optimizaciones necesarias, puedes asegurarte de que tus aplicaciones y tu infraestructura basadas en la nube siempre funcionen con el máximo rendimiento y brinden una experiencia fluida y receptiva a tus usuarios. Hacerlo puede ayudarte a mantener una ventaja competitiva y generar confianza entre tus clientes.

Planifica y administra la capacidad

Planificar de forma proactiva las necesidades de capacidad futuras, ya sean orgánicas o inorgánicas, te ayuda a garantizar el funcionamiento sin problemas y la escalabilidad de tus sistemas basados en la nube. Esta recomendación es pertinente para el área de enfoque de procesos de la preparación operativa.

La planificación de la capacidad futura incluye la comprensión y la administración de las cuotas para varios recursos, como instancias de procesamiento, almacenamiento y solicitudes a la API. Si analizas los patrones de uso históricos, las proyecciones de crecimiento y los requisitos comerciales, puedes anticipar con precisión los requisitos de capacidad futuros. Puedes usar herramientas como Cloud Monitoring y BigQuery para recopilar y analizar datos de uso, identificar tendencias y predecir la demanda futura.

Los patrones de uso históricos proporcionan estadísticas valiosas sobre la utilización de recursos a lo largo del tiempo. Si examinas métricas como el uso de CPU, el uso de memoria y el tráfico de red, puedes identificar períodos de alta demanda y posibles cuellos de botella. Además, puedes ayudar a estimar las necesidades futuras de capacidad realizando proyecciones de crecimiento basadas en factores como el crecimiento de la base de usuarios, los nuevos productos y funciones, y las campañas de marketing. Cuando evalúes las necesidades de capacidad, también debes tener en cuenta los requisitos comerciales, como los ANS y los objetivos de rendimiento.

Cuando determines el tamaño de los recursos para una carga de trabajo, ten en cuenta los factores que pueden afectar el uso de los recursos. Las variaciones estacionales, como los períodos de compras de festividades o las ventas de fin de trimestre, pueden generar aumentos temporales en la demanda. Los eventos planificados, como los lanzamientos de productos o las campañas de marketing, también pueden aumentar significativamente el tráfico. Para asegurarte de que tu sistema principal y el de recuperación ante desastres (DR) puedan controlar aumentos inesperados en la demanda, planifica la capacidad que pueda admitir una conmutación por error correcta durante interrupciones como desastres naturales y ciberataques.

El ajuste de escala automático es una estrategia importante para ajustar de forma dinámica tus recursos de la nube según las fluctuaciones de la carga de trabajo. Con las políticas de ajuste de escala automático, puedes ajustar automáticamente la escala de las instancias de procesamiento, el almacenamiento y otros recursos en respuesta a la demanda cambiante. Esto garantiza un rendimiento óptimo durante los períodos de mayor actividad y minimiza los costos cuando el uso de recursos es bajo. Los algoritmos de ajuste de escala automático usan métricas como el uso de CPU, el uso de memoria y la profundidad de la cola para determinar cuándo escalar los recursos.

Supervisa y optimiza de forma continua

Para administrar y optimizar las cargas de trabajo en la nube, debes establecer un proceso para supervisar y analizar continuamente las métricas de rendimiento. Esta recomendación es pertinente para las siguientes áreas de enfoque de la preparación operativa: procesos y herramientas.

Para establecer un proceso de supervisión y análisis continuos, debes hacer un seguimiento, recopilar y evaluar los datos relacionados con diversos aspectos de tu entorno de nube. Con estos datos, puedes identificar de forma proactiva las áreas de mejora, optimizar el uso de recursos y asegurarte de que tu infraestructura de nube cumpla o supere constantemente tus expectativas de rendimiento.

Un aspecto importante de la supervisión del rendimiento es revisar periódicamente los registros y los seguimientos. Los registros proporcionan estadísticas valiosas sobre eventos, errores y advertencias del sistema. Los registros de seguimiento proporcionan información detallada sobre el flujo de solicitudes a través de tu aplicación. Al analizar los registros y los seguimientos, puedes identificar posibles problemas, determinar las causas raíz de los problemas y comprender mejor cómo se comportan tus aplicaciones en diferentes condiciones. Las métricas como el tiempo de ida y vuelta entre los servicios pueden ayudarte a identificar y comprender los cuellos de botella que se producen en tus cargas de trabajo.

Además, puedes usar técnicas de ajuste del rendimiento para mejorar significativamente los tiempos de respuesta de la aplicación y la eficiencia general. A continuación, se muestran ejemplos de técnicas que puedes usar:

Almacenamiento en caché: Almacena en la memoria los datos a los que se accede con frecuencia para reducir la necesidad de realizar consultas repetidas a la base de datos o llamadas a la API.
Optimización de la base de datos: Usa técnicas como la indexación y la optimización de consultas para mejorar el rendimiento de las operaciones de la base de datos.
Generación de perfiles de código: Identifica las áreas de tu código que consumen recursos en exceso o causan problemas de rendimiento.

Si aplicas estas técnicas, puedes optimizar tus aplicaciones y asegurarte de que se ejecuten de manera eficiente en la nube.

Administra incidentes y problemas

Este principio del pilar de excelencia operativa del Google Cloud Framework de Well-Architected proporciona recomendaciones para ayudarte a administrar incidentes y problemas relacionados con tus cargas de trabajo en la nube. Esto implica implementar una supervisión y una observabilidad integrales, establecer procedimientos claros de respuesta ante incidentes, realizar análisis exhaustivos de la causa raíz e implementar medidas preventivas. Muchos de los temas que se analizan en este principio se tratan en detalle en el pilar de Confiabilidad.

Descripción general del principio

La administración de incidentes y la administración de problemas son componentes importantes de un entorno de operaciones funcional. La forma en que respondas, categorices y resuelvas incidentes de gravedad diferente puede afectar de manera significativa tus operaciones. También debes realizar ajustes de forma proactiva y continua para optimizar la confiabilidad y el rendimiento. Un proceso eficiente para la administración de incidentes y problemas se basa en los siguientes elementos fundamentales:

Supervisión continua: Identifica y resuelve problemas rápidamente.
Automatización: Optimiza las tareas y mejora la eficiencia.
Orquestación: Coordina y administra los recursos de la nube de manera eficaz.
Estadísticas basadas en datos: Optimiza las operaciones en la nube y toma decisiones fundamentadas.

Estos elementos te ayudan a crear un entorno de nube resiliente que puede hacer frente a una amplia variedad de desafíos e interrupciones. Estos elementos también pueden ayudarte a reducir el riesgo de incidentes costosos y tiempos de inactividad, y a lograr una mayor agilidad y éxito empresarial. Estos elementos fundamentales se distribuyen en las cuatro áreas de enfoque de la preparación operativa: personal, procesos, herramientas y administración.

Recomendaciones

Para administrar los incidentes y problemas de manera eficaz, ten en cuenta las recomendaciones de las siguientes secciones. Cada recomendación de este documento es pertinente para una o más de las áreas de enfoque de la preparación operativa.

Establece procedimientos claros de respuesta ante incidentes

Es fundamental que haya roles y responsabilidades claros para garantizar una respuesta eficaz y coordinada ante los incidentes. Además, los protocolos de comunicación y las rutas de derivación claros ayudan a garantizar que la información se comparta de manera oportuna y eficaz durante un incidente. Esta recomendación es pertinente para las siguientes áreas de enfoque de la preparación operativa: personal, procesos y herramientas.

Para establecer procedimientos de respuesta ante incidentes, debes definir los roles y las expectativas de cada miembro del equipo, como los comandantes de incidentes, los investigadores, los comunicadores y los expertos técnicos. Establecer rutas de comunicación y derivación incluye identificar contactos importantes, configurar canales de comunicación y definir el proceso para derivar incidentes a niveles más altos de administración cuando sea necesario. La capacitación y la preparación periódicas ayudan a garantizar que los equipos tengan el conocimiento y las habilidades necesarios para responder a los incidentes de manera eficaz.

Si documentas los procedimientos de respuesta ante incidentes en un runbook o una guía, puedes proporcionar una guía de referencia estandarizada para que los equipos la sigan durante un incidente. El manual de operaciones debe describir los pasos que se deben seguir en cada etapa del proceso de respuesta ante incidentes, incluidas la comunicación, la clasificación, la investigación y la resolución. También debe incluir información sobre herramientas y recursos pertinentes, así como la información de contacto del personal importante. Debes revisar y actualizar periódicamente el manual para asegurarte de que siga siendo actual y eficaz.

Centraliza la administración de incidentes

Para realizar un seguimiento y una administración eficaces durante todo el ciclo de vida del incidente, considera usar un sistema de administración de incidentes centralizado. Esta recomendación es pertinente para las siguientes áreas de enfoque de la preparación operativa: procesos y herramientas.

Un sistema centralizado de administración de incidentes proporciona las siguientes ventajas:

Mayor visibilidad: Al consolidar todos los datos relacionados con incidentes en una sola ubicación, se elimina la necesidad de que los equipos busquen contexto en varios canales o sistemas. Este enfoque ahorra tiempo y reduce la confusión, además de brindar a las partes interesadas una vista integral del incidente, incluido su estado, impacto y progreso.
Mejor coordinación y colaboración: Un sistema centralizado proporciona una plataforma unificada para la comunicación y la administración de tareas. Promueve la colaboración fluida entre los diferentes departamentos y funciones que participan en la respuesta ante incidentes. Este enfoque garantiza que todos tengan acceso a información actualizada y reduce el riesgo de falta de comunicación y desalineación.
Mayor responsabilidad y propiedad: Un sistema centralizado de administración de incidentes permite que tu organización asigne tareas a personas o equipos específicos, y garantiza que las responsabilidades se definan y se supervisen con claridad. Este enfoque promueve la responsabilidad y fomenta la resolución proactiva de problemas, ya que los miembros del equipo pueden supervisar fácilmente su progreso y sus contribuciones.

Un sistema centralizado de administración de incidentes debe ofrecer funciones sólidas para el seguimiento de incidentes, la asignación de tareas y la administración de la comunicación. Estas funciones te permiten personalizar flujos de trabajo, establecer prioridades y realizar integraciones con otros sistemas, como herramientas de supervisión y sistemas de generación de tickets.

Si implementas un sistema centralizado de administración de incidentes, puedes optimizar los procesos de respuesta ante incidentes de tu organización, mejorar la colaboración y aumentar la visibilidad. Esto permite reducir los tiempos de resolución de incidentes, el tiempo de inactividad y mejorar la satisfacción del cliente. También ayuda a fomentar una cultura de mejora continua, ya que puedes aprender de los incidentes pasados e identificar áreas de mejora.

Realiza revisiones exhaustivas posteriores a los incidentes

Después de que ocurre un incidente, debes realizar una revisión posterior al incidente (PIR) detallada, también conocida como post mortem, para identificar la causa raíz, los factores que contribuyeron y las lecciones aprendidas. Esta revisión exhaustiva te ayuda a evitar incidentes similares en el futuro. Esta recomendación es pertinente para las siguientes áreas de enfoque de la preparación operativa: procesos y gobernanza.

El proceso de PIR debe involucrar a un equipo multidisciplinario que tenga experiencia en varios aspectos del incidente. El equipo debe recopilar toda la información pertinente a través de entrevistas, revisión de documentación e inspecciones del sitio. Se debe crear una cronología de eventos para establecer la secuencia de acciones que condujeron al incidente.

Después de que el equipo recopila la información requerida, debe realizar un análisis de causa raíz para determinar los factores que provocaron el incidente. Este análisis debe identificar tanto la causa inmediata como los problemas sistémicos que contribuyeron al incidente.

Además de identificar la causa raíz, el equipo de PIR debe identificar cualquier otro factor que haya contribuido al incidente. Estos factores pueden incluir errores humanos, fallas en los equipos o factores organizacionales, como interrupciones en la comunicación y falta de capacitación.

El informe de PIR debe documentar los hallazgos de la investigación, incluido el cronograma de eventos, el análisis de la causa raíz y las acciones recomendadas. El informe es un recurso valioso para implementar acciones correctivas y evitar que se repitan los problemas. El informe se debe compartir con todas las partes interesadas pertinentes y se debe usar para desarrollar capacitaciones y procedimientos de seguridad.

Para garantizar un proceso de PIR exitoso, tu organización debe fomentar una cultura sin culpables que se centre en el aprendizaje y la mejora en lugar de asignar culpas. Esta cultura alienta a las personas a denunciar incidentes sin temor a represalias, y te permite abordar problemas sistémicos y realizar mejoras significativas.

Si realizas PIR exhaustivas y aplicas medidas correctivas según los hallazgos, puedes reducir significativamente el riesgo de que ocurran incidentes similares en el futuro. Este enfoque proactivo para la investigación y prevención de incidentes ayuda a crear un entorno de trabajo más seguro y eficiente para todos los involucrados.

Mantener una base de conocimiento

Una base de conocimiento de problemas conocidos, soluciones y guías de solución de problemas es fundamental para la administración y resolución de incidentes. Los miembros del equipo pueden usar la base de conocimiento para identificar y abordar rápidamente los problemas comunes. Implementar una base de conocimiento ayuda a reducir la necesidad de derivaciones y mejora la eficiencia general. Esta recomendación es pertinente para las siguientes áreas de enfoque de la preparación operativa: personal y procesos.

Un beneficio principal de una base de conocimiento es que permite a los equipos aprender de experiencias pasadas y evitar repetir errores. Al capturar y compartir soluciones a problemas conocidos, los equipos pueden desarrollar una comprensión colectiva de cómo resolver problemas comunes y de las prácticas recomendadas para la administración de incidentes. El uso de una base de conocimiento ahorra tiempo y esfuerzo, y ayuda a estandarizar los procesos y garantizar la coherencia en la resolución de incidentes.

Además de ayudar a mejorar los tiempos de resolución de incidentes, una base de conocimiento promueve el intercambio de conocimiento y la colaboración entre los equipos. Con un repositorio central de información, los equipos pueden acceder fácilmente a la base de conocimiento y contribuir a ella, lo que promueve una cultura de aprendizaje y mejora continuos. Esta cultura alienta a los equipos a compartir su experiencia y conocimientos, lo que genera una base de conocimiento más integral y valiosa.

Para crear y administrar una base de conocimiento de manera eficaz, usa las herramientas y tecnologías adecuadas. Las plataformas de colaboración, como Google Workspace, son ideales para este propósito, ya que te permiten crear, editar y compartir documentos de forma colaborativa con facilidad. Estas herramientas también admiten el control de versión y el seguimiento de cambios, lo que garantiza que la base de conocimiento se mantenga actualizada y precisa.

Haz que la base de conocimiento sea fácilmente accesible para todos los equipos pertinentes. Para ello, puedes integrar la base de conocimiento con los sistemas de administración de incidentes existentes o proporcionar un portal o sitio de intranet exclusivo. Una base de conocimiento disponible permite que los equipos accedan rápidamente a la información que necesitan para resolver incidentes de manera eficiente. Esta disponibilidad ayuda a reducir el tiempo de inactividad y minimizar el impacto en las operaciones comerciales.

Revisa y actualiza periódicamente la base de conocimiento para asegurarte de que siga siendo pertinente y útil. Supervisar los informes de incidentes, identificar problemas y tendencias comunes, e incorporar nuevas soluciones y guías de solución de problemas en la base de conocimiento Una base de conocimiento actualizada ayuda a tus equipos a resolver incidentes de forma más rápida y eficaz.

Automatiza la respuesta ante incidentes

La automatización ayuda a optimizar los procesos de respuesta ante incidentes y corrección. Te permite abordar las violaciones de seguridad y las fallas del sistema de manera rápida y eficiente. Con Google Cloud productos como Cloud Run Functions o Cloud Run, puedes automatizar varias tareas que suelen ser manuales y requieren mucho tiempo. Esta recomendación es pertinente para las siguientes áreas de enfoque de la preparación operativa: procesos y herramientas.

La respuesta ante incidentes automatizada proporciona los siguientes beneficios:

Reducción de los tiempos de detección y resolución de incidentes: Las herramientas automatizadas pueden supervisar continuamente los sistemas y las aplicaciones, detectar actividades sospechosas o anómalas en tiempo real, y notificar a las partes interesadas o responder sin intervención. Esta automatización te permite identificar posibles amenazas o problemas antes de que se conviertan en incidentes graves. Cuando se detecta un incidente, las herramientas automatizadas pueden activar acciones de corrección predefinidas, como aislar los sistemas afectados, poner en cuarentena los archivos maliciosos o revertir los cambios para restablecer el sistema a un estado correcto conocido.
Menor carga para los equipos de seguridad y operaciones: La respuesta ante incidentes automatizada permite que los equipos de seguridad y operaciones se enfoquen en tareas más estratégicas. Al automatizar tareas rutinarias y repetitivas, como recopilar información de diagnóstico o activar alertas, tu organización puede liberar personal para que se encargue de incidentes más complejos y críticos. Esta automatización puede mejorar la eficacia y la eficiencia generales de la respuesta ante incidentes.
Mayor coherencia y precisión del proceso de corrección: Las herramientas automatizadas pueden garantizar que las acciones de corrección se apliquen de manera uniforme en todos los sistemas afectados, lo que minimiza el riesgo de errores o incoherencias humanas. Esta estandarización del proceso de corrección ayuda a minimizar el impacto de los incidentes en los usuarios y la empresa.

Administra y optimiza los recursos de la nube

Este principio del pilar de excelencia operativa del Google Cloud framework de Well-Architected proporciona recomendaciones para ayudarte a administrar y optimizar los recursos que usan tus cargas de trabajo en la nube. Implica ajustar el tamaño de los recursos según el uso y la demanda reales, usar el ajuste de escala automático para la asignación dinámica de recursos, implementar estrategias de optimización de costos y revisar periódicamente la utilización y los costos de los recursos. Muchos de los temas que se analizan en este principio se tratan en detalle en el pilar de optimización de costos.

Descripción general del principio

La administración y la optimización de los recursos de la nube desempeñan un papel fundamental en la optimización de la inversión en la nube, el uso de recursos y la eficiencia de la infraestructura. Incluye varias estrategias y prácticas recomendadas destinadas a maximizar el valor y el retorno de tu inversión en la nube.

El enfoque de este pilar en la optimización se extiende más allá de la reducción de costos. Se hace hincapié en los siguientes objetivos:

Eficiencia: Uso de la automatización y el análisis de datos para lograr el máximo rendimiento y ahorrar costos
Rendimiento: Escala los recursos sin esfuerzo para satisfacer las demandas fluctuantes y ofrecer resultados óptimos.
Escalabilidad: Adaptación de la infraestructura y los procesos para dar cabida a un crecimiento rápido y a cargas de trabajo diversas

Si te enfocas en estos objetivos, lograrás un equilibrio entre el costo y la funcionalidad. Puedes tomar decisiones fundamentadas sobre el aprovisionamiento, el ajuste de escala y la migración de recursos. Además, obtienes estadísticas valiosas sobre los patrones de consumo de recursos, lo que te permite identificar y abordar de forma proactiva los posibles problemas antes de que se agraven.

Recomendaciones

Para administrar y optimizar los recursos, ten en cuenta las recomendaciones de las siguientes secciones. Cada recomendación de este documento es pertinente para una o más de las áreas de enfoque de la preparación operativa.

Redimensiona los recursos.

La supervisión continua del uso de los recursos y el ajuste de la asignación de recursos para que coincida con la demanda real son fundamentales para una administración eficiente de los recursos en la nube. El aprovisionamiento excesivo de recursos puede generar costos innecesarios, y el aprovisionamiento insuficiente puede causar cuellos de botella de rendimiento que afecten el rendimiento de la aplicación y la experiencia del usuario. Para lograr un equilibrio óptimo, debes adoptar un enfoque proactivo para redimensionar los recursos de la nube. Esta recomendación es pertinente para el área de enfoque de preparación operativa de la gobernanza.

Cloud Monitoring y Recommender pueden ayudarte a identificar oportunidades para ajustar el tamaño de tus recursos. Cloud Monitoring proporciona visibilidad en tiempo real de las métricas de utilización de recursos. Esta visibilidad te permite hacer un seguimiento de los patrones de uso de recursos y detectar posibles ineficiencias. El Recomendador analiza los datos de uso de recursos para brindar recomendaciones inteligentes que optimicen la asignación de recursos. Con estas herramientas, puedes obtener estadísticas sobre el uso de recursos y tomar decisiones fundamentadas para ajustar el tamaño de los recursos.

Además de Cloud Monitoring y Recommender, considera usar métricas personalizadas para activar acciones de ajuste de tamaño automatizadas. Las métricas personalizadas te permiten hacer un seguimiento de las métricas de uso de recursos específicas que son relevantes para tus aplicaciones y cargas de trabajo. También puedes configurar alertas para notificar a los administradores cuando se alcancen los límites predefinidos. Luego, los administradores pueden tomar las medidas necesarias para ajustar la asignación de recursos. Este enfoque proactivo garantiza que los recursos se ajusten a tiempo, lo que ayuda a optimizar los costos de la nube y evitar problemas de rendimiento.

Usa el ajuste de escala automático

El ajuste de escala automático de los recursos de procesamiento y otros recursos ayuda a garantizar un rendimiento óptimo y la eficiencia en los costos de tus aplicaciones basadas en la nube. El ajuste de escala automático te permite ajustar de forma dinámica la capacidad de tus recursos según las fluctuaciones de la carga de trabajo, de modo que tengas los recursos que necesitas cuando los necesitas y puedas evitar el aprovisionamiento excesivo y los costos innecesarios. Esta recomendación es pertinente para el área de enfoque de procesos de la preparación operativa.

Para satisfacer las diversas necesidades de diferentes aplicaciones y cargas de trabajo,Google Cloud ofrece varias opciones de ajuste de escala automático, incluidas las siguientes:

Los grupos de instancias administrados (MIG) de Compute Engine son grupos de VMs que se administran y escalan como una sola entidad. Con los MIGs, puedes definir políticas de ajuste de escala automático que especifiquen la cantidad mínima y máxima de VMs que se deben mantener en el grupo, y las condiciones que activan el ajuste de escala automático. Por ejemplo, puedes configurar una política para agregar VMs a un MIG cuando el uso de CPU alcanza un umbral determinado y para quitar VMs cuando el uso cae por debajo de un umbral diferente.
El ajuste de escala automático de Google Kubernetes Engine (GKE) ajusta de forma dinámica los recursos del clúster para satisfacer las necesidades de tu aplicación. Ofrece las siguientes herramientas:
- El escalador automático del clúster agrega o quita nodos según las demandas de recursos de los Pods.
- El Horizontal Pod Autoscaler cambia la cantidad de réplicas de Pod en función de la CPU, la memoria o las métricas personalizadas.
- El Ajuste de escala automático vertical de Pods ajusta las solicitudes y los límites de recursos de Pods según los patrones de uso.
- El aprovisionamiento automático de nodos crea automáticamente grupos de nodos optimizados para tus cargas de trabajo.
Estas herramientas trabajan en conjunto para optimizar el uso de recursos, garantizar el rendimiento de las aplicaciones y simplificar la administración de clústeres.
Cloud Run es una plataforma sin servidores que te permite ejecutar código sin tener que administrar la infraestructura. Cloud Run ofrece ajuste de escala automático integrado, que ajusta automáticamente la cantidad de instancias según el tráfico entrante. Cuando aumenta el volumen de tráfico, Cloud Run escala verticalmente la cantidad de instancias para controlar la carga. Cuando el tráfico disminuye, Cloud Run reduce la cantidad de instancias para reducir los costos.

Con estas opciones de ajuste de escala automático, puedes asegurarte de que tus aplicaciones basadas en la nube tengan los recursos que necesitan para controlar las cargas de trabajo variables y, al mismo tiempo, evitar el aprovisionamiento excesivo y los costos innecesarios. El uso del ajuste de escala automático puede mejorar el rendimiento, ahorrar costos y usar los recursos de la nube de manera más eficiente.

Aprovecha las estrategias de optimización de costos

Optimizar la inversión en la nube te ayuda a administrar de manera eficaz los presupuestos de TI de tu organización. Esta recomendación es pertinente para el área de enfoque de preparación operativa de la gobernanza.

Google Cloud ofrece varias herramientas y técnicas para ayudarte a optimizar los costos de la nube. Con estas herramientas y técnicas, puedes obtener el mejor valor de tu inversión en la nube. Estas herramientas y técnicas te ayudan a identificar áreas en las que se pueden reducir los costos, como identificar recursos subutilizados o recomendar tipos de instancias más rentables. Google Cloud Las opciones para ayudar a optimizar los costos de la nube incluyen las siguientes:

Los descuentos por compromiso de uso (CUD) son descuentos por comprometerse a un cierto nivel de uso durante un período.
Los descuentos por uso continuo en Compute Engine proporcionan descuentos por el uso constante de un servicio.
Las VMs Spot proporcionan acceso a la capacidad de VM sin usar a un costo más bajo en comparación con las VMs normales.

Los modelos de precios pueden cambiar con el tiempo, y es posible que se introduzcan nuevas funciones que ofrezcan un mejor rendimiento o un costo más bajo en comparación con las opciones existentes. Por lo tanto, debes revisar periódicamente los modelos de precios y considerar funciones alternativas. Si te mantienes al tanto de los modelos de precios y las funciones más recientes, podrás tomar decisiones fundamentadas sobre tu arquitectura de nube para minimizar los costos.

Las herramientas de Administración de costos deGoogle Cloud, como los presupuestos y las alertas, proporcionan estadísticas valiosas sobre la inversión en la nube. Los presupuestos y las alertas permiten a los usuarios establecer presupuestos y recibir alertas cuando se superan. Estas herramientas ayudan a los usuarios a hacer un seguimiento de sus gastos en la nube y a identificar las áreas en las que se pueden reducir los costos.

Realiza un seguimiento del uso y los costos de los recursos

Puedes usar el etiquetado para hacer un seguimiento del uso y los costos de los recursos. Si asignas etiquetas a tus recursos de la nube, como proyectos, departamentos o cualquier otra dimensión pertinente, puedes categorizar y organizar los recursos. Esto te permite supervisar y analizar los patrones de gasto de recursos específicos, así como identificar áreas de uso elevado o posibles ahorros de costos. Esta recomendación es pertinente para las siguientes áreas de enfoque de la preparación operativa: gobernanza y herramientas.

Las herramientas como la Facturación de Cloud y la Administración de costos te ayudan a comprender de forma integral tus patrones de gastos. Estas herramientas proporcionan estadísticas detalladas sobre tu uso de la nube y te permiten identificar tendencias, prever costos y tomar decisiones fundamentadas. Si analizas los datos históricos y los patrones de gasto actuales, podrás identificar las áreas en las que debes centrar tus esfuerzos de optimización de costos.

Los informes y paneles personalizados te ayudan a visualizar los datos de costos y obtener estadísticas más detalladas sobre las tendencias de gastos. Si personalizas los paneles con métricas y dimensiones pertinentes, puedes supervisar los indicadores clave de rendimiento (KPI) y hacer un seguimiento del progreso hacia tus objetivos de optimización de costos. Los informes ofrecen análisis más detallados de los datos de costos. Los informes te permiten filtrar los datos por períodos o tipos de recursos específicos para comprender los factores subyacentes que contribuyen a tu inversión en la nube.

Revisa y actualiza periódicamente tus etiquetas, rótulos y herramientas de análisis de costos para asegurarte de tener la información más actualizada sobre tu uso y costos de la nube. Si te mantienes informado y realizas análisis posteriores a la implementación o revisiones proactivas de los costos, podrás identificar de inmediato cualquier aumento inesperado en la inversión. De esta manera, puedes tomar decisiones proactivas para optimizar los recursos de la nube y controlar los costos.

Establece la asignación de costos y la creación de presupuestos

La responsabilidad y la transparencia en la administración de costos en la nube son fundamentales para optimizar el uso de recursos y garantizar el control financiero. Esta recomendación es pertinente para el área de enfoque de preparación operativa de la gobernanza.

Para garantizar la responsabilidad y la transparencia, debes tener mecanismos claros para la asignación de costos y la devolución de cargos. Al asignar costos a equipos, proyectos o personas específicos, tu organización puede garantizar que cada una de estas entidades sea responsable de su uso de la nube. Esta práctica fomenta un sentido de propiedad y alienta la administración responsable de los recursos. Además, los mecanismos de contracargo permiten que tu organización recupere los costos de la nube de los clientes internos, alinee los incentivos con el rendimiento y promueva la disciplina fiscal.

Establecer presupuestos para diferentes equipos o proyectos es otro aspecto esencial de la administración de costos de la nube. Los presupuestos permiten que tu organización defina límites de inversión y haga un seguimiento de los gastos reales en comparación con esos límites. Este enfoque te permite tomar decisiones proactivas para evitar gastos descontrolados. Si estableces presupuestos realistas y alcanzables, puedes garantizar que los recursos de nube se utilicen de manera eficiente y estén alineados con los objetivos comerciales. La supervisión periódica del gasto real en comparación con los presupuestos te ayuda a identificar las variaciones y abordar los posibles excesos de inmediato.

Para supervisar los presupuestos, puedes usar herramientas como los presupuestos y las alertas de Facturación de Cloud. Estas herramientas proporcionan estadísticas en tiempo real sobre la inversión en la nube y notifican a las partes interesadas sobre posibles excesos. Con estas capacidades, puedes hacer un seguimiento de los costos de la nube y tomar medidas correctivas antes de que se produzcan desviaciones significativas. Este enfoque proactivo ayuda a evitar sorpresas financieras y garantiza que los recursos de la nube se usen de manera responsable.

Automatiza y administra los cambios

Este principio del pilar de excelencia operativa del Google Cloud Framework de Well-Architected proporciona recomendaciones para ayudarte a automatizar y administrar los cambios en tus cargas de trabajo en la nube. Implica implementar infraestructura como código (IaC), establecer procedimientos operativos estándar, implementar un proceso estructurado de administración de cambios y usar la automatización y la orquestación.

Descripción general del principio

La administración de cambios y la automatización desempeñan un rol fundamental para garantizar transiciones fluidas y controladas en los entornos de nube. Para una administración de cambios eficaz, debes usar estrategias y prácticas recomendadas que minimicen las interrupciones y garanticen que los cambios se integren sin problemas con los sistemas existentes.

La automatización y la administración de cambios eficaces incluyen los siguientes elementos fundamentales:

Gobernanza del cambio: Establece políticas y procedimientos claros para la administración de cambios, incluidos los procesos de aprobación y los planes de comunicación.
Evaluación de riesgos: Identifica los posibles riesgos asociados a los cambios y mitígalos con técnicas de gestión de riesgos.
Pruebas y validación: Prueba exhaustivamente los cambios para asegurarte de que cumplan con los requisitos funcionales y de rendimiento, y mitiga las posibles regresiones.
Implementación controlada: Implementa los cambios de forma controlada y asegúrate de que los usuarios realicen la transición al nuevo entorno sin problemas, con mecanismos para revertir la implementación sin inconvenientes si es necesario.

Estos elementos fundamentales ayudan a minimizar el impacto de los cambios y garantizan que tengan un efecto positivo en las operaciones comerciales. Estos elementos se representan con los procesos, las herramientas y las áreas de enfoque de la gobernanza de la preparación operativa.

Recomendaciones

Para automatizar y administrar el cambio, ten en cuenta las recomendaciones de las siguientes secciones. Cada recomendación de este documento es pertinente para una o más de las áreas de enfoque de la preparación operativa.

Adopta IaC

La infraestructura como código (IaC) es un enfoque transformador para administrar la infraestructura de nube. Puedes definir y administrar la infraestructura de nube de forma declarativa con herramientas como Terraform. La IaC te ayuda a lograr coherencia, repetibilidad y administración de cambios simplificada. También permite implementaciones más rápidas y confiables. Esta recomendación es pertinente para estas áreas de enfoque de la preparación operativa: procesos y herramientas.

Estos son los principales beneficios de adoptar el enfoque de IaC para tus implementaciones en la nube:

Configuraciones de recursos legibles: Con el enfoque de IaC, puedes declarar tus recursos de infraestructura de nube en un formato legible, como JSON o YAML. Los administradores y operadores de infraestructura pueden comprender y modificar fácilmente la infraestructura, y colaborar con otras personas.
Coherencia y repetibilidad: La IaC permite la coherencia y la repetibilidad en tus implementaciones de infraestructura. Puedes asegurarte de que tu infraestructura se aprovisione y configure de la misma manera cada vez, independientemente de quién realice la implementación. Este enfoque ayuda a reducir los errores y garantiza que tu infraestructura siempre se encuentre en un estado conocido.
Responsabilidad y solución de problemas simplificada: El enfoque de IaC ayuda a mejorar la responsabilidad y facilita la solución de problemas. Si almacenas tu código de IaC en un sistema de control de versión, puedes hacer un seguimiento de los cambios e identificar cuándo se realizaron y quién los hizo. Si es necesario, puedes revertir fácilmente a versiones anteriores.

Implementa el control de versión

Un sistema de control de versión como Git es un componente clave del proceso de IaC. Proporciona sólidas capacidades de administración de cambios y mitigación de riesgos, por lo que se adopta ampliamente, ya sea a través del desarrollo interno o de soluciones SaaS. Esta recomendación es pertinente para las siguientes áreas de enfoque de la preparación operativa: gobernanza y herramientas.

Al hacer un seguimiento de los cambios en el código y las configuraciones de IaC, el control de versión proporciona visibilidad sobre la evolución del código, lo que facilita la comprensión del impacto de los cambios y la identificación de posibles problemas. Esta mayor visibilidad fomenta la colaboración entre los miembros del equipo que trabajan en el mismo proyecto de IaC.

La mayoría de los sistemas de control de versión te permiten revertir los cambios fácilmente si es necesario. Esta capacidad ayuda a mitigar el riesgo de consecuencias o errores no deseados. Si usas herramientas como Git en tu flujo de trabajo de IaC, puedes mejorar significativamente los procesos de administración de cambios, fomentar la colaboración y mitigar los riesgos, lo que lleva a una implementación de IaC más eficiente y confiable.

Compila canalizaciones de CI/CD

Las canalizaciones de integración continua y entrega continua (CI/CD) optimizan el proceso de desarrollo e implementación de aplicaciones en la nube. Las canalizaciones de CI/CD automatizan las etapas de compilación, prueba e implementación, lo que permite lanzamientos más rápidos y frecuentes con un mejor control de calidad. Esta recomendación es pertinente para el área de enfoque de herramientas de preparación operativa.

Las canalizaciones de CI/CD garantizan que los cambios de código se integren de forma continua en un repositorio central, que suele ser un sistema de control de versión como Git. La integración continua facilita la detección y resolución tempranas de problemas, y reduce la probabilidad de errores o problemas de compatibilidad.

Para crear y administrar canalizaciones de CI/CD para aplicaciones en la nube, puedes usar herramientas como Cloud Build y Cloud Deploy.

Cloud Build es un servicio de compilación completamente administrado que permite a los desarrolladores definir y ejecutar pasos de compilación de forma declarativa. Se integra sin problemas con las plataformas populares de administración de código fuente y se puede activar con eventos como envíos de código y solicitudes de extracción.
Cloud Deploy es un servicio de implementación sin servidores que automatiza el proceso de implementación de aplicaciones en varios entornos, como pruebas, etapa de pruebas y producción. Proporciona funciones como implementaciones azul-verde, división de tráfico y capacidades de reversión, lo que facilita la administración y supervisión de las implementaciones de aplicaciones.

La integración de canalizaciones de CI/CD con sistemas de control de versión y marcos de trabajo de pruebas ayuda a garantizar la calidad y la confiabilidad de tus aplicaciones en la nube. Al ejecutar pruebas automatizadas como parte del proceso de CI/CD, los equipos de desarrollo pueden identificar y corregir rápidamente cualquier problema antes de que el código se implemente en el entorno de producción. Esta integración ayuda a mejorar la estabilidad y el rendimiento generales de tus aplicaciones en la nube.

Usa herramientas de administración de configuración

Herramientas como Puppet, Chef, Ansible y VM Manager te ayudan a automatizar la configuración y la administración de los recursos de la nube. Con estas herramientas, puedes garantizar la coherencia y el cumplimiento de los recursos en todos tus entornos de nube. Esta recomendación es pertinente para el área de enfoque de herramientas de preparación operativa.

La automatización de la configuración y la administración de los recursos de la nube proporciona los siguientes beneficios:

Reducción significativa del riesgo de errores manuales: Cuando se involucran procesos manuales, hay una mayor probabilidad de errores debido a errores humanos. Las herramientas de administración de la configuración reducen este riesgo, ya que automatizan los procesos para que las configuraciones se apliquen de manera coherente y precisa en todos los recursos de la nube. Esta automatización puede mejorar la confiabilidad y la estabilidad del entorno de nube.
Mejora de la eficiencia operativa: Al automatizar las tareas repetitivas, tu organización puede liberar al personal de TI para que se enfoque en iniciativas más estratégicas. Esta automatización puede aumentar la productividad y generar ahorros en los costos, además de mejorar la capacidad de respuesta a las necesidades comerciales cambiantes.
Administración simplificada de infraestructuras de nube complejas: A medida que los entornos de nube crecen en tamaño y complejidad, la administración de los recursos puede volverse cada vez más difícil. Las herramientas de administración de configuración proporcionan una plataforma centralizada para administrar los recursos de la nube. Las herramientas facilitan el seguimiento de las configuraciones, la identificación de problemas y la implementación de cambios. Usar estas herramientas puede mejorar la visibilidad, el control y la seguridad de tu entorno de nube.

Automatizar las pruebas

Integrar pruebas automatizadas en tus canalizaciones de CI/CD ayuda a garantizar la calidad y confiabilidad de tus aplicaciones en la nube. Si validas los cambios antes de la implementación, puedes reducir significativamente el riesgo de errores y regresiones, lo que genera un sistema de software más estable y sólido. Esta recomendación es pertinente para las siguientes áreas de enfoque de la preparación operativa: procesos y herramientas.

Estos son los principales beneficios de incorporar pruebas automatizadas en tus canalizaciones de CI/CD:

Detección temprana de errores y defectos: Las pruebas automatizadas ayudan a detectar errores y defectos en las primeras etapas del proceso de desarrollo, antes de que puedan causar problemas graves en la producción. Esta capacidad ahorra tiempo y recursos, ya que evita la necesidad de realizar costosas repeticiones de trabajo y correcciones de errores en etapas posteriores del proceso de desarrollo.
Código de alta calidad y basado en estándares: Las pruebas automatizadas pueden ayudar a mejorar la calidad general de tu código, ya que garantizan que cumpla con ciertos estándares y prácticas recomendadas. Esta capacidad permite crear aplicaciones más confiables y fáciles de mantener, y menos propensas a errores.

Puedes usar varios tipos de técnicas de prueba en las canalizaciones de CI/CD. Cada tipo de prueba tiene un propósito específico.

Las pruebas de unidades se centran en probar unidades de código individuales, como funciones o métodos, para garantizar que funcionen según lo previsto.
Las pruebas de integración prueban las interacciones entre los diferentes componentes o módulos de tu aplicación para verificar que funcionen correctamente en conjunto.
Las pruebas de extremo a extremo suelen usarse junto con las pruebas de unidades y de integración. Las pruebas de extremo a extremo simulan situaciones del mundo real para probar la aplicación en su totalidad y ayudan a garantizar que cumpla con los requisitos de los usuarios finales.

Para integrar de manera eficaz las pruebas automatizadas en tus canalizaciones de CI/CD, debes elegir herramientas y frameworks de pruebas adecuados. Existen muchas opciones diferentes, cada una con sus propias fortalezas y debilidades. También debes establecer una estrategia de pruebas clara que describa los tipos de pruebas que se realizarán, la frecuencia de las pruebas y los criterios para aprobar o reprobar una prueba. Si sigues estas recomendaciones, puedes asegurarte de que tu proceso de pruebas automatizadas sea eficiente y eficaz. Este proceso proporciona estadísticas valiosas sobre la calidad y la confiabilidad de tus aplicaciones en la nube.

Innova y mejora de forma continua

Este principio del pilar de excelencia operativa del Google Cloud framework de Well-Architected proporciona recomendaciones para ayudarte a optimizar continuamente las operaciones en la nube y fomentar la innovación.

Descripción general del principio

Para mejorar e innovar continuamente en la nube, debes enfocarte en el aprendizaje, la experimentación y la adaptación continuos. Esto te ayuda a explorar nuevas tecnologías y optimizar los procesos existentes, y promueve una cultura de excelencia que permite a tu organización alcanzar y mantener el liderazgo en la industria.

A través de la mejora continua y la innovación, puedes alcanzar los siguientes objetivos:

Acelerar la innovación: Explora nuevas tecnologías y servicios para mejorar las capacidades y fomentar la diferenciación.
Reducir costos: Identifica y elimina las ineficiencias a través de iniciativas de mejora de procesos.
Mejora la agilidad: Adáptate rápidamente a las cambiantes demandas del mercado y necesidades de los clientes.
Mejora la toma de decisiones: Obtén estadísticas valiosas a partir de los datos y los análisis para tomar decisiones basadas en datos.

Las organizaciones que adoptan el principio de mejora continua e innovación pueden liberar todo el potencial del entorno de nube y lograr un crecimiento sostenible. Este principio se relaciona principalmente con el área de enfoque de preparación operativa de la fuerza laboral. Una cultura de innovación permite que los equipos experimenten con nuevas herramientas y tecnologías para expandir las capacidades y reducir los costos.

Recomendaciones

Para mejorar e innovar continuamente tus cargas de trabajo en la nube, considera las recomendaciones de las siguientes secciones. Cada recomendación de este documento es pertinente para una o más de las áreas de enfoque de la preparación operativa.

Fomenta una cultura de aprendizaje

Incentiva a los equipos a experimentar, compartir conocimientos y aprender de forma continua. Adopta una cultura sin culpables en la que los errores se vean como oportunidades de crecimiento y mejora. Esta recomendación es pertinente para el área de enfoque de preparación operativa de la fuerza laboral.

Cuando fomentas una cultura de aprendizaje, los equipos pueden aprender de los errores y realizar iteraciones rápidamente. Este enfoque alienta a los miembros del equipo a asumir riesgos, experimentar con ideas nuevas y expandir los límites de su trabajo. También crea un entorno psicológicamente seguro en el que las personas se sienten cómodas compartiendo sus fracasos y aprendiendo de ellos. Compartir de esta manera genera un entorno más abierto y colaborativo.

Para facilitar el intercambio de conocimientos y el aprendizaje continuo, crea oportunidades para que los equipos compartan conocimientos y aprendan unos de otros. Puedes hacerlo a través de sesiones de aprendizaje y conferencias informales y formales.

Si fomentas una cultura de experimentación, intercambio de conocimientos y aprendizaje continuo, puedes crear un entorno en el que los equipos tengan la capacidad de asumir riesgos, innovar y crecer. Este entorno puede aumentar la productividad, mejorar la resolución de problemas y generar una fuerza laboral más comprometida y motivada. Además, si promueves una cultura libre de culpas, puedes crear un espacio seguro para que los empleados aprendan de sus errores y contribuyan al conocimiento colectivo del equipo. En última instancia, esta cultura genera una fuerza laboral más resiliente y adaptable, mejor equipada para enfrentar desafíos y generar éxito a largo plazo.

Realiza retrospectivas periódicas

Las retrospectivas les brindan a los equipos la oportunidad de reflexionar sobre sus experiencias, identificar qué salió bien y qué se puede mejorar. Cuando los equipos realizan retrospectivas después de los proyectos o incidentes graves, pueden aprender de los éxitos y los fracasos, y mejorar continuamente sus procesos y prácticas. Esta recomendación es pertinente para las siguientes áreas de enfoque de la preparación operativa: procesos y gobernanza.

Una forma eficaz de estructurar una retrospectiva es usar el modelo Start-Stop-Continue:

Inicio: En la fase de Inicio de la retrospectiva, los miembros del equipo identifican nuevas prácticas, procesos y comportamientos que creen que pueden mejorar su trabajo. Analizan por qué son necesarios los cambios y cómo se pueden implementar.
Detener: En la fase de Detener, los miembros del equipo identifican y eliminan las prácticas, los procesos y los comportamientos que ya no son eficaces o que dificultan el progreso. En ella, se explica por qué son necesarios estos cambios y cómo se pueden implementar.
Continuar: En la fase de Continuar, los miembros del equipo identifican las prácticas, los procesos y los comportamientos que funcionan bien y que se deben mantener. En él, se explica por qué estos elementos son importantes y cómo se pueden reforzar.

Si usan un formato estructurado, como el modelo de Inicio-Detención-Continuación, los equipos pueden asegurarse de que las retrospectivas sean productivas y enfocadas. Este modelo ayuda a facilitar el debate, identificar los puntos clave y determinar los pasos prácticos para futuras mejoras.

Mantente al día con las tecnologías de la nube

Para maximizar el potencial de los servicios de Google Cloud , debes mantenerte al tanto de los avances, las funciones y las prácticas recomendadas más recientes. Esta recomendación es pertinente para el área de enfoque de preparación operativa de la fuerza laboral.

Participar en conferencias, seminarios en línea y sesiones de capacitación pertinentes es una forma valiosa de ampliar tus conocimientos. Estos eventos brindan oportunidades para aprender de Google Cloud expertos, comprender nuevas funciones y participar en conversaciones con colegas de la industria que podrían enfrentar desafíos similares. Si asistes a estas sesiones, podrás obtener estadísticas sobre cómo usar las funciones nuevas de manera eficaz, optimizar tus operaciones en la nube y fomentar la innovación en tu organización.

Para asegurarte de que los miembros de tu equipo se mantengan al día con las tecnologías de la nube, anímalos a obtener certificaciones y asistir a cursos de capacitación. Google Cloudofrece una amplia variedad de certificaciones que validan las habilidades y el conocimiento en dominios específicos de la nube. Obtener estas certificaciones demuestra compromiso con la excelencia y proporciona evidencia tangible de competencia en tecnologías de la nube. Los cursos de capacitación que ofrecen Google Cloud y nuestros socios profundizan en temas específicos. Brindan experiencia directa y habilidades prácticas que se pueden aplicar de inmediato a proyectos del mundo real. Si inviertes en el desarrollo profesional de tu equipo, puedes fomentar una cultura de aprendizaje continuo y garantizar que todos tengan las habilidades necesarias para tener éxito en la nube.

Busca e incorpora comentarios de forma activa

Recopila comentarios de los usuarios, las partes interesadas y los miembros del equipo. Utiliza los comentarios para identificar oportunidades de mejora en tus soluciones de nube. Esta recomendación es pertinente para el área de enfoque de preparación operativa de la fuerza laboral.

El feedback que recopiles te ayudará a comprender las necesidades, los problemas y las expectativas cambiantes de los usuarios de tus soluciones. Estos comentarios son una valiosa entrada para impulsar mejoras y priorizar futuras optimizaciones. Puedes usar varios mecanismos para recopilar comentarios:

Las encuestas son una forma eficaz de recopilar datos cuantitativos de una gran cantidad de usuarios y partes interesadas.
Las entrevistas con usuarios brindan la oportunidad de recopilar datos cualitativos detallados. Las entrevistas te permiten comprender los desafíos y las experiencias específicos de los usuarios individuales.
Los formularios de comentarios que se colocan dentro de las soluciones en la nube ofrecen una forma conveniente para que los usuarios proporcionen comentarios inmediatos sobre su experiencia.
Las reuniones periódicas con los miembros del equipo pueden facilitar la recopilación de comentarios sobre los aspectos técnicos y los desafíos de implementación.

Los comentarios que recopiles a través de estos mecanismos deben analizarse y sintetizarse para identificar temas y patrones comunes. Este análisis puede ayudarte a priorizar las mejoras futuras según el impacto y la viabilidad de las sugerencias. Si abordas las necesidades y los problemas que se identifican a través de los comentarios, puedes asegurarte de que tus soluciones en la nube sigan satisfaciendo los requisitos cambiantes de tus usuarios y partes interesadas.

Mide y haz un seguimiento del progreso

Los indicadores clave de rendimiento (KPI) y las métricas son fundamentales para hacer un seguimiento del progreso y medir la eficacia de tus operaciones en la nube. Los KPI son mediciones cuantificables que reflejan el rendimiento general. Las métricas son puntos de datos específicos que contribuyen al cálculo de los KPI. Revisa las métricas con regularidad y úsalas para identificar oportunidades de mejora y medir el progreso. Esto te ayuda a mejorar y optimizar continuamente tu entorno de nube. Esta recomendación es pertinente para las siguientes áreas de enfoque de la preparación operativa: gobernanza y procesos.

Un beneficio principal de usar los KPI y las métricas es que permiten que tu organización adopte un enfoque basado en datos para las operaciones en la nube. Si haces un seguimiento y analizas los datos operativos, puedes tomar decisiones fundamentadas sobre cómo mejorar el entorno de nube. Este enfoque basado en datos te ayuda a identificar tendencias, patrones y anomalías que podrían no ser visibles sin el uso de métricas sistemáticas.

Para recopilar y analizar datos operativos, puedes usar herramientas como Cloud Monitoring y BigQuery. Cloud Monitoring permite la supervisión en tiempo real de los recursos y servicios de la nube. BigQuery te permite almacenar y analizar los datos que recopilas a través de la supervisión. Con estas herramientas, puedes crear paneles personalizados para visualizar métricas y tendencias importantes.

Los paneles operativos pueden proporcionar una vista centralizada de las métricas más importantes, lo que te permite identificar rápidamente las áreas que requieren atención. Por ejemplo, un panel puede incluir métricas como el uso de CPU, el uso de memoria, el tráfico de red y la latencia de una aplicación o un servicio en particular. Si supervisas estas métricas, podrás identificar rápidamente cualquier problema potencial y tomar medidas para resolverlo.