El pilar de excelencia operativa del Google Cloud Framework bien diseñado proporciona recomendaciones para operar cargas de trabajo de manera eficiente en Google Cloud. La excelencia operativa en la nube implica diseñar, implementar y administrar soluciones en la nube que proporcionen valor, rendimiento, seguridad y confiabilidad. Las recomendaciones de este pilar te ayudan a mejorar y adaptar las cargas de trabajo de forma continua para satisfacer las necesidades dinámicas y en constante evolución de la nube.
El pilar de excelencia operativa es relevante para los siguientes públicos:
- Gerentes y líderes: Un marco de trabajo para establecer y mantener la excelencia operativa en la nube y garantizar que las inversiones en la nube proporcionen valor y respalden los objetivos comerciales.
- Equipos de operaciones en la nube: Orientación para administrar incidentes y problemas, planificar la capacidad, optimizar el rendimiento y administrar el cambio.
- Ingenieros de confiabilidad de sitios (SRE): Prácticas recomendadas que te ayudan a lograr altos niveles de confiabilidad del servicio, incluida la supervisión, la respuesta a incidentes y la automatización.
- Arquitectos e ingenieros de la nube: Requisitos operativos y prácticas recomendadas para las fases de diseño e implementación, que ayudan a garantizar que las soluciones estén diseñadas para la eficiencia operativa y la escalabilidad.
- Equipos de DevOps: Orientación sobre automatización, canalizaciones de CI/CD y administración de cambios para permitir una entrega de software más rápida y confiable.
Para lograr la excelencia operativa, debes adoptar la automatización, la orquestación y las estadísticas basadas en datos. La automatización ayuda a eliminar el trabajo manual. También agiliza y crea protecciones alrededor de las tareas repetitivas. La orquestación ayuda a coordinar procesos complejos. Las estadísticas basadas en datos permiten tomar decisiones basadas en evidencia. Si utilizas estas prácticas, puedes optimizar las operaciones de la nube, reducir los costos, mejorar la disponibilidad del servicio y aumentar la seguridad.
La excelencia operativa en la nube va más allá de la competencia técnica en las operaciones en la nube. Incluye un cambio cultural que fomenta el aprendizaje y la experimentación continuos. Los equipos deben tener la capacidad de innovar, iterar y adoptar una mentalidad de crecimiento. Una cultura de excelencia operativa fomenta un entorno colaborativo en el que se alienta a las personas a compartir ideas, desafiar suposiciones y generar mejoras.
Para conocer los principios y las recomendaciones de excelencia operativa específicos de las cargas de trabajo de IA y AA, consulta Perspectiva de IA y AA: Excelencia operativa en el Framework de arquitectura bien diseñada.
Principios básicos
Las recomendaciones del pilar de excelencia operativa del framework de arquitectura bien diseñada se asignan a los siguientes principios básicos:
- Garantizar la preparación operativa y el rendimiento con CloudOps: Garantizar que las soluciones en la nube cumplan con los requisitos operativos y de rendimiento mediante la definición de objetivos de nivel de servicio (SLO) y la realización de una supervisión, pruebas de rendimiento y planificación de capacidad exhaustivas
- Administra incidentes y problemas: Minimiza el impacto de los incidentes en la nube y evita que vuelvan a ocurrir a través de una observabilidad integral, procedimientos de respuesta a incidentes claros, retrospectivas exhaustivas y medidas preventivas.
- Administra y optimiza los recursos de la nube: Optimiza y administra los recursos de la nube con estrategias como el tamaño adecuado, el escalamiento automático y el uso de herramientas de supervisión de costos eficaces.
- Automatiza y administra el cambio: Automatiza los procesos, optimiza la administración de cambios y alivia la carga del trabajo manual.
- Innova y mejora de forma continua: Concéntrate en las mejoras continuas y en la introducción de nuevas soluciones para mantenerte competitivo.
Colaboradores
Autores:
- Ryan Cox | Arquitecto principal
- Hadrian Knotz | Arquitecto empresarial
Otros colaboradores:
- Daniel Lees | Arquitecto de Seguridad en la Nube
- Filipe Gracio, PhD | Ingeniero de Atención al cliente
- Gary Harmson | Ingeniero de Atención al cliente
- Jose Andrade | Ingeniero de Atención al cliente de infraestructura empresarial
- Autor: Kumar Dhanagopal | Desarrollador de soluciones entre productos
- Nicolas Pintaux | Ingeniero de Atención al cliente, especialista en modernización de aplicaciones
- Radhika Kanakam | Gerente sénior de programas, GTM de Cloud
- Zach Seils | Especialista en herramientas de redes
- Wade Holmes | Director de Soluciones Globales
Cómo garantizar la preparación y el rendimiento operativos con CloudOps
Este principio del pilar de excelencia operativa del Google Cloud Framework de arquitectura bien definida te ayuda a garantizar la preparación operativa y el rendimiento de tus cargas de trabajo en la nube. Enfatiza la importancia de establecer expectativas y compromisos claros para el rendimiento del servicio, implementar una supervisión y alertas sólidas, realizar pruebas de rendimiento y planificar de forma proactiva las necesidades de capacidad.
Descripción general de los principios
Las diferentes organizaciones pueden interpretar la preparación operativa de manera diferente. La preparación operativa es la forma en que tu organización se prepara para operar cargas de trabajo de forma correcta en Google Cloud. Prepararse para operar una carga de trabajo compleja y de varias capas en la nube requiere una planificación cuidadosa para las operaciones de lanzamiento y día 2. Estas operaciones suelen denominarse CloudOps.
Áreas de enfoque de la preparación operativa
La preparación operativa consta de cuatro áreas de enfoque. Cada área de enfoque consta de un conjunto de actividades y componentes necesarios para prepararse para operar una aplicación o un entorno complejos en Google Cloud. En la siguiente tabla, se enumeran los componentes y las actividades de cada área de enfoque:
Área de enfoque de la preparación operativa | Actividades y componentes |
---|---|
Personal |
|
Procesos |
|
Herramientas | Son herramientas necesarias para admitir procesos de CloudOps. |
Administración |
|
Recomendaciones
Para garantizar la preparación y el rendimiento operativos mediante CloudOps, ten en cuenta las recomendaciones de las siguientes secciones. Cada recomendación de este documento es relevante para una o más de las áreas de enfoque de la preparación operativa.
Define los SLO y ANS
Una responsabilidad clave del equipo de operaciones en la nube es definir los objetivos de nivel de servicio (SLO) y los acuerdos de nivel de servicio (ANS) para todas las cargas de trabajo críticas. Esta recomendación es relevante para el área de enfoque de preparación operativa de la gobernanza.
Los SLO deben ser específicos, medibles, alcanzables, relevantes y limitados en el tiempo (SMART), y deben reflejar el nivel de servicio y rendimiento que deseas.
- Específica: Articula con claridad el nivel de servicio y rendimiento requerido.
- Medible: Cuantificable y rastreable.
- Posible de lograr: Se puede lograr dentro de los límites de las capacidades y los recursos de tu organización.
- Relevante: Se alinea con los objetivos y las prioridades comerciales.
- Tienen un plazo: Tienen un período definido para la medición y la evaluación.
Por ejemplo, un SLO para una aplicación web podría ser "disponibilidad del 99.9%" o "tiempo de respuesta promedio inferior a 200 ms". Estos SLO definen claramente el nivel de servicio y rendimiento requerido para la aplicación web, y se pueden medir y hacer un seguimiento de ellos a lo largo del tiempo.
Los ANS describen los compromisos con los clientes en relación con la disponibilidad, el rendimiento y la asistencia del servicio, incluidas las penalizaciones o los recursos por incumplimiento. Los ANS deben incluir detalles específicos sobre los servicios que se proporcionan, el nivel de servicio que se puede esperar, las responsabilidades del proveedor de servicios y del cliente, y cualquier penalización o recurso por incumplimiento. Los ANS funcionan como un acuerdo contractual entre las dos partes, lo que garantiza que ambas tengan una comprensión clara de las expectativas y obligaciones asociadas con el servicio en la nube.
Google Cloud proporciona herramientas como Cloud Monitoring y los indicadores de nivel de servicio (SLI) para ayudarte a definir los SLO y hacer un seguimiento de ellos. Cloud Monitoring proporciona capacidades de supervisión y observabilidad completas que permiten a tu organización recopilar y analizar métricas que están relacionadas con la disponibilidad, el rendimiento y la latencia de las aplicaciones y los servicios basados en la nube. Los SLI son métricas específicas que puedes usar para medir y hacer un seguimiento de los SLO a lo largo del tiempo. Con estas herramientas, puedes supervisar y administrar de manera eficaz los servicios en la nube, y asegurarte de que cumplan con los SLO y ANS.
Definir y comunicar de forma clara los ANS y los SLO de todos tus servicios de la nube críticos ayuda a garantizar la confiabilidad y el rendimiento de tus aplicaciones y servicios implementados.
Implementa una observabilidad integral
Para obtener visibilidad en tiempo real del estado y el rendimiento de tu entorno de la nube, te recomendamos que uses una combinación de herramientas de Google Cloud Observability y soluciones de terceros. Esta recomendación es relevante para estas áreas de enfoque de preparación operativa: procesos y herramientas.
Implementar una combinación de soluciones de observabilidad te proporciona una estrategia de observabilidad integral que abarca varios aspectos de tu infraestructura y tus aplicaciones en la nube. La Observabilidad de Google Cloud es una plataforma unificada para recopilar, analizar y visualizar métricas, registros y seguimientos de varios servicios, aplicaciones y fuentes externas deGoogle Cloud . Con Cloud Monitoring, puedes obtener estadísticas sobre el uso de recursos, las características de rendimiento y el estado general de tus recursos.
Para garantizar una supervisión integral, supervisa las métricas importantes que se alinean con los indicadores de estado del sistema, como el uso de la CPU, el uso de la memoria, el tráfico de red, las operaciones de E/S de disco y los tiempos de respuesta de la aplicación. También debes considerar las métricas específicas de la empresa. Si realizas un seguimiento de estas métricas, puedes identificar posibles cuellos de botella, problemas de rendimiento y limitaciones de recursos. Además, puedes configurar alertas para notificar de forma proactiva a los equipos relevantes sobre posibles problemas o anomalías.
Para mejorar aún más tus capacidades de supervisión, puedes integrar soluciones de terceros con la Observabilidad de Google Cloud. Estas soluciones pueden proporcionar funciones adicionales, como estadísticas avanzadas, detección de anomalías potenciadas por el aprendizaje automático y capacidades de administración de incidentes. Esta combinación de herramientas de observabilidad de Google Cloud y soluciones de terceros te permite crear un ecosistema de supervisión sólido y personalizable que se adapte a tus necesidades específicas. Si usas este enfoque combinado, puedes identificar y abordar de forma proactiva los problemas, optimizar el uso de recursos y garantizar la confiabilidad y disponibilidad generales de tus aplicaciones y servicios en la nube.
Implementa pruebas de rendimiento y carga
Realizar pruebas de rendimiento con regularidad te ayuda a garantizar que tus infraestructuras y aplicaciones basadas en la nube puedan manejar cargas máximas y mantener un rendimiento óptimo. Las pruebas de carga simulan patrones de tráfico realistas. Las pruebas de esfuerzo llevan al sistema al límite para identificar posibles cuellos de botella y limitaciones de rendimiento. Esta recomendación es relevante para estas áreas de enfoque de preparación operativa: procesos y herramientas.
Las herramientas como el balanceo de cargas en la nube y los servicios de prueba de carga pueden ayudarte a simular patrones de tráfico del mundo real y realizar pruebas de esfuerzo en tus aplicaciones. Estas herramientas proporcionan estadísticas valiosas sobre el comportamiento de tu sistema en varias condiciones de carga y pueden ayudarte a identificar las áreas que requieren optimización.
En función de los resultados de las pruebas de rendimiento, puedes tomar decisiones para optimizar tu infraestructura y tus aplicaciones en la nube para obtener un rendimiento y una escalabilidad óptimos. Esta optimización puede implicar ajustar la asignación de recursos, optimizar la configuración o implementar mecanismos de almacenamiento en caché.
Por ejemplo, si descubres que tu aplicación experimenta ralentizaciones durante períodos de mucho tráfico, es posible que debas aumentar la cantidad de máquinas virtuales o contenedores que se asignan a la aplicación. Como alternativa, es posible que debas ajustar la configuración de tu servidor web o base de datos para mejorar el rendimiento.
Si realizas pruebas de rendimiento con regularidad y, luego, implementas las optimizaciones necesarias, puedes asegurarte de que tus aplicaciones y tu infraestructura basadas en la nube siempre se ejecuten con el máximo rendimiento y ofrezcan una experiencia fluida y responsiva a tus usuarios. De esta manera, podrás mantener una ventaja competitiva y generar confianza entre tus clientes.
Planifica y administra la capacidad
Planificar de forma proactiva las necesidades de capacidad futuras, ya sean orgánicas o inorgánicas, te ayuda a garantizar el funcionamiento fluido y la escalabilidad de tus sistemas basados en la nube. Esta recomendación es relevante para los procesos de la área de enfoque de preparación operativa.
La planificación de la capacidad futura incluye comprender y administrar las cuotas de varios recursos, como instancias de procesamiento, almacenamiento y solicitudes a la API. Cuando analizas los patrones de uso históricos, las proyecciones de crecimiento y los requisitos de la empresa, puedes anticipar con precisión las necesidades de capacidad futuras. Puedes usar herramientas como Cloud Monitoring y BigQuery para recopilar y analizar datos de uso, identificar tendencias y pronosticar la demanda futura.
Los patrones de uso históricos proporcionan estadísticas valiosas sobre el uso de recursos con el tiempo. Si examinas métricas como el uso de CPU, el uso de memoria y el tráfico de red, puedes identificar períodos de alta demanda y posibles cuellos de botella. Además, puedes ayudar a estimar las necesidades de capacidad futuras realizando proyecciones de crecimiento en función de factores como el crecimiento de la base de usuarios, los productos y las funciones nuevos, y las campañas de marketing. Cuando evalúes las necesidades de capacidad, también debes considerar los requisitos empresariales, como los ANS y los objetivos de rendimiento.
Cuando determines el tamaño de los recursos para una carga de trabajo, ten en cuenta los factores que pueden afectar el uso de los recursos. Las variaciones estacionales, como los períodos de compras de las festividades o las ventas de fin de trimestre, pueden generar aumentos temporales en la demanda. Los eventos planificados, como los lanzamientos de productos o las campañas de marketing, también pueden aumentar significativamente el tráfico. Para asegurarte de que tu sistema principal y de recuperación ante desastres (DR) pueda manejar aumentos inesperados en la demanda, planifica una capacidad que pueda admitir una conmutación por error elegante durante interrupciones, como desastres naturales y ciberataques.
El ajuste de escala automático es una estrategia importante para ajustar de forma dinámica tus recursos de la nube según las fluctuaciones de la carga de trabajo. Con las políticas de escalamiento automático, puedes escalar automáticamente instancias de procesamiento, almacenamiento y otros recursos en respuesta a los cambios en la demanda. Esto garantiza un rendimiento óptimo durante los períodos pico y minimiza los costos cuando el uso de recursos es bajo. Los algoritmos de escalamiento automático usan métricas como el uso de CPU, el uso de memoria y la profundidad de la cola para determinar cuándo escalar los recursos.
Supervisa y optimiza de forma continua
Para administrar y optimizar las cargas de trabajo en la nube, debes establecer un proceso para supervisar y analizar de forma continua las métricas de rendimiento. Esta recomendación es relevante para estas áreas de enfoque de preparación operativa: procesos y herramientas.
Para establecer un proceso de supervisión y análisis continuos, realizas un seguimiento, recopilas y evalúas los datos relacionados con varios aspectos de tu entorno en la nube. Con estos datos, puedes identificar proactivamente las áreas de mejora, optimizar el uso de recursos y asegurarte de que tu infraestructura de nube cumpla o supere de forma coherente tus expectativas de rendimiento.
Un aspecto importante de la supervisión del rendimiento es revisar los registros y los seguimientos con regularidad. Los registros proporcionan estadísticas valiosas sobre los eventos, los errores y las advertencias del sistema. Los seguimientos proporcionan información detallada sobre el flujo de solicitudes a través de tu aplicación. Cuando analizas registros y seguimientos, puedes identificar posibles problemas, identificar las causas raíz de los problemas y comprender mejor el comportamiento de tus aplicaciones en diferentes condiciones. Métricas como el tiempo de ida y vuelta entre servicios pueden ayudarte a identificar y comprender los cuellos de botella que se encuentran en tus cargas de trabajo.
Además, puedes usar técnicas de ajuste de rendimiento para mejorar significativamente los tiempos de respuesta de la aplicación y la eficiencia general. Los siguientes son ejemplos de técnicas que puedes usar:
- Almacenamiento en caché: Almacena los datos a los que se accede con frecuencia en la memoria para reducir la necesidad de consultas repetidas a la base de datos o llamadas a la API.
- Optimización de la base de datos: Usa técnicas como la indexación y la optimización de consultas para mejorar el rendimiento de las operaciones de la base de datos.
- Generación de perfiles de código: Identifica las áreas de tu código que consumen recursos excesivos o causan problemas de rendimiento.
Si aplicas estas técnicas, puedes optimizar tus aplicaciones y asegurarte de que se ejecuten de manera eficiente en la nube.
Administra incidentes y problemas
Este principio del pilar de excelencia operativa del Google Cloud Framework de arquitectura bien definida proporciona recomendaciones para ayudarte a administrar incidentes y problemas relacionados con tus cargas de trabajo en la nube. Implica implementar una supervisión y una visibilidad exhaustivas, establecer procedimientos claros de respuesta ante incidentes, realizar un análisis exhaustivo de la causa raíz y aplicar medidas preventivas. Muchos de los temas que se analizan en este principio se abordan en detalle en el pilar Confiabilidad.
Descripción general de los principios
La administración de incidentes y la administración de problemas son componentes importantes de un entorno de operaciones funcional. La forma en que respondas, categorices y resuelvas incidentes de gravedad diferente puede afectar significativamente tus operaciones. También debes realizar ajustes de forma proactiva y continua para optimizar la confiabilidad y el rendimiento. Un proceso eficiente para la administración de incidentes y problemas se basa en los siguientes elementos fundamentales:
- Supervisión continua: Identifica y resuelve los problemas con rapidez.
- Automatización: Optimiza las tareas y mejora la eficiencia.
- Orquestación: Coordina y administra los recursos de la nube de forma eficaz.
- Estadísticas basadas en datos: Optimiza las operaciones en la nube y toma decisiones fundamentadas.
Estos elementos te ayudan a crear un entorno en la nube resiliente que pueda controlar una amplia variedad de desafíos y interrupciones. Estos elementos también pueden ayudar a reducir el riesgo de incidentes costosos y tiempo de inactividad, y pueden ayudarte a lograr una mayor agilidad y éxito empresarial. Estos elementos fundamentales se distribuyen en las cuatro áreas de enfoque de la preparación operativa: personal, procesos, herramientas y gobernanza.
Recomendaciones
Para administrar incidentes y problemas de manera eficaz, ten en cuenta las recomendaciones de las siguientes secciones. Cada recomendación de este documento es relevante para una o más de las áreas de enfoque de la preparación operativa.
Establece procedimientos claros de respuesta ante incidentes
Los roles y las responsabilidades claros son esenciales para garantizar una respuesta eficaz y coordinada a los incidentes. Además, los protocolos de comunicación y las rutas de derivación claras ayudan a garantizar que la información se comparta de forma oportuna y eficaz durante un incidente. Esta recomendación es relevante para estas áreas de enfoque de preparación operativa: personal, procesos y herramientas.
Para establecer procedimientos de respuesta ante incidentes, debes definir los roles y las expectativas de cada miembro del equipo, como los comandantes de incidentes, los investigadores, los comunicadores y los expertos técnicos. Establecer rutas de comunicación y derivación incluye identificar contactos importantes, configurar canales de comunicación y definir el proceso para derivar incidentes a niveles de administración más altos cuando sea necesario. La capacitación y preparación periódicas ayudan a garantizar que los equipos tengan los conocimientos y las habilidades necesarios para responder a los incidentes de manera eficaz.
Si documentas los procedimientos de respuesta ante incidentes en un libro de trabajo o una guía, puedes proporcionar una guía de referencia estandarizada para que los equipos la sigan durante un incidente. El libro de instrucciones debe describir los pasos que se deben seguir en cada etapa del proceso de respuesta a incidentes, incluida la comunicación, la clasificación, la investigación y la resolución. También debe incluir información sobre las herramientas y los recursos relevantes, así como la información de contacto del personal importante. Debes revisar y actualizar el libro de instrucciones con regularidad para asegurarte de que siga siendo actual y eficaz.
Centraliza la administración de incidentes
Para realizar un seguimiento y una administración eficaces durante el ciclo de vida de los incidentes, considera usar un sistema centralizado de administración de incidentes. Esta recomendación es relevante para estas áreas de enfoque de preparación operativa: procesos y herramientas.
Un sistema centralizado de administración de incidentes ofrece las siguientes ventajas:
- Visibilidad mejorada: Cuando consolidas todos los datos relacionados con los incidentes en una sola ubicación, eliminas la necesidad de que los equipos busquen contexto en varios canales o sistemas. Este enfoque ahorra tiempo y reduce la confusión, y les brinda a las partes interesadas una vista integral del incidente, incluido su estado, impacto y progreso.
- Mejor coordinación y colaboración: Un sistema centralizado proporciona una plataforma unificada para la comunicación y la administración de tareas. Fomenta una colaboración fluida entre los diferentes departamentos y funciones que participan en la respuesta ante incidentes. Este enfoque garantiza que todos tengan acceso a información actualizada y reduce el riesgo de malentendidos y desajustes.
- Mayor responsabilidad y propiedad: Un sistema centralizado de administración de incidentes permite a tu organización asignar tareas a personas o equipos específicos, y garantiza que las responsabilidades se definan y se les haga un seguimiento de forma clara. Este enfoque promueve la responsabilidad y fomenta la resolución de problemas de forma proactiva, ya que los miembros del equipo pueden supervisar fácilmente su progreso y sus contribuciones.
Un sistema centralizado de administración de incidentes debe ofrecer funciones sólidas para el seguimiento de incidentes, la asignación de tareas y la administración de la comunicación. Estas funciones te permiten personalizar flujos de trabajo, establecer prioridades y realizar integraciones con otros sistemas, como herramientas de supervisión y sistemas de generación de tickets.
Si implementas un sistema centralizado de administración de incidentes, puedes optimizar los procesos de respuesta ante incidentes de tu organización, mejorar la colaboración y aumentar la visibilidad. De esta manera, se obtienen tiempos de resolución de incidentes más rápidos, se reduce el tiempo de inactividad y se mejora la satisfacción del cliente. También ayuda a fomentar una cultura de mejora continua, ya que puedes aprender de los incidentes anteriores y, así, identificar las áreas de mejora.
Realiza revisiones exhaustivas posteriores al incidente
Después de que se produce un incidente, debes realizar una revisión detallada posterior al incidente (PIR), que también se conoce como post mortem, para identificar la causa raíz, los factores contribuyentes y las lecciones aprendidas. Esta revisión exhaustiva te ayudará a evitar incidentes similares en el futuro. Esta recomendación es relevante para estas áreas de enfoque de preparación operativa: procesos y gobernanza.
El proceso de PIR debe incluir un equipo multidisciplinario que tenga experiencia en varios aspectos del incidente. El equipo debe recopilar toda la información relevante a través de entrevistas, revisión de documentación e inspecciones del sitio. Se debe crear un cronograma de eventos para establecer la secuencia de acciones que llevaron al incidente.
Después de que el equipo recopile la información requerida, debe realizar un análisis de la causa raíz para determinar los factores que llevaron al incidente. Este análisis debe identificar tanto la causa inmediata como los problemas sistémicos que contribuyeron al incidente.
Además de identificar la causa raíz, el equipo de PIR debe identificar cualquier otro factor que haya podido causar el incidente. Estos factores pueden incluir errores humanos, fallas de equipos o factores organizativos, como interrupciones en la comunicación y falta de capacitación.
El informe de PIR debe documentar los hallazgos de la investigación, incluido el cronograma de eventos, el análisis de la causa raíz y las acciones recomendadas. El informe es un recurso valioso para implementar acciones correctivas y evitar que se repita. El informe se debe compartir con todas las partes interesadas relevantes y se debe usar para desarrollar procedimientos y capacitaciones de seguridad.
Para garantizar un proceso de PIR exitoso, tu organización debe fomentar una cultura sin culpas que se enfoque en el aprendizaje y la mejora en lugar de asignar culpas. Esta cultura alienta a las personas a informar incidentes sin temor a represalias y te permite abordar problemas sistémicos y realizar mejoras significativas.
Si realizas PIR exhaustivas y aplicas medidas correctivas en función de los hallazgos, puedes reducir significativamente el riesgo de que ocurran incidentes similares en el futuro. Este enfoque proactivo de investigación y prevención de incidentes ayuda a crear un entorno de trabajo más seguro y eficiente para todas las personas involucradas.
Mantén una base de conocimiento
Una base de conocimiento de problemas conocidos, soluciones y guías de solución de problemas es esencial para la administración y resolución de incidentes. Los miembros del equipo pueden usar la base de conocimiento para identificar y abordar rápidamente los problemas habituales. La implementación de una base de conocimiento ayuda a reducir la necesidad de derivación y mejora la eficiencia general. Esta recomendación es relevante para estas áreas de enfoque de preparación operativa: personal y procesos.
Un beneficio principal de una base de conocimiento es que permite a los equipos aprender de experiencias anteriores y evitar repetir errores. Cuando se capturan y comparten soluciones a problemas conocidos, los equipos pueden desarrollar una comprensión colectiva de cómo resolver problemas comunes y las prácticas recomendadas para la administración de incidentes. El uso de una base de conocimiento ahorra tiempo y esfuerzo, y ayuda a estandarizar los procesos y garantizar la coherencia en la resolución de incidentes.
Además de ayudar a mejorar los tiempos de resolución de incidentes, una base de conocimiento fomenta el uso compartido del conocimiento y la colaboración entre los equipos. Con un repositorio central de información, los equipos pueden acceder fácilmente a la base de conocimiento y contribuir a ella, lo que promueve una cultura de aprendizaje y mejora continuos. Esta cultura alienta a los equipos a compartir sus conocimientos y experiencias, lo que genera una base de conocimiento más integral y valiosa.
Para crear y administrar una base de conocimiento de manera eficaz, usa las herramientas y las tecnologías adecuadas. Las plataformas de colaboración, como Google Workspace, son adecuadas para este propósito, ya que te permiten crear, editar y compartir documentos de forma colaborativa con facilidad. Estas herramientas también admiten el control de versiones y el seguimiento de cambios, lo que garantiza que la base de conocimiento permanezca actualizada y precisa.
Haz que todos los equipos relevantes puedan acceder fácilmente a la base de conocimiento. Puedes lograr esto si integras la base de conocimiento con los sistemas de administración de incidentes existentes o si proporcionas un portal o un sitio de intranet exclusivos. Una base de conocimiento que esté disponible permite que los equipos accedan rápidamente a la información que necesitan para resolver los incidentes de manera eficiente. Esta disponibilidad ayuda a reducir el tiempo de inactividad y minimizar el impacto en las operaciones comerciales.
Revisa y actualiza la base de conocimiento periódicamente para asegurarte de que siga siendo relevante y útil. Supervisa los informes de incidentes, identifica problemas y tendencias comunes, e incorpora soluciones nuevas y guías de solución de problemas en la base de conocimiento. Una base de conocimiento actualizada ayuda a tus equipos a resolver incidentes de forma más rápida y eficaz.
Automatiza la respuesta ante incidentes
La automatización ayuda a optimizar los procesos de respuesta ante incidentes y de remediación. Te permite abordar las violaciones de seguridad y las fallas del sistema de forma rápida y eficiente. Cuando usas Google Cloud productos como Cloud Run Functions o Cloud Run, puedes automatizar varias tareas que suelen ser manuales y requieren mucho tiempo. Esta recomendación es relevante para estas áreas de enfoque de preparación operativa: procesos y herramientas.
La respuesta automatizada ante incidentes proporciona los siguientes beneficios:
- Reducción de los tiempos de detección y resolución de incidentes: Las herramientas automatizadas pueden supervisar sistemas y aplicaciones de forma continua, detectar actividades sospechosas o anómalas en tiempo real, y notificar a las partes interesadas o responder sin intervención. Esta automatización te permite identificar posibles amenazas o problemas antes de que se conviertan en incidentes importantes. Cuando se detecta un incidente, las herramientas automatizadas pueden activar acciones de solución predefinidas, como aislar los sistemas afectados, poner en cuarentena los archivos maliciosos o revertir los cambios para restablecer el sistema a un estado conocido correcto.
- Menor carga para los equipos de seguridad y operaciones: La respuesta automática a incidentes permite que los equipos de seguridad y operaciones se enfoquen en tareas más estratégicas. Cuando automatizas tareas rutinarias y repetitivas, como recopilar información de diagnóstico o activar alertas, tu organización puede liberar personal para que se encargue de incidentes más complejos y críticos. Esta automatización puede mejorar la eficacia y la eficiencia generales de la respuesta ante incidentes.
- Mayor coherencia y precisión del proceso de solución: Las herramientas automatizadas pueden garantizar que las acciones de solución se apliquen de forma uniforme en todos los sistemas afectados, lo que minimiza el riesgo de errores humanos o inconsistencias. Esta estandarización del proceso de solución ayuda a minimizar el impacto de los incidentes en los usuarios y la empresa.
Administra y optimiza recursos en la nube
Este principio del pilar de excelencia operativa del Google Cloud Framework de arquitectura bien definida proporciona recomendaciones para ayudarte a administrar y optimizar los recursos que usan tus cargas de trabajo en la nube. Implica ajustar el tamaño de los recursos según el uso y la demanda reales, usar el ajuste de escala automático para la asignación de recursos dinámica, implementar estrategias de optimización de costos y revisar periódicamente el uso y los costos de los recursos. Muchos de los temas que se analizan en este principio se abordan en detalle en el pilar Optimización de costos.
Descripción general de los principios
La administración y optimización de recursos de la nube desempeñan un papel fundamental en la optimización de la inversión en la nube, el uso de recursos y la eficiencia de la infraestructura. Incluye variadas estrategias y prácticas recomendadas que tienen como objetivo maximizar el valor y la rentabilidad de tu inversión en la nube.
El enfoque de este pilar en la optimización se extiende más allá de la reducción de costos. Enfatiza los siguientes objetivos:
- Eficiencia: Usar la automatización y el análisis de datos para lograr el máximo rendimiento y ahorros en costos.
- Rendimiento: Escala los recursos sin esfuerzo para satisfacer las demandas fluctuantes y obtener resultados óptimos.
- Escalabilidad: Adapta la infraestructura y los procesos para adaptarse al crecimiento rápido y a las cargas de trabajo diversas.
Si te enfocas en estos objetivos, lograrás un equilibrio entre el costo y la funcionalidad. Puedes tomar decisiones fundamentadas sobre el aprovisionamiento, la escalamiento y la migración de recursos. Además, obtienes estadísticas valiosas sobre los patrones de consumo de recursos, lo que te permite identificar y abordar de forma proactiva los posibles problemas antes de que se deriven.
Recomendaciones
Para administrar y optimizar los recursos, considera las recomendaciones de las siguientes secciones. Cada recomendación de este documento es relevante para una o más de las áreas de enfoque de la preparación operativa.
Redimensiona los recursos.
Supervisar de forma continua el uso de los recursos y ajustar su asignación para que coincida con la demanda real es fundamental para una administración eficiente de los recursos en la nube. El aprovisionamiento excesivo de recursos puede generar costos innecesarios, y el aprovisionamiento insuficiente puede provocar cuellos de botella de rendimiento que afectan el rendimiento de la aplicación y la experiencia del usuario. Para lograr un equilibrio óptimo, debes adoptar un enfoque proactivo para ajustar el tamaño de los recursos de la nube. Esta recomendación es relevante para la área de enfoque de preparación operativa de la gobernanza.
Cloud Monitoring y Recommender pueden ayudarte a identificar oportunidades para ajustar el tamaño de los recursos. Cloud Monitoring proporciona visibilidad en tiempo real de las métricas de utilización de recursos. Esta visibilidad te permite hacer un seguimiento de los patrones de uso de recursos y detectar posibles ineficiencias. El recomendador analiza los datos de uso de recursos para realizar recomendaciones inteligentes que permitan optimizar la asignación de recursos. Con estas herramientas, puedes obtener estadísticas sobre el uso de los recursos y tomar decisiones fundamentadas sobre el tamaño adecuado de los recursos.
Además de Cloud Monitoring y Recommender, considera usar métricas personalizadas para activar acciones automáticas de ajuste del tamaño correcto. Las métricas personalizadas te permiten hacer un seguimiento de métricas específicas de uso de recursos que son relevantes para tus aplicaciones y cargas de trabajo. También puedes configurar alertas para notificar a los administradores cuando se cumplan los umbrales predefinidos. Luego, los administradores pueden realizar las acciones necesarias para ajustar la asignación de recursos. Este enfoque proactivo garantiza que los recursos se almacenen de forma oportuna, lo que ayuda a optimizar los costos de la nube y evitar problemas de rendimiento.
Usa el ajuste de escala automático
El procesamiento y otros recursos con ajuste de escala automático ayudan a garantizar un rendimiento óptimo y una eficiencia en función del costo de tus aplicaciones basadas en la nube. El ajuste de escala automático te permite ajustar de forma dinámica la capacidad de tus recursos según las fluctuaciones de la carga de trabajo, de modo que tengas los recursos que necesitas cuando los necesites y puedas evitar el aprovisionamiento excesivo y los costos innecesarios. Esta recomendación es relevante para los procesos del área de enfoque de preparación operativa.
Para satisfacer las diversas necesidades de diferentes aplicaciones y cargas de trabajo, Google Cloud ofrece varias opciones de escalamiento automático, incluidas las siguientes:
- Los grupos de instancias administrados (MIG) de Compute Engine son grupos de VMs que se administran y escalan como una sola entidad. Con los MIG, puedes definir políticas de ajuste de escala automático que especifiquen la cantidad mínima y máxima de VMs que se deben mantener en el grupo, y las condiciones que activan el ajuste de escala automático. Por ejemplo, puedes configurar una política para agregar VMs en un MIG cuando el uso de CPU alcance un umbral determinado y quitar VMs cuando el uso disminuya por debajo de un umbral diferente.
El ajuste de escala automático de Google Kubernetes Engine (GKE) ajusta de forma dinámica los recursos de tu clúster para que coincidan con las necesidades de tu aplicación. Ofrece las siguientes herramientas:
- El escalador automático del clúster agrega o quita nodos según las demandas de recursos de los pods.
- El escalador automático de pods horizontal cambia la cantidad de réplicas de pod según la CPU, la memoria o las métricas personalizadas.
- El escalador automático vertical de Pods ajusta con precisión las solicitudes y los límites de recursos de los pods según los patrones de uso.
- El aprovisionamiento automático de nodos crea automáticamente grupos de nodos optimizados para tus cargas de trabajo.
Estas herramientas funcionan en conjunto para optimizar el uso de recursos, garantizar el rendimiento de la aplicación y simplificar la administración de clústeres.
Cloud Run es una plataforma sin servidores que te permite ejecutar código sin tener que administrar la infraestructura. Cloud Run ofrece un ajuste de escala automático integrado, que ajusta automáticamente la cantidad de instancias según el tráfico entrante. Cuando aumenta el volumen de tráfico, Cloud Run escala la cantidad de instancias para controlar la carga. Cuando el tráfico disminuye, Cloud Run reduce la cantidad de instancias para reducir los costos.
Con estas opciones de ajuste de escala automático, puedes asegurarte de que tus aplicacionesbasadas en la nube tengan los recursos que necesitan para controlar cargas de trabajo variadas, a la vez que evitas el aprovisionamiento excesivo y los costos innecesarios. El uso del ajuste de escala automático puede mejorar el rendimiento, ahorrar costos y permitir un uso más eficiente de los recursos de la nube.
Aprovecha las estrategias de optimización de costos
La optimización de la inversión en la nube te ayuda a administrar de manera eficaz los presupuestos de TI de tu organización. Esta recomendación es relevante para el área de enfoque de preparación operativa de la gobernanza.
Google Cloud ofrece varias herramientas y técnicas para ayudarte a optimizar los costos de la nube. Con estas herramientas y técnicas, puedes obtener el mejor valor de tu inversión en la nube. Estas herramientas y técnicas te ayudan a identificar áreas en las que se pueden reducir los costos, como identificar recursos infrautilizados o recomendar tipos de instancias más rentables.Entre las Google Cloud opciones para ayudar a optimizar los costos de la nube, se incluyen las siguientes:
- Los descuentos por compromiso de uso (CUD) son descuentos por comprometerse a un cierto nivel de uso durante un período.
- Los descuentos por uso continuo en Compute Engine proporcionan descuentos por el uso coherente de un servicio.
- Las VMs Spot proporcionan acceso a la capacidad de VM sin usar a un costo menor en comparación con las VMs normales.
Los modelos de precios pueden cambiar con el tiempo, y es posible que se presenten funciones nuevas que ofrezcan un mejor rendimiento o un costo más bajo en comparación con las opciones existentes. Por lo tanto, deberías revisar los modelos de precios y considerar funciones alternativas con regularidad. Si te mantienes informado sobre los modelos de precios y las funciones más recientes, podrás tomar decisiones fundamentadas sobre tu arquitectura de nube para minimizar los costos.
Las herramientas de Administración de costos deGoogle Cloud, como los presupuestos y las alertas, proporcionan estadísticas valiosas sobre los gastos en la nube. Los presupuestos y las alertas permiten a los usuarios establecer presupuestos y recibir alertas cuando se superen. Estas herramientas ayudan a los usuarios a hacer un seguimiento de sus gastos en la nube y a identificar las áreas en las que se pueden reducir los costos.
Realiza un seguimiento del uso y los costos de los recursos
Puedes usar el etiquetado para hacer un seguimiento del uso y los costos de los recursos. Cuando asignas marcas y etiquetas a tus recursos de la nube, como proyectos, departamentos o otras dimensiones relevantes, puedes categorizarlos y organizarlos. Esto te permite supervisar y analizar los patrones de gasto de recursos específicos, así como identificar áreas de alto uso o posibles ahorros de costos. Esta recomendación es relevante para estas áreas de enfoque de preparación operativa: la gobernanza y las herramientas.
Las herramientas como la Facturación de Cloud y la Administración de costos te ayudan a obtener una comprensión integral de tus patrones de gastos. Estas herramientas proporcionan estadísticas detalladas sobre el uso de la nube y te permiten identificar tendencias, pronosticar costos y tomar decisiones fundamentadas. Si analizas los datos históricos y los patrones de gasto actuales, podrás identificar las áreas de enfoque para tus iniciativas de optimización de costos.
Los informes y paneles personalizados te ayudan a visualizar los datos de costos y obtener estadísticas más detalladas sobre las tendencias de gastos. Si personalizas paneles con métricas y dimensiones relevantes, puedes supervisar los indicadores clave de rendimiento (KPI) y hacer un seguimiento del progreso hacia tus objetivos de optimización de costos. Los informes ofrecen análisis más detallados de los datos de costos. Los informes te permiten filtrar los datos por períodos específicos o tipos de recursos para comprender los factores subyacentes que contribuyen a tu inversión en la nube.
Revisa y actualiza periódicamente tus etiquetas, herramientas de análisis de costos y etiquetas para asegurarte de tener la información más actualizada sobre el uso y los costos de la nube. Si te mantienes al tanto y realizas análisis post mortem o revisiones de costos proactivas, puedes identificar rápidamente cualquier aumento inesperado en la inversión. De esta manera, puedes tomar decisiones proactivas para optimizar los recursos de la nube y controlar los costos.
Establece la asignación de costos y la creación de presupuestos
La responsabilidad y la transparencia en la administración de costos en la nube son fundamentales para optimizar el uso de recursos y garantizar el control financiero. Esta recomendación es relevante para el área de enfoque de preparación operativa de la gobernanza.
Para garantizar la responsabilidad y la transparencia, debes tener mecanismos claros para la asignación de costos y la devolución de cargos. Cuando se asignan costos a equipos, proyectos o personas específicos, tu organización puede asegurarse de que cada una de estas entidades sea responsable de su uso de la nube. Esta práctica fomenta un sentido de propiedad y promueve la administración responsable de los recursos. Además, los mecanismos de devolución de cargos permiten a tu organización recuperar los costos de la nube de los clientes internos, alinear los incentivos con el rendimiento y promover la disciplina fiscal.
Establecer presupuestos para diferentes equipos o proyectos es otro aspecto esencial de la administración de costos de la nube. Los presupuestos permiten a tu organización definir limites de gastos y hacer un seguimiento de los gastos reales en función de esos límites. Este enfoque te permite tomar decisiones proactivas para evitar gastos descontrolados. Si estableces presupuestos realistas y alcanzables, puedes asegurarte de que los recursos de la nube se usen de manera eficiente y se alineen con los objetivos comerciales. La supervisión periódica del gasto real en comparación con los presupuestos te ayuda a identificar las variaciones y abordar los posibles sobrecostos con rapidez.
Para supervisar los presupuestos, puedes usar herramientas como los presupuestos y las alertas de Facturación de Cloud. Estas herramientas proporcionan estadísticas en tiempo real sobre la inversión en la nube y notifican a las partes interesadas sobre posibles superávits. Con estas funciones, puedes hacer un seguimiento de los costos de la nube y tomar medidas correctivas antes de que se produzcan desviaciones significativas. Este enfoque proactivo ayuda a evitar sorpresas financieras y garantiza que los recursos de la nube se usen de manera responsable.
Automatiza y administra el cambio
Este principio del pilar de excelencia operativa del Google Cloud Framework de arquitectura bien definida proporciona recomendaciones para ayudarte a automatizar y administrar el cambio de tus cargas de trabajo en la nube. Implica implementar la infraestructura como código (IaC), establecer procedimientos operativos estándar, implementar un proceso estructurado de administración de cambios y usar la automatización y la orquestación.
Descripción general de los principios
La administración de cambios y la automatización desempeñan un rol fundamental para garantizar transiciones fluidas y controladas en los entornos de nube. Para una administración de cambios eficaz, debes usar estrategias y prácticas recomendadas que minimicen las interrupciones y garanticen que los cambios se integren sin problemas con los sistemas existentes.
La administración y automatización de cambios eficaces incluyen los siguientes elementos fundamentales:
- Gobernanza de cambios: Establece políticas y procedimientos claros para la administración de cambios, incluidos los procesos de aprobación y los planes de comunicación.
- Evaluación de riesgos: Identifica los posibles riesgos asociados con los cambios y mitígalos mediante técnicas de gestión de riesgos.
- Pruebas y validación: Prueba exhaustivamente los cambios para asegurarte de que cumplan con los requisitos funcionales y de rendimiento, y mitiga las posibles regresiones.
- Implementación controlada: Implementa los cambios de forma controlada para garantizar que los usuarios realicen la transición al entorno nuevo sin inconvenientes, con mecanismos para revertir la acción sin problemas si es necesario.
Estos elementos fundamentales ayudan a minimizar el impacto de los cambios y a garantizar que estos tengan un efecto positivo en las operaciones comerciales. Estos elementos están representados por los procesos, las herramientas y la gobernanza de las áreas de enfoque de preparación operativa.
Recomendaciones
Para automatizar y administrar el cambio, ten en cuenta las recomendaciones de las siguientes secciones. Cada recomendación de este documento es relevante para una o más de las áreas de enfoque de la preparación operativa.
Adopta la IaC
La infraestructura como código (IaC) es un enfoque transformador para administrar la infraestructura de la nube. Puedes definir y administrar la infraestructura de nube de forma declarativa con herramientas como Terraform. La IaC te ayuda a lograr coherencia, repetibilidad y administración de cambios simplificada. También permite implementaciones más rápidas y confiables. Esta recomendación es relevante para estas áreas de enfoque de preparación operativa: procesos y herramientas.
Los siguientes son los principales beneficios de adoptar el enfoque de IaC para tus implementaciones en la nube:
- Parámetros de configuración de recursos legibles por humanos: Con el enfoque de IaC, puedes declarar tus recursos de infraestructura de nube en un formato legible por humanos, como JSON o YAML. Los administradores y operadores de la infraestructura pueden comprender y modificar fácilmente la infraestructura y colaborar con otras personas.
- Coherencia y repetibilidad: La IaC permite la coherencia y la reproducibilidad en las implementaciones de tu infraestructura. Puedes asegurarte de que tu infraestructura se aprovisione y configure de la misma manera cada vez, independientemente de quién realice la implementación. Este enfoque ayuda a reducir los errores y garantiza que tu infraestructura siempre esté en un estado conocido.
- Responsabilidad y solución de problemas simplificada: El enfoque de la IaC ayuda a mejorar la responsabilidad y facilita la solución de problemas. Cuando almacenas tu código de IaC en un sistema de control de versiones, puedes hacer un seguimiento de los cambios y saber cuándo se realizaron y quién los hizo. Si es necesario, puedes revertir fácilmente a versiones anteriores.
Implementa el control de versiones
Un sistema de control de versiones como Git es un componente clave del proceso de IaC. Ofrece capacidades sólidas de administración de cambios y mitigación de riesgos, por lo que se adopta ampliamente, ya sea a través de soluciones de desarrollo interno o de SaaS. Esta recomendación es relevante para estas áreas de enfoque de preparación operativa: gobernanza y herramientas.
A través del seguimiento de los cambios en el código y la configuración de la IaC, el control de versiones proporciona visibilidad sobre la evolución del código, lo que facilita la comprensión del impacto de los cambios y la identificación de posibles problemas. Esta visibilidad mejorada fomenta la colaboración entre los miembros del equipo que trabajan en el mismo proyecto de IaC.
La mayoría de los sistemas de control de versiones te permiten revertir los cambios fácilmente si es necesario. Esta función ayuda a mitigar el riesgo de consecuencias o errores no deseados. Cuando usas herramientas como Git en tu flujo de trabajo de IaC, puedes mejorar de manera significativa los procesos de administración de cambios, fomentar la colaboración y mitigar los riesgos, lo que lleva a una implementación de IaC más eficiente y confiable.
Compila canalizaciones de CI/CD
Las canalizaciones de integración continua y entrega continua (CI/CD) optimizan el proceso de desarrollo e implementación de aplicaciones en la nube. Las canalizaciones de CI/CD automatizan las etapas de compilación, prueba e implementación, lo que permite lanzamientos más rápidos y frecuentes con un control de calidad mejorado. Esta recomendación es relevante para el área de enfoque de preparación operativa de las herramientas.
Las canalizaciones de CI/CD garantizan que los cambios de código se integren de forma continua en un repositorio central, por lo general, un sistema de control de versión como Git. La integración contínua facilita la detección y resolución temprana de problemas, y reduce la probabilidad de errores o problemas de compatibilidad.
Para crear y administrar canalizaciones de CI/CD para aplicaciones en la nube, puedes usar herramientas como Cloud Build y Cloud Deploy.
- Cloud Build es un servicio de compilación completamente administrado que permite a los desarrolladores definir y ejecutar pasos de compilación de forma declarativa. Se integra sin problemas con plataformas populares de administración de código fuente y se puede activar a través de eventos como envíos de código y solicitudes de extracción.
- Cloud Deploy es un servicio de implementación sin servidores que automatiza el proceso de implementación de aplicaciones en varios entornos, como pruebas, etapa de pruebas y producción. Proporciona funciones como implementaciones azul-verde, división de tráfico y capacidades de reversión, lo que facilita la administración y supervisión de las implementaciones de aplicaciones.
La integración de canalizaciones de CI/CD con sistemas de control de versiones y frameworks de pruebas ayuda a garantizar la calidad y confiabilidad de tus aplicaciones en la nube. Cuando se ejecutan pruebas automatizadas como parte del proceso de CI/CD, los equipos de desarrollo pueden identificar y corregir rápidamente cualquier problema antes de que el código se implemente en el entorno de producción. Esta integración ayuda a mejorar la estabilidad y el rendimiento general de tus aplicaciones en la nube.
Usa herramientas de administración de configuración
Las herramientas como Puppet, Chef, Ansible y VM Manager te ayudan a automatizar la configuración y la administración de recursos de la nube. Con estas herramientas, puedes garantizar la coherencia de los recursos y el cumplimiento en todos tus entornos de nube. Esta recomendación es relevante para la área de enfoque de preparación operativa de las herramientas.
Automatizar la configuración y administración de los recursos de la nube proporciona los siguientes beneficios:
- Reducción significativa del riesgo de errores manuales: Cuando se involucran procesos manuales, es más probable que se cometan errores debido a errores humanos. Las herramientas de administración de configuraciones reducen este riesgo automatizando los procesos, de modo que las configuraciones se apliquen de manera coherente y precisa en todos los recursos de la nube. Esta automatización puede mejorar la confiabilidad y la estabilidad del entorno de nube.
- Mejora de la eficiencia operativa: Cuando se automatizan las tareas repetitivas, la organización puede liberar al personal de TI para que se enfoque en iniciativas más estratégicas. Esta automatización puede aumentar la productividad y los ahorros en costos, y mejorar la capacidad de respuesta a las necesidades empresariales cambiantes.
- Administración simplificada de infraestructuras de nube complejas: A medida que los entornos de nube aumentan de tamaño y complejidad, la administración de los recursos puede volverse cada vez más difícil. Las herramientas de administración de configuración proporcionan una plataforma centralizada para administrar recursos en la nube. Las herramientas facilitan el seguimiento de las configuraciones, la identificación de problemas y la implementación de cambios. El uso de estas herramientas puede mejorar la visibilidad, el control y la seguridad de tu entorno de nube.
Automatizar las pruebas
Integrar pruebas automatizadas en tus canalizaciones de CI/CD ayuda a garantizar la calidad y confiabilidad de tus aplicaciones en la nube. Si validas los cambios antes de la implementación, puedes reducir significativamente el riesgo de errores y regresiones, lo que genera un sistema de software más estable y sólido. Esta recomendación es relevante para estas áreas de enfoque de preparación operativa: procesos y herramientas.
Estos son los principales beneficios de incorporar pruebas automatizadas en tus canalizaciones de CI/CD:
- Detección temprana de errores y defectos: Las pruebas automatizadas ayudan a detectar errores y defectos en las primeras etapas del proceso de desarrollo, antes de que puedan causar problemas importantes en la producción. Esta función ahorra tiempo y recursos, ya que evita la necesidad de realizar correcciones de errores y retrabajos costosos en etapas posteriores del proceso de desarrollo.
- Código de alta calidad y basado en estándares: Las pruebas automatizadas pueden ayudar a mejorar la calidad general de tu código, ya que se aseguran de que cumpla con ciertos estándares y prácticas recomendadas. Esta función genera aplicaciones más confiables y fáciles de mantener que son menos propensas a errores.
Puedes usar varios tipos de técnicas de prueba en las canalizaciones de CI/CD. Cada tipo de prueba tiene un propósito específico.
- Las pruebas de unidades se enfocan en probar unidades individuales de código, como funciones o métodos, para garantizar que funcionen como se espera.
- Las pruebas de integración prueban las interacciones entre diferentes componentes o módulos de tu aplicación para verificar que funcionen correctamente en conjunto.
- Las pruebas de extremo a extremo suelen usarse junto con las pruebas de integración y de unidades. Las pruebas de extremo a extremo simulan situaciones del mundo real para probar la aplicación en su totalidad y ayudan a garantizar que cumpla con los requisitos de los usuarios finales.
Para integrar de manera eficaz las pruebas automatizadas en tus canalizaciones de CI/CD, debes elegir las herramientas y los frameworks de prueba adecuados. Existen muchas opciones diferentes, cada una con sus propias fortalezas y debilidades. También debes establecer una estrategia de pruebas clara que describa los tipos de pruebas que se realizarán, la frecuencia de las pruebas y los criterios para aprobar o reprobar una prueba. Si sigues estas recomendaciones, puedes asegurarte de que tu proceso de pruebas automatizadas sea eficiente y eficaz. Este proceso proporciona estadísticas valiosas sobre la calidad y la confiabilidad de tus aplicaciones en la nube.
Mejora e innova de forma continua
Este principio del pilar de excelencia operativa del Google Cloud Framework de arquitectura bien definida proporciona recomendaciones para ayudarte a optimizar de forma continua las operaciones en la nube y fomentar la innovación.
Descripción general de los principios
Para innovar y mejorar de forma continua en la nube, debes enfocarte en el aprendizaje, la experimentación y la adaptación continuos. Esto te ayuda a explorar nuevas tecnologías y optimizar los procesos existentes, y promueve una cultura de excelencia que permite a tu organización lograr y mantener el liderazgo de la industria.
A través de la innovación y la mejora continua, puedes lograr los siguientes objetivos:
- Acelera la innovación: Explora nuevas tecnologías y servicios para mejorar las capacidades y generar diferenciación.
- Reducir costos: Identifica y elimina las ineficiencias a través de iniciativas de mejora de procesos.
- Mejora la agilidad: Adaptarse rápidamente a las cambiantes demandas del mercado y las necesidades de los clientes
- Mejora la toma de decisiones: Obtén estadísticas valiosas a partir de los datos y los análisis para tomar decisiones basadas en datos.
Las organizaciones que adoptan el principio de mejora continua y la innovación pueden liberar todo el potencial del entorno de nube y lograr un crecimiento sostenible. Este principio se asigna principalmente a la área de enfoque de preparación operativa de Workforce. Una cultura de innovación permite que los equipos experimenten con herramientas y tecnologías nuevas para expandir las capacidades y reducir los costos.
Recomendaciones
Para mejorar e innovar de forma continua tus cargas de trabajo en la nube, ten en cuenta las recomendaciones de las siguientes secciones. Cada recomendación de este documento es relevante para una o más de las áreas de enfoque de la preparación operativa.
Fomenta una cultura de aprendizaje
Anima a los equipos a experimentar, compartir conocimientos y aprender de forma continua. Adopta una cultura sin culpas en la que los fracasos se vean como oportunidades de crecimiento y mejora. Esta recomendación es relevante para el área de enfoque de preparación operativa de la fuerza laboral.
Cuando fomentas una cultura de aprendizaje, los equipos pueden aprender de los errores y iterar con rapidez. Este enfoque alienta a los miembros del equipo a asumir riesgos, experimentar con ideas nuevas y expandir los límites de su trabajo. También crea un entorno psicológicamente seguro en el que las personas se sienten cómodas compartiendo sus fracasos y aprendiendo de ellos. Compartir de esta manera genera un entorno más abierto y colaborativo.
Para facilitar el intercambio de conocimientos y el aprendizaje continuo, crea oportunidades para que los equipos compartan conocimientos y aprendan unos de otros. Puedes hacerlo a través de conferencias y sesiones de aprendizaje formales e informales.
Si fomentas una cultura de experimentación, intercambio de conocimientos y aprendizaje continuo, puedes crear un entorno en el que los equipos tengan la capacidad de tomar riesgos, innovar y crecer. Este entorno puede aumentar la productividad, mejorar la resolución de problemas y generar una fuerza laboral más comprometida y motivada. Además, si promueves una cultura libre de culpas, puedes crear un espacio seguro para que los empleados aprendan de los errores y contribuyan al conocimiento colectivo del equipo. Esta cultura, en última instancia, genera una fuerza laboral más resiliente y adaptable que está mejor preparada para enfrentar los desafíos y generar éxito a largo plazo.
Realiza retrospectivas con regularidad
Las retrospectivas les brindan a los equipos la oportunidad de reflexionar sobre sus experiencias, identificar lo que salió bien y lo que se puede mejorar. Cuando se realizan retrospectivas después de proyectos o incidentes importantes, los equipos pueden aprender de los éxitos y los fracasos, y mejorar continuamente sus procesos y prácticas. Esta recomendación es relevante para estas áreas de enfoque de preparación operativa: procesos y gobernanza.
Una forma eficaz de estructurar una retrospectiva es usar el modelo de inicio, detención y continuación:
- Inicio: En la fase Inicio de la retrospectiva, los miembros del equipo identifican prácticas, procesos y comportamientos nuevos que creen que pueden mejorar su trabajo. Explican por qué se necesitan los cambios y cómo se pueden implementar.
- Detener: En la fase de detener, los miembros del equipo identifican y eliminan prácticas, procesos y comportamientos que ya no son eficaces o que impiden el progreso. Explican por qué son necesarios estos cambios y cómo se pueden implementar.
- Continuar: En la fase de continuación, los miembros del equipo identifican prácticas, procesos y comportamientos que funcionan bien y deben continuarse. Explican por qué estos elementos son importantes y cómo se pueden reforzar.
Cuando se usa un formato estructurado, como el modelo de inicio, detención y continuación, los equipos pueden asegurarse de que las retrospectivas sean productivas y enfocadas. Este modelo ayuda a facilitar el debate, identificar las conclusiones principales y los pasos prácticos para mejoras futuras.
Mantente al tanto de las tecnologías de la nube
Para maximizar el potencial de los Google Cloud servicios, debes mantenerte al día con los avances, las funciones y las prácticas recomendadas más recientes. Esta recomendación es relevante para el área de enfoque de preparación operativa del personal.
Participar en conferencias, seminarios en línea y sesiones de capacitación relevantes es una forma valiosa de expandir tus conocimientos. Estos eventos brindan oportunidades para aprender de Google Cloud expertos, comprender nuevas funciones y relacionarse con colegas de la industria que podrían enfrentar desafíos similares. Si asistes a estas sessiones, podrás obtener estadísticas sobre cómo usar las funciones nuevas de manera eficaz, optimizar tus operaciones en la nube y fomentar la innovación en tu organización.
Para asegurarte de que los miembros de tu equipo estén al día con las tecnologías de la nube, bríndales la oportunidad de obtener certificaciones y asistir a cursos de capacitación. Google Cloudofrece una amplia variedad de certificaciones que validan las habilidades y los conocimientos en dominios específicos de la nube. Obtener estas certificaciones demuestra tu compromiso con la excelencia y proporciona evidencia tangible de tu competencia en las tecnologías de la nube. Los cursos de capacitación que ofrecen Google Cloud y nuestros socios profundizan en temas específicos. Proporcionan experiencia directa y habilidades prácticas que se pueden aplicar de inmediato a proyectos del mundo real. Si inviertes en el desarrollo profesional de tu equipo, puedes fomentar una cultura de aprendizaje continuo y garantizar que todos tengan las habilidades necesarias para tener éxito en la nube.
Busca y adopta los comentarios de forma proactiva
Recopila comentarios de los usuarios, las partes interesadas y los miembros del equipo. Usa los comentarios para identificar oportunidades para mejorar tus soluciones en la nube. Esta recomendación es relevante para el área de enfoque de preparación operativa de la fuerza laboral.
Los comentarios que recopiles pueden ayudarte a comprender las necesidades, los problemas y las expectativas en evolución de los usuarios de tus soluciones. Estos comentarios sirven como una entrada valiosa para impulsar mejoras y priorizar las mejoras futuras. Puedes usar varios mecanismos para recopilar comentarios:
- Las encuestas son una forma eficaz de recopilar datos cuantitativos de una gran cantidad de usuarios y partes interesadas.
- Las entrevistas con los usuarios brindan la oportunidad de recopilar datos cualitativos detallados. Las entrevistas te permiten comprender los desafíos y las experiencias específicos de los usuarios individuales.
- Los formularios de comentarios que se colocan en las soluciones en la nube ofrecen una forma conveniente para que los usuarios proporcionen comentarios inmediatos sobre su experiencia.
- Las reuniones periódicas con los miembros del equipo pueden facilitar la recopilación de comentarios sobre aspectos técnicos y desafíos de implementación.
Los comentarios que recopilas a través de estos mecanismos deben analizarse y sintetizarse para identificar temas y patrones comunes. Este análisis puede ayudarte a priorizar las mejoras futuras en función del impacto y la viabilidad de las mejoras sugeridas. Si abordas las necesidades y los problemas que se identifican a través de los comentarios, puedes asegurarte de que tus soluciones en la nube sigan cumpliendo con los requisitos cambiantes de tus usuarios y partes interesadas.
Mide el progreso y haz un seguimiento
Los indicadores clave de rendimiento (KPI) y las métricas son fundamentales para hacer un seguimiento del progreso y medir la eficacia de tus operaciones en la nube. Los KPI son mediciones cuantificables que reflejan el rendimiento general. Las métricas son puntos de datos específicos que contribuyen al cálculo de los KPI. Revisa las métricas con regularidad y úsalos para identificar oportunidades de mejora y medir el progreso. De esta manera, podrás mejorar y optimizar continuamente tu entorno de nube. Esta recomendación es relevante para estas áreas de enfoque de preparación operativa: gobierno y procesos.
Un beneficio principal de usar KPIs y métricas es que permiten que tu organización adopte un enfoque basado en datos para las operaciones en la nube. Si realizas un seguimiento y analizas los datos operativos, puedes tomar decisiones fundamentadas sobre cómo mejorar el entorno de nube. Este enfoque basado en datos te ayuda a identificar tendencias, patrones y anomalías que podrían no ser visibles sin el uso de métricas sistemáticas.
Para recopilar y analizar datos operativos, puedes usar herramientas como Cloud Monitoring y BigQuery. Cloud Monitoring permite la supervisión en tiempo real de los recursos y servicios de la nube. BigQuery te permite almacenar y analizar los datos que recopilas a través de la supervisión. Si usas estas herramientas en conjunto, puedes crear paneles personalizados para visualizar métricas y tendencias importantes.
Los paneles operativos pueden proporcionar una vista centralizada de las métricas más importantes, lo que te permite identificar rápidamente las áreas que necesitan atención. Por ejemplo, un panel puede incluir métricas como el uso de la CPU, el uso de la memoria, el tráfico de red y la latencia de una aplicación o un servicio en particular. Si supervisas estas métricas, puedes identificar rápidamente cualquier problema potencial y tomar medidas para resolverlo.