Esta página foi traduzida pela API Cloud Translation.

Framework com boa arquitetura: pilar de excelência operacional

Last reviewed 2025-02-14 UTC

O pilar de excelência operacional no Google Cloud Well-Architected Framework fornece recomendações para operar cargas de trabalho de maneira eficiente no Google Cloud. A excelência operacional na nuvem envolve projetar, implementar e gerenciar soluções de nuvem que oferecem valor, desempenho, segurança e confiabilidade. As recomendações neste pilar ajudam você a melhorar e adaptar continuamente as cargas de trabalho para atender às necessidades dinâmicas e em constante evolução na nuvem.

O pilar de excelência operacional é relevante para os seguintes públicos-alvo:

Gerentes e líderes: um framework para estabelecer e manter a excelência operacional na nuvem e garantir que os investimentos em nuvem gerem valor e apoiem os objetivos de negócios.
Equipes de operações na nuvem: orientações para gerenciar incidentes e problemas, planejar a capacidade, otimizar o desempenho e gerenciar mudanças.
Engenheiros de confiabilidade do site (SREs): práticas recomendadas que ajudam a alcançar altos níveis de confiabilidade do serviço, incluindo monitoramento, resposta a incidentes e automação.
Arquitetos e engenheiros de nuvem: requisitos operacionais e práticas recomendadas para as fases de design e implementação, ajudando a garantir que as soluções sejam projetadas para eficiência operacional e escalonabilidade.
Equipes de DevOps: orientações sobre automação, pipelines de CI/CD e gerenciamento de mudanças para ajudar a acelerar e tornar mais confiável a entrega de software.

Para alcançar a excelência operacional, é preciso adotar a automação, a orquestração e os insights baseados em dados. Automation ajuda a eliminar o trabalho. Ele também simplifica e cria mecanismos de proteção para tarefas repetitivas. A orquestração ajuda a coordenar processos complexos. Os insights baseados em dados permitem a tomada de decisões com base em evidências. Ao usar essas práticas, você pode otimizar as operações na nuvem, reduzir custos, melhorar a disponibilidade do serviço e aumentar a segurança.

A excelência operacional na nuvem vai além da proficiência técnica em operações de nuvem. Isso inclui uma mudança cultural que incentiva o aprendizado e a experimentação contínuos. As equipes precisam ter autonomia para inovar, iterar e adotar uma mentalidade de crescimento. Uma cultura de excelência operacional promove um ambiente colaborativo em que as pessoas são incentivadas a compartilhar ideias, questionar premissas e impulsionar melhorias.

Para princípios e recomendações de excelência operacional específicos para cargas de trabalho de IA e ML, consulte Perspectiva de IA e ML: excelência operacional no framework bem arquitetado.

Princípios básicos

As recomendações no pilar de excelência operacional do Well-Architected Framework são mapeadas para os seguintes princípios básicos:

Garantia de prontidão operacional e desempenho com CloudOps: garanta que as soluções de nuvem atendam aos requisitos operacionais e de desempenho definindo objetivos de nível de serviço (SLOs) e realizando monitoramento abrangente, testes de desempenho e planejamento de capacidade.
Gerenciar incidentes e problemas: minimize o impacto de incidentes na nuvem e evite recorrências com observabilidade abrangente, procedimentos claros de resposta a incidentes, retrospectivas completas e medidas preventivas.
Gerenciar e otimizar recursos de nuvem: otimize e gerencie recursos de nuvem com estratégias como dimensionamento adequado, escalonamento automático e usando ferramentas eficazes de monitoramento de custos.
Automatizar e gerenciar mudanças: automatize processos, simplifique o gerenciamento de mudanças e alivie o trabalho manual.
Melhoria e inovação contínuas: concentre-se em melhorias contínuas e na introdução de novas soluções para manter a competitividade.

Colaboradores

Autores:

Ryan Cox | Arquiteto principal
Hadrian Knotz | Arquiteto corporativo

Outros colaboradores:

Daniel Lees | Arquiteto de segurança do Cloud
Filipe Gracio, PhD | Engenheiro de clientes, especialista em IA/ML
Gary Harmson | Arquiteto principal
Jose Andrade | Engenheiro de clientes, especialista em SRE
Kumar Dhanagopal | Desenvolvedor de soluções para vários produtos
Nicolas Pintaux | Engenheiro de clientes, especialista em modernização de aplicativos
Radhika Kanakam | Líder de programa, Google Cloud Well-Architected Framework
Samantha He | Redatora técnica
Zach Seils | Especialista em rede
Wade Holmes | Diretor global de soluções

Garantia de prontidão operacional e desempenho com CloudOps

Esse princípio no pilar de excelência operacional do Google Cloud Well-Architected Framework ajuda a garantir a prontidão operacional e a performance das suas cargas de trabalho na nuvem. Ele enfatiza o estabelecimento de expectativas e compromissos claros para o desempenho do serviço, a implementação de monitoramento e alertas robustos, a realização de testes de desempenho e o planejamento proativo para necessidades de capacidade.

Visão geral do princípio

Cada organização pode interpretar a prontidão operacional de uma maneira diferente. A prontidão operacional é como sua organização se prepara para operar cargas de trabalho com sucesso no Google Cloud. A preparação para operar uma carga de trabalho complexa e multicamadas na nuvem exige um planejamento cuidadoso para a entrada em produção e operações do day-2. Essas operações são chamadas de CloudOps.

Áreas de foco da prontidão operacional

A prontidão operacional consiste em quatro áreas de foco. Cada área de foco consiste em um conjunto de atividades e componentes necessários para se preparar para operar um aplicativo ou ambiente complexo em Google Cloud. A tabela a seguir lista os componentes e as atividades de cada área de foco:

Área de foco da prontidão operacional	Atividades e componentes
Funcionários	Definir papéis e responsabilidades claras para as equipes que gerenciam e operam os recursos da nuvem. Garantir que os membros da equipe tenham as habilidades adequadas. Desenvolver um programa de aprendizado. Estabelecer uma estrutura de equipe clara. Contratar os talentos necessários.
Processos	Observabilidade. Gerenciar interrupções de serviço. Entrega na nuvem. Operações principais na nuvem.
Ferramentas	Ferramentas necessárias para oferecer suporte aos processos de CloudOps.
Governança	Níveis de serviço e relatórios. Finanças na nuvem. Modelo operacional de nuvem. Conselhos de governança e revisão de arquitetura. Arquitetura e compliance de nuvem.

Recomendações

Para garantir a prontidão operacional e o desempenho usando o CloudOps, considere as recomendações nas seções a seguir. Cada recomendação neste documento é relevante para uma ou mais das áreas de foco da prontidão operacional.

Definir SLOs e SLAs

Uma das principais responsabilidades da equipe de operações na nuvem é definir objetivos de nível de serviço (SLOs) e contratos de nível de serviço (SLAs) para todas as cargas de trabalho críticas. Essa recomendação é relevante para a área de foco de governança da prontidão operacional.

Os SLOs precisam ser específicos, mensuráveis, alcançáveis, relevantes e temporais (SMART) e refletir o nível de serviço e o desempenho desejados.

Específico: articula claramente o nível de serviço e desempenho necessários.
Mensurável: quantificável e rastreável.
Alcançável: pode ser atingido dentro dos limites das capacidades e recursos da sua organização.
Relevante: alinhado com as metas e prioridades de negócios.
Com prazo: tem um período definido para medição e avaliação.

Por exemplo, um SLO para um aplicativo da Web pode ser "disponibilidade de 99,9%" ou "tempo médio de resposta inferior a 200 ms". Esses SLOs definem claramente o nível de serviço e o desempenho necessários para o aplicativo da Web, e podem ser medidos e rastreados ao longo do tempo.

Os SLAs descrevem os compromissos com os clientes em relação à disponibilidade, desempenho e suporte do serviço, incluindo penalidades ou medidas corretivas em caso de não conformidade. Os SLAs precisam incluir detalhes específicos sobre os serviços fornecidos, o nível de serviço esperado, as responsabilidades do provedor de serviços e do cliente, além de penalidades ou medidas em caso de não conformidade. Os SLAs servem como um contrato entre as duas partes, garantindo que ambas tenham um entendimento claro das expectativas e obrigações associadas ao serviço de nuvem.

Google Cloud fornece ferramentas como o Cloud Monitoring e indicadores de nível de serviço (SLIs) para ajudar você a definir e acompanhar os SLOs. O Cloud Monitoring oferece recursos abrangentes de monitoramento e observabilidade que permitem à sua organização coletar e analisar métricas relacionadas à disponibilidade, ao desempenho e à latência de aplicativos e serviços baseados na nuvem. Os SLIs são métricas específicas que podem ser usadas para medir e rastrear SLOs ao longo do tempo. Ao usar essas ferramentas, você pode monitorar e gerenciar serviços de nuvem com eficiência e garantir que eles atendam aos SLOs e SLAs.

Definir e comunicar claramente os SLOs e SLAs de todos os seus serviços críticos de nuvem ajuda a garantir a confiabilidade e o desempenho dos aplicativos e serviços implantados.

Implementar a observabilidade abrangente

Para ter visibilidade em tempo real da integridade e da performance do seu ambiente de nuvem, recomendamos usar uma combinação de ferramentas do Google Cloud Observability e soluções de terceiros. Essa recomendação é relevante para as seguintes áreas de foco da prontidão operacional: processos e ferramentas.

Implementar uma combinação de soluções de observabilidade oferece uma estratégia abrangente que cobre vários aspectos da sua infraestrutura e aplicativos em nuvem. O Google Cloud Observability é uma plataforma unificada para coletar, analisar e visualizar métricas, registros e rastreamentos de váriosGoogle Cloud serviços, aplicativos e fontes externas. Com o Cloud Monitoring, é possível ter insights sobre a utilização de recursos, as características de desempenho e a integridade geral deles.

Para garantir um monitoramento abrangente, monitore métricas importantes que se alinham aos indicadores de integridade do sistema, como utilização da CPU, uso de memória, tráfego de rede, E/S de disco e tempos de resposta do aplicativo. Você também precisa considerar métricas específicas da empresa. Ao rastrear essas métricas, é possível identificar possíveis gargalos, problemas de desempenho e restrições de recursos. Além disso, você pode configurar alertas para notificar proativamente as equipes relevantes sobre possíveis problemas ou anomalias.

Para melhorar ainda mais suas capacidades de monitoramento, é possível integrar soluções de terceiros ao Google Cloud Observability. Essas soluções podem oferecer funcionalidades extras, como análises avançadas, detecção de anomalias com tecnologia de machine learning e recursos de gerenciamento de incidentes. Essa combinação de ferramentas de observabilidade do Google Cloud e soluções de terceiros permite criar um ecossistema de monitoramento robusto e personalizável, adaptado às suas necessidades específicas. Ao usar essa abordagem combinada, é possível identificar e resolver problemas de forma proativa, otimizar a utilização de recursos e garantir a confiabilidade e a disponibilidade geral dos seus aplicativos e serviços de nuvem.

Implementar testes de desempenho e carga

Realizar testes de desempenho regularmente ajuda a garantir que seus aplicativos e infraestrutura baseados na nuvem possam lidar com picos de carga e manter o desempenho ideal. O teste de carga simula padrões de tráfego realistas. O teste de estresse leva o sistema ao limite para identificar possíveis gargalos e limitações de desempenho. Essa recomendação é relevante para as seguintes áreas de foco da prontidão operacional: processos e ferramentas.

Ferramentas como o Cloud Load Balancing e os serviços de teste de carga podem ajudar você a simular padrões de tráfego do mundo real e testar a capacidade dos aplicativos. Essas ferramentas fornecem insights valiosos sobre o comportamento do sistema em várias condições de carga e ajudam a identificar áreas que precisam de otimização.

Com base nos resultados dos testes de desempenho, é possível tomar decisões para otimizar sua infraestrutura e aplicativos de nuvem para desempenho e escalonabilidade ideais. Essa otimização pode envolver o ajuste da alocação de recursos, a configuração de ajustes ou a implementação de mecanismos de armazenamento em cache.

Por exemplo, se você notar que o aplicativo está mais lento durante períodos de tráfego intenso, talvez seja necessário aumentar o número de máquinas virtuais ou contêineres alocados para ele. Como alternativa, talvez seja necessário ajustar a configuração do servidor da Web ou do banco de dados para melhorar o desempenho.

Ao realizar testes de desempenho regularmente e implementar as otimizações necessárias, você garante que seus aplicativos e infraestrutura baseados na nuvem sempre funcionem com desempenho máximo e ofereçam uma experiência perfeita e responsiva aos usuários. Isso pode ajudar você a manter uma vantagem competitiva e conquistar a confiança dos clientes.

Planejar e gerenciar a capacidade

Planejar proativamente as necessidades futuras de capacidade, sejam elas orgânicas ou não, ajuda a garantir a operação e a escalonabilidade dos seus sistemas baseados na nuvem. Essa recomendação é relevante para a área de foco de prontidão operacional dos processos.

O planejamento da capacidade futura inclui entender e gerenciar cotas para vários recursos, como instâncias de computação, armazenamento e solicitações de API. Ao analisar padrões de uso históricos, projeções de crescimento e requisitos comerciais, é possível prever com precisão as necessidades de capacidade futuras. Você pode usar ferramentas como o Cloud Monitoring e o BigQuery para coletar e analisar dados de uso, identificar tendências e prever a demanda futura.

Os padrões históricos de uso oferecem insights valiosos sobre a utilização de recursos ao longo do tempo. Ao analisar métricas como utilização da CPU, uso de memória e tráfego de rede, é possível identificar períodos de alta demanda e possíveis gargalos. Além disso, você pode ajudar a estimar as necessidades futuras de capacidade fazendo projeções de crescimento com base em fatores como crescimento da base de usuários, novos produtos e recursos e campanhas de marketing. Ao avaliar as necessidades de capacidade, considere também os requisitos de negócios, como SLAs e metas de desempenho.

Ao determinar o dimensionamento de recursos para uma carga de trabalho, considere fatores que podem afetar a utilização de recursos. Variações sazonais, como períodos de compras de fim de ano ou vendas de fim de trimestre, podem causar picos temporários na demanda. Eventos planejados, como lançamentos de produtos ou campanhas de marketing, também podem aumentar significativamente o tráfego. Para garantir que seu sistema principal e de recuperação de desastres (DR) possam lidar com aumentos inesperados na demanda, planeje uma capacidade que possa oferecer suporte a failover normal durante interrupções como desastres naturais e ataques cibernéticos.

O escalonamento automático é uma estratégia importante para ajustar dinamicamente os recursos da nuvem com base nas variações de carga de trabalho. Com as políticas de escalonamento automático, é possível escalonar automaticamente instâncias de computação, armazenamento e outros recursos em resposta à mudança na demanda. Isso garante a performance ideal durante os períodos de pico e minimiza os custos quando a utilização de recursos é baixa. Os algoritmos de escalonamento automático usam métricas como utilização da CPU, uso de memória e profundidade da fila para determinar quando escalonar recursos.

Monitorar e otimizar continuamente

Para gerenciar e otimizar as cargas de trabalho na nuvem, é necessário estabelecer um processo de monitoramento e análise contínuos das métricas de performance. Essa recomendação é relevante para as seguintes áreas de foco da prontidão operacional: processos e ferramentas.

Para estabelecer um processo de monitoramento e análise contínuos, você rastreia, coleta e avalia dados relacionados a vários aspectos do seu ambiente de nuvem. Ao usar esses dados, você pode identificar de forma proativa áreas de melhoria, otimizar a utilização de recursos e garantir que sua infraestrutura de nuvem atenda ou exceda consistentemente suas expectativas de desempenho.

Um aspecto importante do monitoramento de performance é revisar regularmente os registros e rastreamentos. Os registros fornecem insights valiosos sobre eventos, erros e avisos do sistema. Os traces fornecem informações detalhadas sobre o fluxo de solicitações no seu aplicativo. Ao analisar registros e rastreamentos, é possível identificar possíveis problemas e as causas deles, além de entender melhor como seus aplicativos se comportam em diferentes condições. Métricas como o tempo de ida e volta entre serviços podem ajudar a identificar e entender gargalos nas suas cargas de trabalho.

Além disso, você pode usar técnicas de ajuste de performance para melhorar significativamente os tempos de resposta do aplicativo e a eficiência geral. Confira alguns exemplos de técnicas que você pode usar:

Armazenamento em cache: armazene dados acessados com frequência na memória para reduzir a necessidade de consultas repetidas no banco de dados ou chamadas de API.
Otimização do banco de dados: use técnicas como indexação e otimização de consultas para melhorar o desempenho das operações do banco de dados.
Criação de perfil de código: identifique áreas do seu código que consomem recursos em excesso ou causam problemas de desempenho.

Ao aplicar essas técnicas, você pode otimizar seus aplicativos e garantir que eles sejam executados de maneira eficiente na nuvem.

Gerenciamento de incidentes e de problemas

Esse princípio no pilar de excelência operacional do Google Cloud Well-Architected Framework fornece recomendações para ajudar você a gerenciar incidentes e problemas relacionados às cargas de trabalho na nuvem. Isso envolve implementar monitoramento e observabilidade abrangentes, estabelecer procedimentos claros de resposta a incidentes, realizar uma análise completa da causa raiz e implementar medidas preventivas. Muitos dos temas abordados neste princípio são tratados em detalhes no pilar Confiabilidade.

Visão geral do princípio

O gerenciamento de incidentes e problemas são componentes importantes de um ambiente de operações funcional. A forma como você responde, categoriza e resolve incidentes de diferentes gravidades pode afetar significativamente suas operações. Você também precisa fazer ajustes de forma proativa e contínua para otimizar a confiabilidade e a performance. Um processo eficiente de gerenciamento de incidentes e problemas depende dos seguintes elementos fundamentais:

Monitoramento contínuo: identifique e resolva problemas rapidamente.
Automação: simplifique tarefas e melhore a eficiência.
Orquestração: coordene e gerencie recursos da nuvem de maneira eficaz.
Insights baseados em dados: otimize as operações na nuvem e tome decisões informadas.

Esses elementos ajudam a criar um ambiente de nuvem resiliente que pode lidar com uma ampla variedade de desafios e interrupções. Esses elementos também podem ajudar a reduzir o risco de incidentes e inatividade caros, além de aumentar a agilidade e o sucesso dos negócios. Esses elementos fundamentais estão distribuídos nas quatro áreas de foco da prontidão operacional: força de trabalho, processos, ferramentas e governança.

Recomendações

Para gerenciar incidentes e problemas de maneira eficaz, considere as recomendações nas seções a seguir. Cada recomendação neste documento é relevante para uma ou mais das áreas de foco da prontidão operacional.

Estabelecer procedimentos claros de resposta a incidentes

Funções e responsabilidades claras são essenciais para garantir uma resposta eficaz e coordenada a incidentes. Além disso, protocolos de comunicação claros e caminhos de escalonamento ajudam a garantir que as informações sejam compartilhadas de forma rápida e eficaz durante um incidente. Essa recomendação é relevante para as seguintes áreas de foco da prontidão operacional: força de trabalho, processos e ferramentas.

Para estabelecer procedimentos de resposta a incidentes, é necessário definir as funções e expectativas de cada membro da equipe, como comandantes de incidentes, investigadores, comunicadores e especialistas técnicos. Estabelecer caminhos de comunicação e encaminhamento inclui identificar contatos importantes, configurar canais de comunicação e definir o processo de encaminhamento de incidentes para níveis mais altos de gerenciamento, quando necessário. O treinamento e a preparação regulares ajudam a garantir que as equipes tenham o conhecimento e as habilidades necessárias para responder a incidentes de maneira eficaz.

Ao documentar os procedimentos de resposta a incidentes em um runbook ou playbook, você pode fornecer um guia de referência padronizado para as equipes seguirem durante um incidente. O runbook precisa descrever as etapas a serem seguidas em cada fase do processo de resposta a incidentes, incluindo comunicação, triagem, investigação e resolução. Ele também precisa incluir informações sobre ferramentas e recursos relevantes, além de dados de contato de pessoas importantes. É necessário revisar e atualizar regularmente o runbook para garantir que ele permaneça atualizado e eficaz.

Centralizar o gerenciamento de incidentes

Para um rastreamento e gerenciamento eficazes durante todo o ciclo de vida do incidente, use um sistema centralizado de gestão de incidentes. Essa recomendação é relevante para as seguintes áreas de foco da prontidão operacional: processos e ferramentas.

Um sistema centralizado de gestão de incidentes oferece as seguintes vantagens:

Melhor visibilidade: ao consolidar todos os dados relacionados a incidentes em um único local, você elimina a necessidade de as equipes pesquisarem em vários canais ou sistemas para encontrar contexto. Essa abordagem economiza tempo, reduz a confusão e oferece às partes interessadas uma visão abrangente do incidente, incluindo status, impacto e progresso.
Melhor coordenação e colaboração: um sistema centralizado oferece uma plataforma unificada para comunicação e gerenciamento de tarefas. Ela promove a colaboração perfeita entre os diferentes departamentos e funções envolvidos na resposta a incidentes. Essa abordagem garante que todos tenham acesso a informações atualizadas e reduz o risco de falhas de comunicação e desalinhamento.
Maior responsabilidade e propriedade: um sistema centralizado de gerenciamento de incidentes permite que sua organização aloque tarefas a pessoas ou equipes específicas e garante que as responsabilidades sejam claramente definidas e rastreadas. Essa abordagem promove a responsabilidade e incentiva a solução proativa de problemas, porque os membros da equipe podem monitorar facilmente o progresso e as contribuições.

Um sistema centralizado de gestão de incidentes precisa oferecer recursos robustos para acompanhamento de incidentes, atribuição de tarefas e gerenciamento de comunicação. Com esses recursos, é possível personalizar fluxos de trabalho, definir prioridades e fazer integrações com outros sistemas, como ferramentas de monitoramento e sistemas de tíquetes.

Ao implementar um sistema centralizado de gerenciamento de incidentes, você pode otimizar os processos de resposta a incidentes da sua organização, melhorar a colaboração e aumentar a visibilidade. Isso leva a tempos de resolução de incidentes mais rápidos, redução do tempo de inatividade e maior satisfação do cliente. Isso também ajuda a promover uma cultura de melhoria contínua, já que é possível aprender com incidentes passados e identificar áreas para melhoria.

Realizar análises detalhadas após incidentes

Depois que um incidente ocorre, é necessário realizar uma análise detalhada pós-incidente (PIR), também conhecida como postmortem, para identificar a causa raiz, os fatores contribuintes e as lições aprendidas. Essa análise detalhada ajuda a evitar incidentes semelhantes no futuro. Essa recomendação é relevante para as seguintes áreas de foco da prontidão operacional: processos e governança.

O processo de PIR precisa envolver uma equipe multidisciplinar com experiência em vários aspectos do incidente. A equipe precisa reunir todas as informações relevantes por meio de entrevistas, revisão de documentos e inspeções no local. Uma linha do tempo de eventos precisa ser criada para estabelecer a sequência de ações que levaram ao incidente.

Depois que a equipe reúne as informações necessárias, ela precisa realizar uma análise da causa raiz para determinar os fatores que levaram ao incidente. Essa análise precisa identificar a causa imediata e os problemas sistêmicos que contribuíram para o incidente.

Além de identificar a causa raiz, a equipe de PIR precisa identificar outros fatores que possam ter contribuído para o incidente. Esses fatores podem incluir erro humano, falha de equipamento ou fatores organizacionais, como falhas de comunicação e falta de treinamento.

O relatório de PIR precisa documentar as descobertas da investigação, incluindo o cronograma de eventos, a análise da causa raiz e as ações recomendadas. O relatório é um recurso valioso para implementar ações corretivas e evitar recorrências. O relatório precisa ser compartilhado com todos os stakeholders relevantes e usado para desenvolver treinamentos e procedimentos de segurança.

Para garantir um processo de PIR bem-sucedido, sua organização precisa promover uma cultura sem culpa que se concentre no aprendizado e na melhoria, em vez de atribuir culpa. Essa cultura incentiva as pessoas a denunciar incidentes sem medo de retaliação, além de permitir que você resolva problemas sistêmicos e faça melhorias significativas.

Ao realizar PIRs completas e implementar medidas corretivas com base nas descobertas, é possível reduzir significativamente o risco de incidentes semelhantes ocorrerem no futuro. Essa abordagem proativa para investigação e prevenção de incidentes ajuda a criar um ambiente de trabalho mais seguro e eficiente para todos os envolvidos.

Manter uma base de conhecimento

Uma base de conhecimento de problemas conhecidos, soluções e guias de solução de problemas é essencial para o gerenciamento e a resolução de incidentes. Os membros da equipe podem usar a base de conhecimento para identificar e resolver problemas comuns rapidamente. Implementar uma base de conhecimento ajuda a reduzir a necessidade de encaminhamento e melhora a eficiência geral. Essa recomendação é relevante para estas áreas de foco da prontidão operacional: força de trabalho e processos.

Um dos principais benefícios de uma base de conhecimento é que ela permite que as equipes aprendam com experiências passadas e evitem repetir erros. Ao capturar e compartilhar soluções para problemas conhecidos, as equipes podem criar um entendimento coletivo de como resolver problemas comuns e das práticas recomendadas para o gerenciamento de incidentes. O uso de uma base de conhecimento economiza tempo e esforço, além de ajudar a padronizar processos e garantir consistência na resolução de incidentes.

Além de ajudar a melhorar os tempos de resolução de incidentes, uma base de conhecimento promove o compartilhamento de conhecimento e a colaboração entre as equipes. Com um repositório central de informações, as equipes podem acessar e contribuir facilmente para a base de conhecimento, o que promove uma cultura de aprendizado e melhoria contínuos. Essa cultura incentiva as equipes a compartilhar conhecimentos e experiências, resultando em uma base de conhecimento mais abrangente e valiosa.

Para criar e gerenciar uma base de conhecimento de maneira eficaz, use as ferramentas e tecnologias adequadas. Plataformas de colaboração como o Google Workspace são adequadas para isso porque permitem criar, editar e compartilhar documentos com facilidade. Essas ferramentas também oferecem suporte ao controle de versão e ao rastreamento de mudanças, o que garante que a base de conhecimento permaneça atualizada e precisa.

Facilite o acesso à base de conhecimento para todas as equipes relevantes. Para isso, integre a base de conhecimento aos sistemas de gerenciamento de incidentes atuais ou forneça um portal dedicado ou um site da intranet. Uma base de conhecimento facilmente disponível permite que as equipes acessem rapidamente as informações necessárias para resolver incidentes de maneira eficiente. Essa disponibilidade ajuda a reduzir o tempo de inatividade e minimizar o impacto nas operações comerciais.

Revise e atualize regularmente a base de conhecimento para garantir que ela continue relevante e útil. Monitore relatórios de incidentes, identifique problemas e tendências comuns e incorpore novas soluções e guias de solução de problemas à base de conhecimento. Uma base de conhecimento atualizada ajuda suas equipes a resolver incidentes com mais rapidez e eficiência.

Automatizar a resposta a incidentes

Automation ajuda a simplificar os processos de resposta e correção de incidentes. Isso permite resolver violações de segurança e falhas do sistema de maneira rápida e eficiente. Ao usar produtos como Cloud Run functions ou Cloud Run, é possível automatizar várias tarefas que normalmente são manuais e demoradas. Google Cloud Essa recomendação é relevante para as seguintes áreas de foco da prontidão operacional: processos e ferramentas.

A resposta a incidentes automatizada oferece os seguintes benefícios:

Redução nos tempos de detecção e resolução de incidentes: as ferramentas automatizadas podem monitorar continuamente sistemas e aplicativos, detectar atividades suspeitas ou anômalas em tempo real e notificar as partes interessadas ou responder sem intervenção. Com essa automação, é possível identificar possíveis ameaças ou problemas antes que eles se tornem incidentes graves. Quando um incidente é detectado, as ferramentas automatizadas podem acionar ações de correção predefinidas, como isolar sistemas afetados, colocar arquivos maliciosos em quarentena ou reverter mudanças para restaurar o sistema a um estado bom conhecido.
Redução da carga de trabalho das equipes de segurança e operações: a resposta a incidentes automatizada permite que as equipes de segurança e operações se concentrem em tarefas mais estratégicas. Ao automatizar tarefas rotineiras e repetitivas, como coletar informações de diagnóstico ou acionar alertas, sua organização pode liberar pessoal para lidar com incidentes mais complexos e críticos. Essa automação pode melhorar a eficácia e a eficiência geral da resposta a incidentes.
Maior consistência e precisão do processo de correção: as ferramentas automatizadas garantem que as ações de correção sejam aplicadas de maneira uniforme em todos os sistemas afetados, minimizando o risco de erro humano ou inconsistência. Essa padronização ajuda a minimizar o impacto dos incidentes nos usuários e na empresa.

Gerenciamento e otimização de recursos em nuvem

Esse princípio no pilar de excelência operacional do Google Cloud Well-Architected Framework fornece recomendações para ajudar você a gerenciar e otimizar os recursos usados pelas cargas de trabalho na nuvem. Isso envolve dimensionar os recursos de acordo com o uso e a demanda reais, usar o escalonamento automático para alocação dinâmica de recursos, implementar estratégias de otimização de custos e revisar regularmente a utilização e os custos dos recursos. Muitos dos tópicos discutidos neste princípio são abordados em detalhes no pilar de otimização de custos.

Visão geral do princípio

O gerenciamento e a otimização de recursos na nuvem são fundamentais para otimizar os gastos, o uso de recursos e a eficiência da infraestrutura. Ela inclui várias estratégias e práticas recomendadas para maximizar o valor e o retorno dos seus gastos na nuvem.

O foco desse pilar na otimização vai além da redução de custos. Ele enfatiza os seguintes objetivos:

Eficiência: uso da automação e da análise de dados para alcançar o desempenho máximo e economizar custos.
Performance: escalonamento de recursos sem esforço para atender às demandas variáveis e gerar resultados ideais.
Escalonabilidade: adaptação da infraestrutura e dos processos para acomodar crescimento rápido e cargas de trabalho diversas.

Ao focar nessas metas, você alcança um equilíbrio entre custo e funcionalidade. Você pode tomar decisões fundamentadas sobre provisionamento, escalonamento e migração de recursos. Além disso, você recebe insights valiosos sobre padrões de consumo de recursos, o que permite identificar e resolver proativamente possíveis problemas antes que eles se agravem.

Recomendações

Para gerenciar e otimizar recursos, considere as recomendações nas seções a seguir. Cada recomendação neste documento é relevante para uma ou mais das áreas de foco da prontidão operacional.

Adequam os recursos

Monitorar continuamente a utilização de recursos e ajustar a alocação para corresponder à demanda real é essencial para um gerenciamento eficiente de recursos na nuvem. O provisionamento excessivo de recursos pode gerar custos desnecessários, e o provisionamento insuficiente pode causar gargalos de desempenho que afetam o desempenho do aplicativo e a experiência do usuário. Para alcançar um equilíbrio ideal, é necessário adotar uma abordagem proativa para o dimensionamento adequado dos recursos de nuvem. Essa recomendação é relevante para a área de foco de prontidão operacional da governança.

O Cloud Monitoring e o Recomendador podem ajudar você a identificar oportunidades de ajuste de tamanho. O Cloud Monitoring oferece visibilidade em tempo real das métricas de utilização de recursos. Essa visibilidade permite rastrear padrões de uso de recursos e identificar possíveis ineficiências. O Recommender analisa dados de utilização de recursos para fazer recomendações inteligentes de otimização da alocação de recursos. Com essas ferramentas, você pode ter insights sobre o uso de recursos e tomar decisões fundamentadas sobre o dimensionamento adequado deles.

Além do Cloud Monitoring e do Recommender, considere usar métricas personalizadas para acionar ações automatizadas de ajuste de tamanho. Com as métricas personalizadas, você pode rastrear métricas específicas de utilização de recursos relevantes para seus aplicativos e cargas de trabalho. Também é possível configurar alertas para notificar os administradores quando os limites predefinidos forem atingidos. Em seguida, os administradores podem tomar as medidas necessárias para ajustar a alocação de recursos. Essa abordagem proativa garante que os recursos sejam escalonados de maneira oportuna, o que ajuda a otimizar os custos da nuvem e evitar problemas de desempenho.

Use o escalonamento automático.

O escalonamento automático de recursos de computação e outros recursos ajuda a garantir o desempenho ideal e a eficiência de custo dos aplicativos baseados na nuvem. Com o escalonamento automático, é possível ajustar dinamicamente a capacidade dos recursos com base nas flutuações da carga de trabalho. Assim, você tem os recursos necessários quando precisa e evita o provisionamento excessivo e custos desnecessários. Essa recomendação é relevante para a área de foco de prontidão operacional dos processos.

Para atender às diversas necessidades de diferentes aplicativos e cargas de trabalho, oGoogle Cloud oferece várias opções de escalonamento automático, incluindo:

Os grupos gerenciados de instâncias (MIGs) do Compute Engine são grupos de VMs gerenciados e escalonados como uma única entidade. Com os MIGs, é possível definir políticas de escalonamento automático que especificam o número mínimo e máximo de VMs a serem mantidas no grupo, além das condições que acionam o escalonamento automático. Por exemplo, é possível configurar uma política para adicionar VMs em um MIG quando a utilização da CPU atingir um determinado limite e para remover VMs quando a utilização cair abaixo de outro limite.
O escalonamento automático do Google Kubernetes Engine (GKE) ajusta dinamicamente os recursos do cluster para atender às necessidades do seu aplicativo. Ele oferece as seguintes ferramentas:
- O escalonador automático de cluster adiciona ou remove nós com base nas demandas de recursos do pod.
- O escalonador automático horizontal de pods muda o número de réplicas de pods com base em CPU, memória ou métricas personalizadas.
- O escalonador automático vertical de pods ajusta as solicitações e os limites de recursos do pod com base nos padrões de uso.
- O provisionamento automático de nós cria automaticamente pools de nós otimizados para suas cargas de trabalho.
Essas ferramentas trabalham juntas para otimizar a utilização de recursos, garantir o desempenho do aplicativo e simplificar o gerenciamento de clusters.
O Cloud Run é uma plataforma sem servidor que permite executar código sem precisar gerenciar infraestrutura. O Cloud Run oferece escalonamento automático integrado, que ajusta automaticamente o número de instâncias com base no tráfego recebido. Quando o volume de tráfego aumenta, o Cloud Run aumenta o número de instâncias para processar a carga. Quando o tráfego diminui, o Cloud Run reduz o número de instâncias para diminuir os custos.

Ao usar essas opções de escalonamento automático, você garante que seus aplicativos baseados na nuvem tenham os recursos necessários para lidar com cargas de trabalho variadas, evitando o provisionamento excessivo e custos desnecessários. O uso do escalonamento automático pode melhorar a performance, economizar custos e usar os recursos da nuvem de maneira mais eficiente.

Aproveitar estratégias de otimização de custos

A otimização dos gastos com a nuvem ajuda você a gerenciar de forma eficaz os orçamentos de TI da sua organização. Essa recomendação é relevante para a área de foco de governança da prontidão operacional.

OGoogle Cloud oferece várias ferramentas e técnicas para ajudar você a otimizar os custos da nuvem. Ao usar essas ferramentas e técnicas, você pode aproveitar ao máximo seus gastos na nuvem. Essas ferramentas e técnicas ajudam a identificar áreas em que os custos podem ser reduzidos, como recursos subutilizados ou tipos de instância mais econômicos. Google Cloud As opções para ajudar a otimizar os custos da nuvem incluem:

Os descontos por compromisso de uso (CUDs) são descontos por se comprometer com um determinado nível de uso por um período.
Os descontos por uso prolongado do Compute Engine oferecem descontos para uso consistente de um serviço.
As VMs spot oferecem acesso à capacidade de VM não utilizada a um custo menor em comparação com as VMs regulares.

Os modelos de preços podem mudar com o tempo, e novos recursos podem ser introduzidos para oferecer melhor desempenho ou custo menor em comparação com as opções atuais. Por isso, revise regularmente os modelos de preços e considere recursos alternativos. Ao se manter informado sobre os modelos de preços e recursos mais recentes, você pode tomar decisões embasadas sobre sua arquitetura de nuvem para minimizar custos.

As ferramentas de gerenciamento de custos doGoogle Cloud, como orçamentos e alertas, fornecem insights valiosos sobre os gastos na nuvem. Com os orçamentos e alertas, os usuários podem definir orçamentos e receber alertas quando eles são excedidos. Essas ferramentas ajudam os usuários a acompanhar os gastos na nuvem e identificar áreas em que os custos podem ser reduzidos.

Monitorar o uso e os custos de recursos

É possível usar tags e rótulos para rastrear o uso e os custos dos recursos. Ao atribuir tags e rótulos aos seus recursos de nuvem, como projetos, departamentos ou outras dimensões relevantes, você pode categorizar e organizar os recursos. Isso permite monitorar e analisar padrões de gastos para recursos específicos e identificar áreas de alto uso ou possíveis economias de custos. Essa recomendação é relevante para as seguintes áreas de foco da prontidão operacional: governança e ferramentas.

Ferramentas como o Cloud Billing e o gerenciamento de custos ajudam você a entender melhor seus padrões de gastos. Essas ferramentas oferecem insights detalhados sobre o uso da nuvem, permitindo identificar tendências, prever custos e tomar decisões fundamentadas. Ao analisar dados históricos e padrões de gastos atuais, é possível identificar as áreas de foco para suas iniciativas de otimização de custos.

Com painéis e relatórios personalizados, você pode visualizar os dados de custos e ter insights mais detalhados sobre as tendências de gastos. Ao personalizar os painéis com métricas e dimensões relevantes, você pode monitorar os indicadores principais de performance (KPIs) e acompanhar o progresso em relação às metas de otimização de custos. Os relatórios oferecem análises mais detalhadas dos dados de custo. Com os relatórios, é possível filtrar os dados por períodos específicos ou tipos de recursos para entender os fatores que contribuem para seus gastos na nuvem.

Revise e atualize regularmente suas tags, rótulos e ferramentas de análise de custos para garantir que você tenha as informações mais atualizadas sobre o uso e os custos da nuvem. Ao se manter informado e realizar análises pós-morte ou revisões proativas de custos, você pode identificar rapidamente qualquer aumento inesperado nos gastos. Assim, você pode tomar decisões proativas para otimizar os recursos da nuvem e controlar os custos.

Estabelecer alocação de custos e orçamento

A responsabilidade e a transparência no gerenciamento de custos na nuvem são cruciais para otimizar a utilização de recursos e garantir o controle financeiro. Essa recomendação é relevante para a área de foco de prontidão operacional da governança.

Para garantir responsabilidade e transparência, é preciso ter mecanismos claros de alocação de custos e estorno. Ao alocar custos a equipes, projetos ou indivíduos específicos, sua organização garante que cada uma dessas entidades seja responsável pelo uso da nuvem. Essa prática promove um senso de propriedade e incentiva o gerenciamento responsável de recursos. Além disso, os mecanismos de estorno permitem que sua organização recupere os custos da nuvem de clientes internos, alinhe incentivos com a performance e promova a disciplina fiscal.

Estabelecer orçamentos para diferentes equipes ou projetos é outro aspecto essencial do gerenciamento de custos da nuvem. Com os orçamentos, sua organização pode definir limites de gastos e acompanhar as despesas reais em relação a esses limites. Essa abordagem permite tomar decisões proativas para evitar gastos descontrolados. Ao definir orçamentos realistas e alcançáveis, você garante que os recursos da nuvem sejam usados de forma eficiente e alinhados aos objetivos de negócios. O monitoramento regular dos gastos reais em relação aos orçamentos ajuda a identificar variações e resolver possíveis excessos rapidamente.

Para monitorar orçamentos, use ferramentas como orçamentos e alertas do Cloud Billing. Essas ferramentas fornecem insights em tempo real sobre os gastos na nuvem e notificam os stakeholders sobre possíveis estouros de orçamento. Ao usar esses recursos, é possível acompanhar os custos da nuvem e tomar medidas corretivas antes que ocorram desvios significativos. Essa abordagem proativa ajuda a evitar surpresas financeiras e garante que os recursos da nuvem sejam usados de forma responsável.

Automatizar e gerenciar mudanças

Esse princípio no pilar de excelência operacional do Google Cloud Well-Architected Framework fornece recomendações para ajudar você a automatizar e gerenciar mudanças nas cargas de trabalho na nuvem. Isso envolve implementar infraestrutura como código (IaC), estabelecer procedimentos operacionais padrão, implementar um processo estruturado de gestão da mudança e usar automação e orquestração.

Visão geral do princípio

O gerenciamento de mudanças e a automação são essenciais para garantir transições tranquilas e controladas em ambientes de nuvem. Para um gerenciamento de mudanças eficaz, é necessário usar estratégias e práticas recomendadas que minimizem as interrupções e garantam que as mudanças sejam integradas sem problemas aos sistemas atuais.

O gerenciamento e a automação de mudanças eficazes incluem os seguintes elementos fundamentais:

Governança da mudança: estabeleça políticas e procedimentos claros para a gestão da mudança, incluindo processos de aprovação e planos de comunicação.
Avaliação de risco: identifique os riscos potenciais associados às mudanças e reduza-os com técnicas de gerenciamento de riscos.
Teste e validação: teste bem as mudanças para garantir que elas atendam aos requisitos funcionais e de desempenho e reduzam possíveis regressões.
Implantação controlada: implemente as mudanças de maneira controlada, garantindo que os usuários façam a transição para o novo ambiente sem problemas, com mecanismos para reverter sem problemas, se necessário.

Esses elementos fundamentais ajudam a minimizar o impacto das mudanças e garantem que elas tenham um efeito positivo nas operações comerciais. Esses elementos são representados pelos processos, ferramentas e governança das áreas de foco da prontidão operacional.

Recomendações

Para automatizar e gerenciar mudanças, considere as recomendações nas seções a seguir. Cada recomendação neste documento é relevante para uma ou mais das áreas de foco da prontidão operacional.

Adotar a IaC

A infraestrutura como código (IaC) é uma abordagem transformadora para gerenciar a infraestrutura de nuvem. É possível definir e gerenciar infraestrutura em nuvem de forma declarativa usando ferramentas como o Terraform. A IaC ajuda a alcançar consistência, capacidade de repetição e gerenciamento simplificado de mudanças. Além disso, ele permite implantações mais rápidas e confiáveis. Essa recomendação é relevante para as seguintes áreas de foco da preparação operacional: processos e ferramentas.

Confira abaixo os principais benefícios de adotar a abordagem de IaC para suas implantações na nuvem:

Configurações de recursos legíveis por humanos: com a abordagem de IaC, você pode declarar seus recursos de infraestrutura em nuvem em um formato legível por humanos, como JSON ou YAML. Os administradores e operadores de infraestrutura podem entender e modificar facilmente a infraestrutura e colaborar com outras pessoas.
Consistência e capacidade de repetição: a IaC permite consistência e capacidade de repetição nas implantações de infraestrutura. Você pode garantir que sua infraestrutura seja provisionada e configurada da mesma forma sempre, não importa quem esteja fazendo a implantação. Essa abordagem ajuda a reduzir erros e garante que sua infraestrutura esteja sempre em um estado conhecido.
Responsabilidade e solução de problemas simplificada: a abordagem de IaC ajuda a melhorar a responsabilidade e facilita a solução de problemas. Ao armazenar o código da IaC em um sistema de controle de versões, é possível rastrear mudanças e identificar quando e por quem elas foram feitas. Se necessário, você pode reverter facilmente para versões anteriores.

Implementar o controle de versões

Um sistema de controle de versões como o Git é um componente essencial do processo de IaC. Ele oferece recursos robustos de gerenciamento de mudanças e mitigação de riscos, por isso é amplamente adotado, seja por desenvolvimento interno ou soluções SaaS. Essa recomendação é relevante para as seguintes áreas de foco da prontidão operacional: governança e ferramentas.

Ao rastrear mudanças no código e nas configurações de IaC, o controle de versões oferece visibilidade da evolução do código, facilitando a compreensão do impacto das mudanças e a identificação de possíveis problemas. Essa visibilidade aprimorada promove a colaboração entre os membros da equipe que trabalham no mesmo projeto de IaC.

A maioria dos sistemas de controle de versão permite reverter mudanças com facilidade, se necessário. Essa capacidade ajuda a reduzir o risco de consequências ou erros indesejados. Ao usar ferramentas como o Git no fluxo de trabalho de IaC, você melhora significativamente os processos de gerenciamento de mudanças, promove a colaboração e reduz os riscos, o que leva a uma implementação de IaC mais eficiente e confiável.

Criar pipelines de CI/CD

Os pipelines de integração e entrega contínua (CI/CD) simplificam o processo de desenvolvimento e implantação de aplicativos na nuvem. Os pipelines de CI/CD automatizam as etapas de build, teste e implantação, o que permite lançamentos mais rápidos e frequentes com controle de qualidade aprimorado. Essa recomendação é relevante para a área de foco de ferramentas da prontidão operacional.

Os pipelines de CI/CD garantem que as mudanças de código sejam continuamente integradas a um repositório central, geralmente um sistema de controle de versões como o Git. A integração contínua facilita a detecção e a resolução antecipadas de problemas, além de reduzir a probabilidade de bugs ou problemas de compatibilidade.

Para criar e gerenciar pipelines de CI/CD para aplicativos na nuvem, use ferramentas como o Cloud Build e o Cloud Deploy.

O Cloud Build é um serviço de build totalmente gerenciado que permite aos desenvolvedores definir e executar etapas de build de maneira declarativa. Ele se integra perfeitamente a plataformas de gerenciamento de código-fonte conhecidas e pode ser acionado por eventos como pushes de código e solicitações de pull.
O Cloud Deploy é um serviço de implantação sem servidor que automatiza o processo de implantação de aplicativos em vários ambientes, como teste, preparo e produção. Ele oferece recursos como implantações azul-verde, divisão de tráfego e recursos de rollback, facilitando o gerenciamento e o monitoramento das implantações de aplicativos.

A integração de pipelines de CI/CD com sistemas de controle de versão e frameworks de teste ajuda a garantir a qualidade e a confiabilidade dos seus aplicativos na nuvem. Ao executar testes automatizados como parte do processo de CI/CD, as equipes de desenvolvimento podem identificar e corrigir rapidamente problemas antes que o código seja implantado no ambiente de produção. Essa integração ajuda a melhorar a estabilidade e a performance geral dos seus aplicativos na nuvem.

Usar ferramentas de gerenciamento de configurações

Ferramentas como Puppet, Chef, Ansible e o VM Manager ajudam a automatizar a configuração e o gerenciamento de recursos na nuvem. Com essas ferramentas, é possível garantir a consistência e a conformidade dos recursos em todos os ambientes de nuvem. Essa recomendação é relevante para a área de foco de ferramentas da prontidão operacional.

Automatizar a configuração e o gerenciamento de recursos da nuvem oferece os seguintes benefícios:

Redução significativa do risco de erros manuais: quando há processos manuais envolvidos, é mais provável que ocorram erros humanos. As ferramentas de gerenciamento de configuração reduzem esse risco automatizando processos para que as configurações sejam aplicadas de forma consistente e precisa em todos os recursos da nuvem. Essa automação pode melhorar a confiabilidade e a estabilidade do ambiente de nuvem.
Melhoria na eficiência operacional: ao automatizar tarefas repetitivas, sua organização pode liberar a equipe de TI para se concentrar em iniciativas mais estratégicas. Essa automação pode aumentar a produtividade e a economia de custos, além de melhorar a capacidade de resposta às mudanças nas necessidades comerciais.
Gerenciamento simplificado de infraestrutura de nuvem complexa: à medida que os ambientes de nuvem crescem em tamanho e complexidade, o gerenciamento dos recursos pode se tornar cada vez mais difícil. As ferramentas de gerenciamento de configurações oferecem uma plataforma centralizada para gerenciar recursos de nuvem. Com elas, fica mais fácil acompanhar configurações, identificar problemas e implementar mudanças. O uso dessas ferramentas pode melhorar a visibilidade, o controle e a segurança do seu ambiente de nuvem.

Automatizar testes

A integração de testes automatizados aos pipelines de CI/CD ajuda a garantir a qualidade e a confiabilidade dos seus aplicativos na nuvem. Ao validar as mudanças antes da implantação, você pode reduzir significativamente o risco de erros e regressões, o que leva a um sistema de software mais estável e robusto. Essa recomendação é relevante para as seguintes áreas de foco da prontidão operacional: processos e ferramentas.

Confira abaixo os principais benefícios de incorporar testes automatizados aos seus pipelines de CI/CD:

Detecção antecipada de bugs e defeitos: os testes automatizados ajudam a detectar bugs e defeitos no início do processo de desenvolvimento, antes que eles causem problemas graves na produção. Isso economiza tempo e recursos, evitando a necessidade de retrabalho e correções de bugs dispendiosos em etapas posteriores do processo de desenvolvimento.
Código de alta qualidade e baseado em padrões: os testes automatizados podem ajudar a melhorar a qualidade geral do código, garantindo que ele atenda a determinados padrões e práticas recomendadas. Isso leva a aplicativos mais confiáveis e fáceis de manter, que são menos propensos a erros.

É possível usar vários tipos de técnicas de teste em pipelines de CI/CD. Cada tipo de teste tem uma finalidade específica.

O teste de unidade se concentra em testar unidades individuais de código, como funções ou métodos, para garantir que funcionem conforme o esperado.
O teste de integração testa as interações entre diferentes componentes ou módulos do aplicativo para verificar se eles funcionam corretamente juntos.
O teste completo geralmente é usado com testes de unidade e de integração. O teste de ponta a ponta simula cenários do mundo real para testar o aplicativo como um todo e ajuda a garantir que ele atenda aos requisitos dos usuários finais.

Para integrar testes automatizados aos seus pipelines de CI/CD, escolha ferramentas e frameworks de teste adequados. Existem muitas opções diferentes, cada uma com seus pontos fortes e fracos. Você também precisa estabelecer uma estratégia de teste clara que descreva os tipos de testes a serem realizados, a frequência deles e os critérios para aprovação ou reprovação. Ao seguir essas recomendações, você garante que seu processo de teste automatizado seja eficiente e eficaz. Esse processo fornece insights valiosos sobre a qualidade e a confiabilidade dos seus aplicativos na nuvem.

Melhorar e inovar continuamente

Esse princípio no pilar de excelência operacional do Google Cloud Well-Architected Framework fornece recomendações para ajudar você a otimizar continuamente as operações na nuvem e impulsionar a inovação.

Visão geral do princípio

Para melhorar e inovar continuamente na nuvem, é necessário focar no aprendizado, na experimentação e na adaptação contínuos. Isso ajuda a explorar novas tecnologias e otimizar processos atuais, além de promover uma cultura de excelência que permite à sua organização alcançar e manter a liderança do setor.

Com melhoria e inovação contínuas, você pode alcançar as seguintes metas:

Acelere a inovação: conheça novas tecnologias e serviços para melhorar os recursos e impulsionar a diferenciação.
Reduzir custos: identifique e elimine ineficiências com iniciativas de melhoria de processos.
Aumentar a agilidade: adapte-se rapidamente às mudanças nas demandas do mercado e nas necessidades dos clientes.
Melhorar a tomada de decisões: receba insights valiosos de dados e análises para tomar decisões com base em dados.

As organizações que adotam o princípio de melhoria e inovação contínuas podem aproveitar todo o potencial do ambiente de nuvem e alcançar um crescimento sustentável. Esse princípio se relaciona principalmente à área de foco de prontidão operacional da força de trabalho. Uma cultura de inovação permite que as equipes testem novas ferramentas e tecnologias para ampliar as capacidades e reduzir os custos.

Recomendações

Para melhorar e inovar continuamente suas cargas de trabalho na nuvem, considere as recomendações nas seções a seguir. Cada recomendação neste documento é relevante para uma ou mais das áreas de foco da prontidão operacional.

Incentivar uma cultura de aprendizado

Incentive as equipes a testar, compartilhar conhecimento e aprender continuamente. Adote uma cultura sem culpa, em que as falhas são vistas como oportunidades de crescimento e melhoria. Essa recomendação é relevante para a área de foco de prontidão operacional da força de trabalho.

Quando você incentiva uma cultura de aprendizado, as equipes podem aprender com os erros e iterar rapidamente. Essa abordagem incentiva os membros da equipe a correr riscos, testar novas ideias e expandir os limites do trabalho. Ele também cria um ambiente psicologicamente seguro em que as pessoas se sentem à vontade para compartilhar falhas e aprender com elas. Compartilhar dessa forma cria um ambiente mais aberto e colaborativo.

Para facilitar o compartilhamento de conhecimento e o aprendizado contínuo, crie oportunidades para que as equipes compartilhem conhecimento e aprendam umas com as outras. Você pode fazer isso em sessões e conferências de aprendizado formais e informais.

Ao promover uma cultura de experimentação, compartilhamento de conhecimento e aprendizado contínuo, você pode criar um ambiente em que as equipes se sintam capacitadas para correr riscos, inovar e crescer. Esse ambiente pode aumentar a produtividade, melhorar a resolução de problemas e criar uma força de trabalho mais engajada e motivada. Além disso, ao promover uma cultura sem culpados, você cria um espaço seguro para que os funcionários aprendam com os erros e contribuam para o conhecimento coletivo da equipe. Essa cultura leva a uma força de trabalho mais resiliente e adaptável, que está mais bem preparada para lidar com desafios e impulsionar o sucesso a longo prazo.

Realizar retrospectivas regularmente

As retrospectivas dão às equipes a oportunidade de refletir sobre as experiências, identificar o que deu certo e o que pode ser melhorado. Ao realizar retrospectivas após projetos ou incidentes graves, as equipes podem aprender com sucessos e falhas e melhorar continuamente os processos e as práticas. Essa recomendação é relevante para as seguintes áreas de foco da prontidão operacional: processos e governança.

Uma maneira eficaz de estruturar uma retrospectiva é usar o modelo Iniciar-Parar-Continuar:

Início: na fase de Início da retrospectiva, os membros da equipe identificam novas práticas, processos e comportamentos que podem melhorar o trabalho. Eles discutem por que as mudanças são necessárias e como podem ser implementadas.
Parar: na fase Parar, os membros da equipe identificam e eliminam práticas, processos e comportamentos que não são mais eficazes ou que dificultam o progresso. Eles discutem por que essas mudanças são necessárias e como podem ser implementadas.
Continuar: na fase Continuar, os membros da equipe identificam práticas, processos e comportamentos que funcionam bem e precisam ser mantidos. Eles discutem por que esses elementos são importantes e como podem ser reforçados.

Ao usar um formato estruturado, como o modelo "Começar-Parar-Continuar", as equipes podem garantir que as retrospectivas sejam produtivas e focadas. Esse modelo ajuda a facilitar a discussão, identificar os principais aprendizados e as etapas práticas para melhorias futuras.

Fique por dentro das tecnologias de nuvem

Para maximizar o potencial dos serviços do Google Cloud , você precisa ficar por dentro dos avanços, recursos e práticas recomendadas mais recentes. Essa recomendação é relevante para a área de foco da força de trabalho de prontidão operacional.

Participar de conferências, webinars e sessões de treinamento relevantes é uma ótima maneira de ampliar seu conhecimento. Esses eventos oferecem oportunidades para aprender com Google Cloud especialistas, entender novos recursos e interagir com colegas do setor que podem enfrentar desafios semelhantes. Ao participar dessas sessões, você pode receber insights sobre como usar novos recursos de maneira eficaz, otimizar suas operações na nuvem e impulsionar a inovação na sua organização.

Para garantir que os membros da sua equipe acompanhem as tecnologias de nuvem, incentive-os a obter certificações e participar de cursos de treinamento.O Google Cloudoferece uma ampla variedade de certificações que validam habilidades e conhecimentos em domínios específicos da nuvem. Conquistar essas certificações demonstra compromisso com a excelência e fornece evidências tangíveis de proficiência em tecnologias de nuvem. Os cursos de treinamento oferecidos pelo Google Cloud e nossos parceiros abordam temas específicos com mais detalhes. Eles oferecem experiência direta e habilidades práticas que podem ser aplicadas imediatamente a projetos do mundo real. Ao investir no desenvolvimento profissional da sua equipe, você pode promover uma cultura de aprendizado contínuo e garantir que todos tenham as habilidades necessárias para ter sucesso na nuvem.

Busque e incorpore feedback ativamente

Colete feedback de usuários, partes interessadas e membros da equipe. Use o feedback para identificar oportunidades de melhorar suas soluções de nuvem. Essa recomendação é relevante para a área de foco de prontidão operacional da força de trabalho.

O feedback coletado ajuda a entender as necessidades, os problemas e as expectativas em constante mudança dos usuários das suas soluções. Esse feedback é uma contribuição valiosa para impulsionar melhorias e priorizar aprimoramentos futuros. Você pode usar vários mecanismos para coletar feedback:

As pesquisas são uma maneira eficaz de coletar dados quantitativos de um grande número de usuários e partes interessadas.
As entrevistas com usuários oferecem uma oportunidade para coleta de dados qualitativos detalhados. Com as entrevistas, você entende os desafios e as experiências específicas de usuários individuais.
Os formulários de feedback nas soluções de nuvem oferecem uma maneira conveniente para os usuários darem feedback imediato sobre a experiência deles.
Reuniões regulares com membros da equipe podem facilitar a coleta de feedback sobre aspectos técnicos e desafios de implementação.

O feedback coletado por esses mecanismos precisa ser analisado e sintetizado para identificar temas e padrões comuns. Essa análise pode ajudar você a priorizar melhorias futuras com base no impacto e na viabilidade das melhorias sugeridas. Ao atender às necessidades e resolver os problemas identificados pelo feedback, você garante que suas soluções de nuvem continuem atendendo aos requisitos em constante evolução dos usuários e partes interessadas.

Medir e acompanhar o progresso

Os indicadores principais de desempenho (KPIs) e as métricas são essenciais para acompanhar o progresso e medir a eficácia das operações na nuvem. Os KPIs são medidas quantificáveis que refletem a performance geral. As métricas são pontos de dados específicos que contribuem para o cálculo dos KPIs. Revise as métricas regularmente e use-as para identificar oportunidades de melhoria e medir o progresso. Isso ajuda você a melhorar e otimizar continuamente seu ambiente de nuvem. Essa recomendação é relevante para estas áreas de foco da prontidão operacional: governança e processos.

Um dos principais benefícios de usar KPIs e métricas é que eles permitem que sua organização adote uma abordagem orientada por dados para operações na nuvem. Ao rastrear e analisar dados operacionais, você pode tomar decisões fundamentadas sobre como melhorar o ambiente de nuvem. Essa abordagem orientada por dados ajuda a identificar tendências, padrões e anomalias que não seriam visíveis sem o uso de métricas sistemáticas.

Para coletar e analisar dados operacionais, use ferramentas como o Cloud Monitoring e o BigQuery. O Cloud Monitoring permite o monitoramento em tempo real de recursos e serviços de nuvem. Com o BigQuery, é possível armazenar e analisar os dados coletados pelo monitoramento. Ao usar essas ferramentas juntas, é possível criar painéis personalizados para visualizar métricas e tendências importantes.

Os painéis operacionais oferecem uma visão centralizada das métricas mais importantes, permitindo identificar rapidamente as áreas que precisam de atenção. Por exemplo, um painel pode incluir métricas como uso de CPU, uso de memória, tráfego de rede e latência de um aplicativo ou serviço específico. Ao monitorar essas métricas, você pode identificar rapidamente possíveis problemas e tomar medidas para resolvê-los.