O pilar de excelência operacional no Google Cloud Well-Architected Framework fornece recomendações para operar cargas de trabalho de forma eficiente no Google Cloud. A excelência operacional na nuvem envolve a conceção, a implementação e a gestão de soluções na nuvem que oferecem valor, desempenho, segurança e fiabilidade. As recomendações neste pilar ajudam a melhorar continuamente e a adaptar as cargas de trabalho para satisfazer as necessidades dinâmicas e em constante evolução na nuvem.
O pilar de excelência operacional é relevante para os seguintes públicos-alvo:
- Gestores e líderes: uma estrutura para estabelecer e manter a excelência operacional na nuvem e garantir que os investimentos na nuvem geram valor e apoiam os objetivos da empresa.
- Equipas de operações na nuvem: orientações para gerir incidentes e problemas, planear a capacidade, otimizar o desempenho e gerir as alterações.
- Engenheiros de fiabilidade de sites (EFS): práticas recomendadas que ajudam a alcançar níveis elevados de fiabilidade dos serviços, incluindo monitorização, resposta a incidentes e automatização.
- Arquitetos e engenheiros da nuvem: requisitos operacionais e práticas recomendadas para as fases de conceção e implementação, para ajudar a garantir que as soluções são concebidas para a eficiência operacional e a escalabilidade.
- Equipas de DevOps: orientações sobre automatização, pipelines de CI/CD e gestão de alterações para ajudar a permitir uma entrega de software mais rápida e fiável.
Para alcançar a excelência operacional, deve adotar a automatização, a orquestração e as estatísticas orientadas por dados. A automatização ajuda a eliminar o trabalho repetitivo. Também simplifica e cria restrições em torno de tarefas repetitivas. A orquestração ajuda a coordenar processos complexos. As estatísticas baseadas em dados permitem a tomada de decisões com base em provas. Ao usar estas práticas, pode otimizar as operações na nuvem, reduzir os custos, melhorar a disponibilidade dos serviços e aumentar a segurança.
A excelência operacional na nuvem vai além da proficiência técnica nas operações na nuvem. Inclui uma mudança cultural que incentiva a aprendizagem contínua e a experimentação. As equipas têm de ter autonomia para inovar, iterar e adotar uma mentalidade de crescimento. Uma cultura de excelência operacional fomenta um ambiente de colaboração onde os indivíduos são incentivados a partilhar ideias, desafiar pressupostos e impulsionar a melhoria.
Para ver princípios e recomendações de excelência operacional específicos para cargas de trabalho de IA e ML, consulte o artigo Perspetiva de IA e ML: excelência operacional no Well-Architected Framework.
Princípios fundamentais
As recomendações no pilar de excelência operacional da Well-Architected Framework estão mapeadas para os seguintes princípios essenciais:
- Garanta a prontidão operacional e o desempenho com o CloudOps: Certifique-se de que as soluções na nuvem cumprem os requisitos operacionais e de desempenho definindo objetivos de nível de serviço (SLOs) e realizando uma monitorização abrangente, testes de desempenho e planeamento da capacidade.
- Faça a gestão de incidentes e problemas: minimize o impacto dos incidentes na nuvem e evite a recorrência através de observabilidade abrangente, procedimentos claros de resposta a incidentes, retrospetivas exaustivas e medidas preventivas.
- Faça a gestão e a otimização dos recursos da nuvem: otimize e faça a gestão dos recursos da nuvem através de estratégias como o dimensionamento adequado, a escalabilidade automática e a utilização de ferramentas de monitorização de custos eficazes.
- Automatize e faça a gestão das alterações: automatize processos, simplifique a gestão de alterações e alivie a carga de trabalho manual.
- Melhorar e inovar continuamente: focar-se nas melhorias contínuas e na introdução de novas soluções para se manter competitivo.
Colaboradores
Autores:
- Ryan Cox | Principal Architect
- Hadrian Knotz | Enterprise Architect
Outros colaboradores:
- Daniel Lees | Arquiteto de segurança da nuvem
- Filipe Gracio, PhD | Engenheiro de clientes, especialista em IA/AA
- Gary Harmson | Principal Architect
- Jose Andrade | Customer Engineer, SRE Specialist
- Kumar Dhanagopal | Cross-Product Solution Developer
- Nicolas Pintaux | Customer Engineer, Application Modernization Specialist
- Radhika Kanakam | Program Lead, Google Cloud Well-Architected Framework
- Samantha He | Redatora técnica
- Zach Seils | Especialista em redes
- Wade Holmes | Global Solutions Director
Garanta a prontidão operacional e o desempenho com o CloudOps
Este princípio no pilar de excelência operacional da Google Cloud estrutura bem arquitetada ajuda a garantir a prontidão operacional e o desempenho das suas cargas de trabalho na nuvem. Enfatiza o estabelecimento de expetativas e compromissos claros para o desempenho do serviço, a implementação de uma monitorização e alertas robustos, a realização de testes de desempenho e o planeamento proativo das necessidades de capacidade.
Vista geral do princípio
Diferentes organizações podem interpretar a prontidão operacional de forma diferente. A prontidão operacional é a forma como a sua organização se prepara para operar com êxito cargas de trabalho no Google Cloud. A preparação para operar uma carga de trabalho na nuvem complexa e com várias camadas requer um planeamento cuidadoso para a entrada em produção e as operações do day-2. Estas operações são frequentemente denominadas CloudOps.
Principais áreas de prontidão operacional
A prontidão operacional consiste em quatro áreas de foco. Cada área de foco consiste num conjunto de atividades e componentes necessários para se preparar para operar uma aplicação ou um ambiente complexo no Google Cloud. A tabela seguinte apresenta os componentes e as atividades de cada área de foco:
Área de foco da prontidão operacional | Atividades e componentes |
---|---|
Força de trabalho |
|
Processos |
|
Ferramentas | Ferramentas necessárias para suportar os processos de CloudOps. |
Governança |
|
Recomendações
Para garantir a prontidão operacional e o desempenho através do CloudOps, considere as recomendações nas secções seguintes. Cada recomendação neste documento é relevante para uma ou mais das áreas de foco da prontidão operacional.
Defina SLOs e SLAs
Uma responsabilidade essencial da equipa de operações na nuvem é definir objetivos ao nível do serviço (SLOs) e contratos de nível de serviço (SLAs) para todas as cargas de trabalho críticas. Esta recomendação é relevante para a área de foco da prontidão operacional da governação.
Os ANSs têm de ser específicos, mensuráveis, alcançáveis, relevantes e temporizados (SMART) e têm de refletir o nível de serviço e o desempenho que pretende.
- Específico: articula claramente o nível de serviço e o desempenho necessários.
- Mensurável: quantificável e monitorizável.
- Alcançável: atingível dentro dos limites das capacidades e dos recursos da sua organização.
- Relevante: alinhado com os objetivos e as prioridades da empresa.
- Time bound (calendarizado): tem um intervalo de tempo definido para medição e avaliação.
Por exemplo, um SLO para uma aplicação Web pode ser "99,9% de disponibilidade" ou "tempo de resposta médio inferior a 200 ms". Estes SLOs definem claramente o nível de serviço e desempenho necessários para a aplicação Web, e os SLOs podem ser medidos e acompanhados ao longo do tempo.
Os SLAs descrevem os compromissos com os clientes relativamente à disponibilidade do serviço, ao desempenho e ao apoio técnico, incluindo quaisquer penalizações ou soluções para a não conformidade. Os SLAs têm de incluir detalhes específicos sobre os serviços prestados, o nível de serviço que se pode esperar, as responsabilidades do prestador de serviços e do cliente, e quaisquer penalizações ou soluções para a não conformidade. Os ANSs servem como um contrato entre as duas partes, garantindo que ambas têm uma compreensão clara das expetativas e obrigações associadas ao serviço na nuvem.
Google Cloud oferece ferramentas como o Cloud Monitoring e indicadores do nível de serviço (INSs) para ajudar a definir e monitorizar os SLOs. O Cloud Monitoring oferece capacidades de monitorização e observabilidade abrangentes que permitem à sua organização recolher e analisar métricas relacionadas com a disponibilidade, o desempenho e a latência de aplicações e serviços baseados na nuvem. Os SLIs são métricas específicas que pode usar para medir e acompanhar os SLOs ao longo do tempo. Ao usar estas ferramentas, pode monitorizar e gerir eficazmente os serviços na nuvem e garantir que cumprem os SLOs e os SLAs.
Definir e comunicar claramente os SLOs e os SLAs para todos os seus serviços na nuvem críticos ajuda a garantir a fiabilidade e o desempenho das suas aplicações e serviços implementados.
Implemente uma observabilidade abrangente
Para ter visibilidade em tempo real do estado e do desempenho do seu ambiente na nuvem, recomendamos que use uma combinação de ferramentas de observabilidade do Google Cloud e soluções de terceiros. Esta recomendação é relevante para estas áreas de foco da prontidão operacional: processos e ferramentas.
A implementação de uma combinação de soluções de observabilidade oferece-lhe uma estratégia de observabilidade abrangente que abrange vários aspetos da sua infraestrutura e aplicações na nuvem. O Google Cloud Observability é uma plataforma unificada para recolher, analisar e visualizar métricas, registos e rastreios de váriosGoogle Cloud serviços, aplicações e fontes externas. Ao usar o Cloud Monitoring, pode aceder a estatísticas sobre a utilização de recursos, as caraterísticas de desempenho e o estado geral dos seus recursos.
Para garantir uma monitorização abrangente, monitorize métricas importantes que se alinham com os indicadores de estado do sistema, como a utilização da CPU, a utilização da memória, o tráfego de rede, a E/S de disco e os tempos de resposta da aplicação. Também tem de considerar métricas específicas da empresa. Ao acompanhar estas métricas, pode identificar potenciais gargalos, problemas de desempenho e restrições de recursos. Além disso, pode configurar alertas para notificar proativamente as equipas relevantes sobre potenciais problemas ou anomalias.
Para melhorar ainda mais as suas capacidades de monitorização, pode integrar soluções de terceiros com o Google Cloud Observability. Estas soluções podem oferecer funcionalidades adicionais, como estatísticas avançadas, deteção de anomalias com tecnologia de aprendizagem automática e capacidades de gestão de incidentes. Esta combinação de ferramentas de observabilidade do Google Cloud e soluções de terceiros permite-lhe criar um ecossistema de monitorização robusto e personalizável, adaptado às suas necessidades específicas. Ao usar esta abordagem combinada, pode identificar e resolver proativamente problemas, otimizar a utilização de recursos e garantir a fiabilidade e a disponibilidade gerais das suas aplicações e serviços na nuvem.
Implemente testes de desempenho e de carregamento
A realização de testes de desempenho regulares ajuda a garantir que as suas aplicações e infraestrutura baseadas na nuvem conseguem processar picos de carga e manter um desempenho ideal. Os testes de carga simulam padrões de tráfego realistas. Os testes de esforço levam o sistema aos seus limites para identificar potenciais gargalos e limitações de desempenho. Esta recomendação é relevante para estas áreas de foco da prontidão operacional: processos e ferramentas.
As ferramentas como o Cloud Load Balancing e os serviços de testes de carga podem ajudar a simular padrões de tráfego do mundo real e testar a resistência das suas aplicações. Estas ferramentas oferecem estatísticas valiosas sobre o comportamento do seu sistema em várias condições de carga e podem ajudar a identificar áreas que requerem otimização.
Com base nos resultados dos testes de desempenho, pode tomar decisões para otimizar a sua infraestrutura e aplicações na nuvem para um desempenho e uma escalabilidade ideais. Esta otimização pode envolver o ajuste da atribuição de recursos, a otimização das configurações ou a implementação de mecanismos de colocação em cache.
Por exemplo, se verificar que a sua aplicação está a sofrer abrandamentos durante períodos de tráfego elevado, pode ter de aumentar o número de máquinas virtuais ou contentores atribuídos à aplicação. Em alternativa, pode ter de ajustar a configuração do seu servidor Web ou base de dados para melhorar o desempenho.
Ao realizar regularmente testes de desempenho e implementar as otimizações necessárias, pode garantir que as suas aplicações e infraestrutura baseadas na nuvem são sempre executadas com o máximo desempenho e oferecem uma experiência integrada e responsiva aos seus utilizadores. Isto pode ajudar a manter uma vantagem competitiva e a criar confiança junto dos clientes.
Planeie e faça a gestão da capacidade
O planeamento proativo das necessidades de capacidade futuras, orgânicas ou inorgânicas, ajuda a garantir o funcionamento sem problemas e a escalabilidade dos seus sistemas baseados na nuvem. Esta recomendação é relevante para a área de foco da prontidão operacional.
O planeamento da capacidade futura inclui a compreensão e a gestão das quotas para vários recursos, como instâncias de computação, armazenamento e pedidos de API. Ao analisar os padrões de utilização do histórico, as projeções de crescimento e os requisitos empresariais, pode antecipar com precisão os requisitos de capacidade futuros. Pode usar ferramentas como o Cloud Monitoring e o BigQuery para recolher e analisar dados de utilização, identificar tendências e prever a procura futura.
Os padrões de utilização do histórico fornecem estatísticas valiosas sobre a utilização de recursos ao longo do tempo. Ao analisar métricas como a utilização da CPU, a utilização da memória e o tráfego de rede, pode identificar períodos de elevada procura e potenciais gargalos. Além disso, pode ajudar a estimar as necessidades de capacidade futuras fazendo projeções de crescimento com base em fatores como o crescimento da base de utilizadores, novos produtos e funcionalidades, e campanhas de marketing. Quando avaliar as necessidades de capacidade, também deve considerar os requisitos empresariais, como os contratos de nível de serviço e os objetivos de desempenho.
Quando determinar o dimensionamento dos recursos para uma carga de trabalho, considere os fatores que podem afetar a utilização dos recursos. As variações sazonais, como os períodos de compras festivas ou as vendas de final do trimestre, podem originar picos temporários na procura. Os eventos planeados, como lançamentos de produtos ou campanhas de marketing, também podem aumentar significativamente o tráfego. Para garantir que o seu sistema principal e de recuperação de desastres (RD) conseguem processar aumentos inesperados na procura, planeie uma capacidade que possa suportar uma comutação por falha elegante durante interrupções, como desastres naturais e ciberataques.
O dimensionamento automático é uma estratégia importante para ajustar dinamicamente os seus recursos na nuvem com base nas flutuações da carga de trabalho. Ao usar políticas de escalabilidade automática, pode dimensionar automaticamente instâncias de computação, armazenamento e outros recursos em resposta à procura em constante mudança. Isto garante um desempenho ideal durante os períodos de pico, ao mesmo tempo que minimiza os custos quando a utilização de recursos é baixa. Os algoritmos de escala automática usam métricas como a utilização da CPU, a utilização de memória e a profundidade da fila para determinar quando dimensionar os recursos.
Monitorize e otimize continuamente
Para gerir e otimizar cargas de trabalho na nuvem, tem de estabelecer um processo de monitorização e análise contínuas das métricas de desempenho. Esta recomendação é relevante para estas áreas de foco da prontidão operacional: processos e ferramentas.
Para estabelecer um processo de monitorização e análise contínuas, acompanha, recolhe e avalia os dados relacionados com vários aspetos do seu ambiente de nuvem. Ao usar estes dados, pode identificar proativamente áreas de melhoria, otimizar a utilização de recursos e garantir que a sua infraestrutura na nuvem cumpre ou excede consistentemente as suas expetativas de desempenho.
Um aspeto importante da monitorização do desempenho é a revisão regular dos registos e dos rastreios. Os registos fornecem estatísticas valiosas sobre eventos do sistema, erros e avisos. Os rastreios fornecem informações detalhadas sobre o fluxo de pedidos através da sua aplicação. Ao analisar registos e rastreios, pode identificar potenciais problemas, identificar as causas principais dos problemas e compreender melhor o comportamento das suas aplicações em diferentes condições. As métricas, como o tempo de resposta entre serviços, podem ajudar a identificar e compreender os obstáculos que se encontram nas suas cargas de trabalho.
Além disso, pode usar técnicas de otimização do desempenho para melhorar significativamente os tempos de resposta das aplicações e a eficiência geral. Seguem-se exemplos de técnicas que pode usar:
- Colocar em cache: armazene dados acedidos com frequência na memória para reduzir a necessidade de consultas repetidas à base de dados ou chamadas API.
- Otimização da base de dados: use técnicas como a indexação e a otimização de consultas para melhorar o desempenho das operações da base de dados.
- Criação de perfis de código: identifique áreas do seu código que consomem recursos excessivos ou causam problemas de desempenho.
Ao aplicar estas técnicas, pode otimizar as suas aplicações e garantir que são executadas de forma eficiente na nuvem.
Faça a gestão de incidentes e problemas
Este princípio no pilar de excelência operacional do Google Cloud Well-Architected Framework fornece recomendações para ajudar a gerir incidentes e problemas relacionados com as suas cargas de trabalho na nuvem. Envolve a implementação de uma monitorização e uma observabilidade abrangentes, o estabelecimento de procedimentos claros de resposta a incidentes, a realização de uma análise da causa principal detalhada e a implementação de medidas preventivas. Muitos dos tópicos abordados neste princípio são tratados detalhadamente no pilar Fiabilidade.
Vista geral do princípio
A gestão de incidentes e a gestão de problemas são componentes importantes de um ambiente de operações funcional. A forma como responde, categoriza e resolve incidentes de gravidade diferente pode afetar significativamente as suas operações. Também tem de fazer ajustes de forma proativa e contínua para otimizar a fiabilidade e o desempenho. Um processo eficiente de gestão de incidentes e problemas baseia-se nos seguintes elementos fundamentais:
- Monitorização contínua: identifique e resolva problemas rapidamente.
- Automatização: simplifique as tarefas e melhore a eficiência.
- Orquestração: coordene e faça a gestão dos recursos da nuvem de forma eficaz.
- Estatísticas orientadas por dados: otimize as operações na nuvem e tome decisões informadas.
Estes elementos ajudam a criar um ambiente de nuvem resiliente que pode lidar com uma vasta gama de desafios e interrupções. Estes elementos também podem ajudar a reduzir o risco de incidentes e tempo de inatividade dispendiosos, e podem ajudar a alcançar uma maior agilidade e sucesso empresarial. Estes elementos fundamentais estão distribuídos pelas quatro áreas de foco da prontidão operacional: força de trabalho, processos, ferramentas e governação.
Recomendações
Para gerir incidentes e problemas de forma eficaz, considere as recomendações nas secções seguintes. Cada recomendação neste documento é relevante para uma ou mais das áreas de foco da prontidão operacional.
Estabeleça procedimentos de resposta a incidentes claros
As funções e as responsabilidades claras são essenciais para garantir uma resposta eficaz e coordenada a incidentes. Além disso, os protocolos de comunicação claros e os caminhos de encaminhamento ajudam a garantir que as informações são partilhadas de forma rápida e eficaz durante um incidente. Esta recomendação é relevante para estas áreas de foco da prontidão operacional: força de trabalho, processos e ferramentas.
Para estabelecer procedimentos de resposta a incidentes, tem de definir as funções e as expectativas de cada membro da equipa, como comandantes de incidentes, investigadores, comunicadores e especialistas técnicos. O estabelecimento de caminhos de comunicação e encaminhamento inclui a identificação de contactos importantes, a configuração de canais de comunicação e a definição do processo de encaminhamento de incidentes para níveis de gestão superiores quando necessário. A formação e a preparação regulares ajudam a garantir que as equipas têm os conhecimentos e as competências necessários para responder a incidentes de forma eficaz.
Ao documentar os procedimentos de resposta a incidentes num manual de operações ou num plano de ação, pode fornecer um guia de referência padronizado para as equipas seguirem durante um incidente. O manual de procedimentos tem de descrever os passos a seguir em cada fase do processo de resposta a incidentes, incluindo comunicação, triagem, investigação e resolução. Também tem de incluir informações sobre ferramentas e recursos relevantes e informações de contacto de pessoal importante. Tem de rever e atualizar regularmente o manual de procedimentos para garantir que se mantém atual e eficaz.
Centralize a gestão de incidentes
Para um acompanhamento e uma gestão eficazes durante todo o ciclo de vida do incidente, considere usar um sistema de gestão de incidentes centralizado. Esta recomendação é relevante para estas áreas de foco da prontidão operacional: processos e ferramentas.
Um sistema de gestão de incidentes centralizado oferece as seguintes vantagens:
- Visibilidade melhorada: ao consolidar todos os dados relacionados com incidentes num único local, elimina a necessidade de as equipas pesquisarem contexto em vários canais ou sistemas. Esta abordagem poupa tempo e reduz a confusão, além de dar às partes interessadas uma vista abrangente do incidente, incluindo o respetivo estado, impacto e progresso.
- Melhor coordenação e colaboração: um sistema centralizado oferece uma plataforma unificada para a comunicação e a gestão de tarefas. Promove a colaboração integrada entre os diferentes departamentos e funções envolvidos na resposta a incidentes. Esta abordagem garante que todos têm acesso a informações atualizadas e reduz o risco de mal-entendidos e desalinhamento.
- Responsabilidade e propriedade melhoradas: um sistema de gestão de incidentes centralizado permite à sua organização atribuir tarefas a indivíduos ou equipas específicos e garante que as responsabilidades são claramente definidas e monitorizadas. Esta abordagem promove a responsabilização e incentiva a resolução de problemas proativa, uma vez que os membros da equipa podem monitorizar facilmente o seu progresso e contribuições.
Um sistema de gestão de incidentes centralizado tem de oferecer funcionalidades robustas para o acompanhamento de incidentes, a atribuição de tarefas e a gestão de comunicações. Estas funcionalidades permitem-lhe personalizar fluxos de trabalho, definir prioridades e integrar com outros sistemas, como ferramentas de monitorização e sistemas de emissão de pedidos.
Ao implementar um sistema de gestão de incidentes centralizado, pode otimizar os processos de resposta a incidentes da sua organização, melhorar a colaboração e aumentar a visibilidade. Isto leva a tempos de resolução de incidentes mais rápidos, a uma redução do tempo de inatividade e a uma melhoria da satisfação dos clientes. Também ajuda a fomentar uma cultura de melhoria contínua, uma vez que pode aprender com incidentes anteriores e identificar áreas de melhoria.
Realize revisões pós-incidente detalhadas
Após a ocorrência de um incidente, tem de realizar uma revisão detalhada pós-incidente (PIR), também conhecida como postmortem, para identificar a causa principal, os fatores contribuintes e as lições aprendidas. Esta revisão exaustiva ajuda a evitar incidentes semelhantes no futuro. Esta recomendação é relevante para as seguintes áreas de foco da prontidão operacional: processos e governação.
O processo de PIR tem de envolver uma equipa multidisciplinar com experiência em vários aspetos do incidente. A equipa tem de recolher todas as informações relevantes através de entrevistas, revisão de documentação e inspeções no local. Tem de ser criada uma cronologia de eventos para estabelecer a sequência de ações que originaram o incidente.
Depois de a equipa reunir as informações necessárias, tem de realizar uma análise da causa principal para determinar os fatores que originaram o incidente. Esta análise tem de identificar a causa imediata e os problemas sistémicos que contribuíram para o incidente.
Além de identificar a causa principal, a equipa de PIR tem de identificar quaisquer outros fatores que possam ter causado o incidente. Estes fatores podem incluir erro humano, falha de equipamento ou fatores organizacionais, como falhas de comunicação e falta de formação.
O relatório PIR tem de documentar as conclusões da investigação, incluindo a cronologia dos eventos, a análise da causa principal e as ações recomendadas. O relatório é um recurso valioso para implementar ações corretivas e evitar a recorrência. O relatório tem de ser partilhado com todas as partes interessadas relevantes e tem de ser usado para desenvolver procedimentos e formação em segurança.
Para garantir um processo de PIR bem-sucedido, a sua organização tem de promover uma cultura sem culpa que se foque na aprendizagem e na melhoria, em vez de atribuir culpas. Esta cultura incentiva os indivíduos a denunciar incidentes sem receio de retaliação e permite-lhe resolver problemas sistémicos e fazer melhorias significativas.
Ao realizar PIRs exaustivas e implementar medidas corretivas com base nas conclusões, pode reduzir significativamente o risco de ocorrência de incidentes semelhantes no futuro. Esta abordagem proativa à investigação e prevenção de incidentes ajuda a criar um ambiente de trabalho mais seguro e eficiente para todos os envolvidos.
Mantenha uma base de conhecimentos
Uma base de conhecimentos de problemas conhecidos, soluções e guias de resolução de problemas é essencial para a gestão e a resolução de incidentes. Os membros da equipa podem usar a base de conhecimentos para identificar e resolver rapidamente problemas comuns. A implementação de uma base de conhecimentos ajuda a reduzir a necessidade de encaminhamento e melhora a eficiência geral. Esta recomendação é relevante para estas áreas de foco da prontidão operacional: força de trabalho e processos.
Uma das principais vantagens de uma base de conhecimentos é permitir que as equipas aprendam com experiências passadas e evitem repetir erros. Ao captar e partilhar soluções para problemas conhecidos, as equipas podem criar uma compreensão coletiva de como resolver problemas comuns e práticas recomendadas para a gestão de incidentes. A utilização de uma base de conhecimentos poupa tempo e esforço, e ajuda a padronizar os processos e garantir a consistência na resolução de incidentes.
Além de ajudar a melhorar os tempos de resolução de incidentes, uma base de conhecimentos promove a partilha de conhecimentos e a colaboração entre equipas. Com um repositório central de informações, as equipas podem aceder facilmente e contribuir para a base de conhecimentos, o que promove uma cultura de aprendizagem e melhoria contínuas. Esta cultura incentiva as equipas a partilharem os seus conhecimentos e experiências, o que resulta numa base de conhecimentos mais abrangente e valiosa.
Para criar e gerir uma base de conhecimentos de forma eficaz, use ferramentas e tecnologias adequadas. As plataformas de colaboração, como o Google Workspace, são adequadas para este fim, uma vez que lhe permitem criar, editar e partilhar documentos facilmente em colaboração. Estas ferramentas também suportam o controlo de versões e o acompanhamento de alterações, o que garante que a base de conhecimentos permanece atualizada e precisa.
Torne a base de conhecimentos facilmente acessível a todas as equipas relevantes. Pode conseguir isto integrando a base de conhecimentos com os sistemas de gestão de incidentes existentes ou fornecendo um portal dedicado ou um site de intranet. Uma base de conhecimentos facilmente disponível permite que as equipas acedam rapidamente às informações de que precisam para resolver incidentes de forma eficiente. Esta disponibilidade ajuda a reduzir o tempo de inatividade e a minimizar o impacto nas operações empresariais.
Reveja e atualize regularmente a base de conhecimentos para garantir que continua a ser relevante e útil. Monitorizar relatórios de incidentes, identificar problemas e tendências comuns e incorporar novas soluções e guias de resolução de problemas na base de conhecimentos. Uma base de conhecimentos atualizada ajuda as suas equipas a resolver incidentes de forma mais rápida e eficaz.
Automatize a resposta a incidentes
A automatização ajuda a simplificar os processos de resposta a incidentes e correção. Permite-lhe resolver violações de segurança e falhas do sistema de forma rápida e eficiente. Ao usar Google Cloud produtos como funções do Cloud Run ou Cloud Run, pode automatizar várias tarefas que são normalmente manuais e demoradas. Esta recomendação é relevante para estas áreas de foco da prontidão operacional: processos e ferramentas.
A resposta a incidentes automatizada oferece as seguintes vantagens:
- Redução nos tempos de deteção e resolução de incidentes: as ferramentas automatizadas podem monitorizar continuamente os sistemas e as aplicações, detetar atividades suspeitas ou anómalas em tempo real e notificar as partes interessadas ou responder sem intervenção. Esta automatização permite-lhe identificar potenciais ameaças ou problemas antes de se transformarem em incidentes graves. Quando é detetado um incidente, as ferramentas automatizadas podem acionar ações de remediação predefinidas, como isolar os sistemas afetados, colocar em quarentena ficheiros maliciosos ou reverter as alterações para restaurar o sistema para um estado bom conhecido.
- Redução do encargo sobre as equipas de segurança e operações: a resposta a incidentes automatizada permite que as equipas de segurança e operações se concentrem em tarefas mais estratégicas. Ao automatizar tarefas de rotina e repetitivas, como a recolha de informações de diagnóstico ou o acionamento de alertas, a sua organização pode libertar pessoal para lidar com incidentes mais complexos e críticos. Esta automatização pode levar a uma melhoria da eficácia e eficiência gerais da resposta a incidentes.
- Consistência e precisão melhoradas do processo de remediação: as ferramentas automatizadas podem garantir que as ações de remediação são aplicadas uniformemente em todos os sistemas afetados, minimizando o risco de erro humano ou inconsistência. Esta estandardização do processo de correção ajuda a minimizar o impacto dos incidentes nos utilizadores e na empresa.
Faça a gestão e otimize os recursos da nuvem
Este princípio no pilar de excelência operacional da Google Cloud estrutura bem arquitetada fornece recomendações para ajudar a gerir e otimizar os recursos que são usados pelas suas cargas de trabalho na nuvem. Envolve o dimensionamento adequado dos recursos com base na utilização e na procura reais, a utilização do dimensionamento automático para a atribuição dinâmica de recursos, a implementação de estratégias de otimização de custos e a revisão regular da utilização e dos custos dos recursos. Muitos dos tópicos abordados neste princípio são tratados detalhadamente no pilar de otimização de custos.
Vista geral do princípio
A gestão e a otimização de recursos da nuvem desempenham um papel fundamental na otimização dos gastos na nuvem, da utilização de recursos e da eficiência da infraestrutura. Inclui várias estratégias e práticas recomendadas destinadas a maximizar o valor e o retorno do seu gasto na nuvem.
O foco deste pilar na otimização vai além da redução de custos. Enfatiza os seguintes objetivos:
- Eficiência: usar a automatização e a análise de dados para alcançar o máximo desempenho e poupanças de custos.
- Desempenho: Escalar recursos sem esforço para satisfazer as exigências flutuantes e oferecer resultados ideais.
- Escalabilidade: adaptar a infraestrutura e os processos para acomodar um crescimento rápido e cargas de trabalho diversificadas.
Ao focar-se nestes objetivos, alcança um equilíbrio entre o custo e a funcionalidade. Pode tomar decisões informadas relativamente ao aprovisionamento de recursos, à escalabilidade e à migração. Além disso, obtém estatísticas valiosas sobre os padrões de consumo de recursos, o que lhe permite identificar e resolver proativamente potenciais problemas antes que se agravem.
Recomendações
Para gerir e otimizar recursos, considere as recomendações nas secções seguintes. Cada recomendação neste documento é relevante para uma ou mais das áreas de foco da prontidão operacional.
Ajuste os recursos
A monitorização contínua da utilização de recursos e o ajuste da atribuição de recursos para corresponder à procura real são essenciais para uma gestão eficiente dos recursos da nuvem. O aprovisionamento excessivo de recursos pode gerar custos desnecessários e o aprovisionamento insuficiente pode causar gargalos de desempenho que afetam o desempenho da aplicação e a experiência do utilizador. Para alcançar um equilíbrio ideal, tem de adotar uma abordagem proativa para ajustar os recursos da nuvem. Esta recomendação é relevante para a área de foco da prontidão operacional.
O Cloud Monitoring e o Recommender podem ajudar a identificar oportunidades de dimensionamento adequado. O Cloud Monitoring oferece visibilidade em tempo real das métricas de utilização de recursos. Esta visibilidade permite-lhe acompanhar os padrões de utilização de recursos e identificar potenciais ineficiências. O Recommender analisa os dados de utilização de recursos para fazer recomendações inteligentes para otimizar a atribuição de recursos. Ao usar estas ferramentas, pode obter estatísticas sobre a utilização de recursos e tomar decisões informadas sobre o dimensionamento adequado dos recursos.
Além do Cloud Monitoring e do Recommender, considere usar métricas personalizadas para acionar ações de redimensionamento automáticas. As métricas personalizadas permitem-lhe acompanhar métricas de utilização de recursos específicas que são relevantes para as suas aplicações e cargas de trabalho. Também pode configurar alertas para notificar os administradores quando os limites predefinidos forem atingidos. Os administradores podem, em seguida, tomar as medidas necessárias para ajustar a atribuição de recursos. Esta abordagem proativa garante que os recursos são dimensionados atempadamente, o que ajuda a otimizar os custos da nuvem e a evitar problemas de desempenho.
Use a escala automática
O dimensionamento automático da computação e de outros recursos ajuda a garantir o desempenho ideal e a eficiência de custos das suas aplicações baseadas na nuvem. A escala automática permite-lhe ajustar dinamicamente a capacidade dos seus recursos com base nas flutuações da carga de trabalho, para que tenha os recursos de que precisa quando precisa e possa evitar o aprovisionamento excessivo e os custos desnecessários. Esta recomendação é relevante para os processos da área de foco da prontidão operacional.
Para satisfazer as diversas necessidades de diferentes aplicações e cargas de trabalho, o Google CloudGoogle Cloud oferece várias opções de escalabilidade automática, incluindo as seguintes:
- Os grupos de instâncias geridas (GIGs) do Compute Engine são grupos de VMs que são geridos e dimensionados como uma única entidade. Com os MIGs, pode definir políticas de escala automática que especifiquem o número mínimo e máximo de VMs a manter no grupo, bem como as condições que acionam a escala automática. Por exemplo, pode configurar uma política para adicionar VMs num MIG quando a utilização da CPU atinge um determinado limite e para remover VMs quando a utilização desce abaixo de um limite diferente.
A escala automática do Google Kubernetes Engine (GKE) ajusta dinamicamente os recursos do cluster para corresponder às necessidades da sua aplicação. Oferece as seguintes ferramentas:
- O redimensionador automático de cluster adiciona ou remove nós com base nas exigências de recursos dos pods.
- O redimensionador automático horizontal de pods altera o número de réplicas de pods com base na CPU, na memória ou em métricas personalizadas.
- A escala automática vertical de pods otimiza os pedidos e os limites de recursos dos pods com base nos padrões de utilização.
- O aprovisionamento automático de nós cria automaticamente conjuntos de nós otimizados para as suas cargas de trabalho.
Estas ferramentas funcionam em conjunto para otimizar a utilização de recursos, garantir o desempenho das aplicações e simplificar a gestão de clusters.
O Cloud Run é uma plataforma sem servidor que lhe permite executar código sem ter de gerir infraestrutura. O Cloud Run oferece o dimensionamento automático incorporado, que ajusta automaticamente o número de instâncias com base no tráfego recebido. Quando o volume de tráfego aumenta, o Cloud Run aumenta o número de instâncias para processar a carga. Quando o tráfego diminui, o Cloud Run reduz o número de instâncias para diminuir os custos.
Ao usar estas opções de escalabilidade automática, pode garantir que as suas aplicações baseadas na nuvem têm os recursos de que precisam para processar cargas de trabalho variáveis, evitando o aprovisionamento excessivo e os custos desnecessários. A utilização do dimensionamento automático pode resultar num melhor desempenho, poupanças de custos e uma utilização mais eficiente dos recursos na nuvem.
Tire partido das estratégias de otimização de custos
A otimização dos gastos na nuvem ajuda a gerir eficazmente os orçamentos de TI da sua organização. Esta recomendação é relevante para a área de foco da prontidão operacional da governação.
Google Cloud oferece várias ferramentas e técnicas para ajudar a otimizar os custos da nuvem. Ao usar estas ferramentas e técnicas, pode obter o melhor valor dos seus gastos na nuvem. Estas ferramentas e técnicas ajudam a identificar áreas onde os custos podem ser reduzidos, como a identificação de recursos subutilizados ou a recomendação de tipos de instâncias mais rentáveis.As Google Cloud opções para ajudar a otimizar os custos da nuvem incluem o seguinte:
- Os descontos de fidelidade (DFs) são descontos por se comprometer com um determinado nível de utilização durante um período.
- Os descontos por utilização sustentada no Compute Engine oferecem descontos por utilização consistente de um serviço.
- As VMs do Spot dão acesso à capacidade de VM não utilizada a um custo inferior em comparação com as VMs normais.
Os modelos de preços podem mudar ao longo do tempo e podem ser introduzidas novas funcionalidades que ofereçam um melhor desempenho ou um custo mais baixo em comparação com as opções existentes. Por conseguinte, deve rever regularmente os modelos de preços e considerar funcionalidades alternativas. Ao manter-se informado sobre os modelos de preços e as funcionalidades mais recentes, pode tomar decisões informadas sobre a sua arquitetura na nuvem para minimizar os custos.
As ferramentas deGoogle Cloud's gestão de custos, como orçamentos e alertas, oferecem estatísticas valiosas sobre os gastos na nuvem. Os orçamentos e os alertas permitem que os utilizadores definam orçamentos e recebam alertas quando os orçamentos são excedidos. Estas ferramentas ajudam os utilizadores a acompanhar os respetivos gastos na nuvem e a identificar áreas onde os custos podem ser reduzidos.
Monitorize a utilização e os custos dos recursos
Pode usar a etiquetagem para acompanhar a utilização e os custos dos recursos. Ao atribuir etiquetas aos seus recursos na nuvem, como projetos, departamentos ou outras dimensões relevantes, pode categorizar e organizar os recursos. Isto permite-lhe monitorizar e analisar padrões de gastos para recursos específicos e identificar áreas de utilização elevada ou potenciais poupanças de custos. Esta recomendação é relevante para estas áreas de foco da prontidão operacional: governança e ferramentas.
As ferramentas como o Cloud Billing e a gestão de custos ajudam a ter uma compreensão abrangente dos seus padrões de gastos. Estas ferramentas oferecem estatísticas detalhadas sobre a sua utilização da nuvem e permitem-lhe identificar tendências, prever custos e tomar decisões informadas. Ao analisar os dados do histórico e os padrões de gastos atuais, pode identificar as áreas de foco dos seus esforços de otimização de custos.
Os painéis de controlo e os relatórios personalizados ajudam a visualizar os dados de custos e a obter estatísticas mais detalhadas sobre as tendências de gastos. Ao personalizar os painéis de controlo com métricas e dimensões relevantes, pode monitorizar os indicadores essenciais de desempenho (IEDs) e acompanhar o progresso em relação aos seus objetivos de otimização de custos. Os relatórios oferecem análises mais detalhadas dos dados de custos. Os relatórios permitem-lhe filtrar os dados por períodos específicos ou tipos de recursos para compreender os fatores subjacentes que contribuem para os seus gastos na nuvem.
Reveja e atualize regularmente as suas etiquetas, rótulos e ferramentas de análise de custos para garantir que tem as informações mais atualizadas sobre a utilização e os custos da nuvem. Ao manter-se informado e realizar análises detalhadas de custos ou revisões de custos proativas, pode identificar rapidamente aumentos inesperados nos gastos. Desta forma, pode tomar decisões proativas para otimizar os recursos da nuvem e controlar os custos.
Estabeleça a atribuição de custos e o orçamento
A responsabilidade e a transparência na gestão de custos na nuvem são cruciais para otimizar a utilização de recursos e garantir o controlo financeiro. Esta recomendação é relevante para a área de foco da prontidão operacional da governação.
Para garantir a responsabilidade e a transparência, tem de ter mecanismos claros para a atribuição de custos e o estorno. Ao atribuir custos a equipas, projetos ou indivíduos específicos, a sua organização pode garantir que cada uma destas entidades é responsável pela respetiva utilização da nuvem. Esta prática promove um sentimento de responsabilidade e incentiva a gestão responsável dos recursos. Além disso, os mecanismos de reembolso permitem à sua organização recuperar os custos da nuvem de clientes internos, alinhar os incentivos com o desempenho e promover a disciplina fiscal.
Estabelecer orçamentos para diferentes equipas ou projetos é outro aspeto essencial da gestão de custos na nuvem. Os orçamentos permitem à sua organização definir limites de gastos e monitorizar as despesas reais em comparação com esses limites. Esta abordagem permite-lhe tomar decisões proativas para evitar gastos descontrolados. Ao definir orçamentos realistas e alcançáveis, pode garantir que os recursos da nuvem são usados de forma eficiente e alinhados com os objetivos empresariais. A monitorização regular dos gastos reais em comparação com os orçamentos ajuda a identificar variações e a resolver potenciais excessos rapidamente.
Para monitorizar orçamentos, pode usar ferramentas como os orçamentos e alertas do Cloud Billing. Estas ferramentas oferecem estatísticas em tempo real sobre os gastos na nuvem e notificam os intervenientes de potenciais ultrapassagens. Ao usar estas capacidades, pode acompanhar os custos da nuvem e tomar medidas corretivas antes que ocorram desvios significativos. Esta abordagem proativa ajuda a evitar surpresas financeiras e garante que os recursos da nuvem são usados de forma responsável.
Automatize e faça a gestão das alterações
Este princípio no pilar de excelência operacional da Google Cloud estrutura bem arquitetada fornece recomendações para ajudar a automatizar e gerir as alterações para as suas cargas de trabalho na nuvem. Envolve a implementação de infraestrutura como código (IaC), o estabelecimento de procedimentos operacionais padrão, a implementação de um processo de gestão de alterações estruturado e a utilização da automatização e da orquestração.
Vista geral do princípio
A gestão de alterações e a automatização desempenham um papel crucial na garantia de transições suaves e controladas em ambientes de nuvem. Para uma gestão de alterações eficaz, tem de usar estratégias e práticas recomendadas que minimizem as interrupções e garantam que as alterações são integradas de forma integrada com os sistemas existentes.
A gestão e a automatização de alterações eficazes incluem os seguintes elementos fundamentais:
- Alterar governação: estabeleça políticas e procedimentos claros para a gestão de alterações, incluindo processos de aprovação e planos de comunicação.
- Avaliação de risco: identifique potenciais riscos associados a alterações e mitigue-os através de técnicas de gestão de risco.
- Testes e validação: teste exaustivamente as alterações para garantir que cumprem os requisitos funcionais e de desempenho e mitigam potenciais regressões.
- Implementação controlada: implemente alterações de forma controlada, garantindo que os utilizadores fazem a transição de forma simples para o novo ambiente, com mecanismos para reverter de forma simples, se necessário.
Estes elementos fundamentais ajudam a minimizar o impacto das alterações e a garantir que as alterações têm um efeito positivo nas operações da empresa. Estes elementos são representados pelos processos, pelas ferramentas e pela governação, que são as áreas de foco da prontidão operacional.
Recomendações
Para automatizar e gerir as alterações, considere as recomendações nas secções seguintes. Cada recomendação neste documento é relevante para uma ou mais das áreas de foco da prontidão operacional.
Adote a IaC
A infraestrutura como código (IaC) é uma abordagem transformadora para gerir a infraestrutura na nuvem. Pode definir e gerir a infraestrutura na nuvem de forma declarativa através de ferramentas como o Terraform. A IaC ajuda a alcançar consistência, repetibilidade e gestão de alterações simplificada. Também permite implementações mais rápidas e fiáveis. Esta recomendação é relevante para as seguintes áreas de foco da prontidão operacional: processos e ferramentas.
Seguem-se as principais vantagens de adotar a abordagem de IaC para as suas implementações na nuvem:
- Configurações de recursos legíveis: com a abordagem de IaC, pode declarar os recursos da sua infraestrutura na nuvem num formato legível, como JSON ou YAML. Os administradores e os operadores de infraestrutura podem compreender e modificar facilmente a infraestrutura, bem como colaborar com outras pessoas.
- Consistência e repetibilidade: a IaC permite a consistência e a repetibilidade nas implementações da sua infraestrutura. Pode garantir que a sua infraestrutura é aprovisionada e configurada da mesma forma sempre, independentemente de quem está a fazer a implementação. Esta abordagem ajuda a reduzir os erros e garante que a sua infraestrutura está sempre num estado conhecido.
- Responsabilidade e resolução de problemas simplificada: a abordagem de IaC ajuda a melhorar a responsabilidade e facilita a resolução de problemas. Ao armazenar o seu código de IaC num sistema de controlo de versões, pode acompanhar as alterações e identificar quando foram feitas e por quem. Se necessário, pode reverter facilmente para versões anteriores.
Implemente o controlo de versões
Um sistema de controlo de versões como o Git é um componente fundamental do processo de IaC. Oferece capacidades robustas de gestão de alterações e mitigação de riscos, motivo pelo qual é amplamente adotado, quer através do desenvolvimento interno ou de soluções de SaaS. Esta recomendação é relevante para as seguintes áreas de foco da prontidão operacional: governança e ferramentas.
Ao acompanhar as alterações ao código e às configurações da IaC, o controlo de versões oferece visibilidade da evolução do código, o que facilita a compreensão do impacto das alterações e a identificação de potenciais problemas. Esta visibilidade melhorada promove a colaboração entre os membros da equipa que trabalham no mesmo projeto de IaC.
A maioria dos sistemas de controlo de versões permite reverter facilmente as alterações, se necessário. Esta capacidade ajuda a mitigar o risco de consequências ou erros não intencionais. Ao usar ferramentas como o Git no seu fluxo de trabalho de IaC, pode melhorar significativamente os processos de gestão de alterações, fomentar a colaboração e mitigar os riscos, o que leva a uma implementação de IaC mais eficiente e fiável.
Crie pipelines de CI/CD
Os pipelines de integração contínua e entrega contínua (CI/CD) simplificam o processo de desenvolvimento e implementação de aplicações na nuvem. As pipelines de CI/CD automatizam as fases de criação, teste e implementação, o que permite lançamentos mais rápidos e frequentes com um controlo de qualidade melhorado. Esta recomendação é relevante para a área de foco da prontidão operacional das ferramentas.
Os pipelines de CI/CD garantem que as alterações ao código são integradas continuamente num repositório central, normalmente um sistema de controlo de versões como o Git. A integração contínua facilita a deteção e a resolução antecipadas de problemas, e reduz a probabilidade de erros ou problemas de compatibilidade.
Para criar e gerir pipelines de CI/CD para aplicações na nuvem, pode usar ferramentas como o Cloud Build e o Cloud Deploy.
- O Cloud Build é um serviço de compilação totalmente gerido que permite aos programadores definir e executar passos de compilação de forma declarativa. Integra-se perfeitamente com plataformas de gestão de código-fonte populares e pode ser acionado por eventos como envios de código e pedidos de obtenção.
- O Cloud Deploy é um serviço de implementação sem servidor que automatiza o processo de implementação de aplicações em vários ambientes, como testes, preparação e produção. Oferece funcionalidades como implementações azul/verde, divisão do tráfego e capacidades de reversão, o que facilita a gestão e a monitorização das implementações de aplicações.
A integração de pipelines de CI/CD com sistemas de controlo de versões e frameworks de testes ajuda a garantir a qualidade e a fiabilidade das suas aplicações na nuvem. Ao executar testes automatizados como parte do processo de CI/CD, as equipas de desenvolvimento podem identificar e corrigir rapidamente quaisquer problemas antes de o código ser implementado no ambiente de produção. Esta integração ajuda a melhorar a estabilidade e o desempenho gerais das suas aplicações na nuvem.
Use ferramentas de gestão de configuração
As ferramentas como o Puppet, o Chef, o Ansible e o VM Manager ajudam a automatizar a configuração e a gestão de recursos na nuvem. Com estas ferramentas, pode garantir a consistência e a conformidade dos recursos nos seus ambientes de nuvem. Esta recomendação é relevante para a área de foco das ferramentas de preparação operacional.
A automatização da configuração e da gestão de recursos na nuvem oferece as seguintes vantagens:
- Redução significativa do risco de erros manuais: quando estão envolvidos processos manuais, existe uma maior probabilidade de erros devido a erro humano. As ferramentas de gestão de configuração reduzem este risco através da automatização de processos, para que as configurações sejam aplicadas de forma consistente e precisa em todos os recursos da nuvem. Esta automatização pode levar a uma melhor fiabilidade e estabilidade do ambiente na nuvem.
- Melhoria na eficiência operacional: ao automatizar tarefas repetitivas, a sua organização pode libertar o pessoal de TI para se concentrar em iniciativas mais estratégicas. Esta automatização pode levar a um aumento da produtividade e a poupanças de custos, bem como a uma melhor capacidade de resposta às necessidades empresariais em constante mudança.
- Gestão simplificada de infraestrutura na nuvem complexa: à medida que os ambientes na nuvem aumentam em tamanho e complexidade, a gestão dos recursos pode tornar-se cada vez mais difícil. As ferramentas de gestão de configuração oferecem uma plataforma centralizada para gerir recursos na nuvem. As ferramentas facilitam o acompanhamento das configurações, a identificação de problemas e a implementação de alterações. A utilização destas ferramentas pode levar a uma melhor visibilidade, controlo e segurança do seu ambiente na nuvem.
Automatize os testes
A integração de testes automatizados nos seus pipelines de CI/CD ajuda a garantir a qualidade e a fiabilidade das suas aplicações na nuvem. Ao validar as alterações antes da implementação, pode reduzir significativamente o risco de erros e regressões, o que leva a um sistema de software mais estável e robusto. Esta recomendação é relevante para estas áreas de foco da prontidão operacional: processos e ferramentas.
Seguem-se as principais vantagens da incorporação de testes automatizados nos seus pipelines de CI/CD:
- Deteção precoce de erros e defeitos: os testes automatizados ajudam a detetar erros e defeitos numa fase inicial do processo de desenvolvimento, antes que possam causar problemas graves na produção. Esta capacidade poupa tempo e recursos, evitando a necessidade de correções de erros e reformulações dispendiosas em fases posteriores do processo de desenvolvimento.
- Código de alta qualidade e baseado em normas: os testes automatizados podem ajudar a melhorar a qualidade geral do seu código, garantindo que o código cumpre determinadas normas e práticas recomendadas. Esta capacidade resulta em aplicações mais sustentáveis e fiáveis, menos propensas a erros.
Pode usar vários tipos de técnicas de testes em pipelines de CI/CD. Cada tipo de teste tem um objetivo específico.
- Os testes unitários focam-se em testar unidades individuais de código, como funções ou métodos, para garantir que funcionam como esperado.
- Os testes de integração testam as interações entre diferentes componentes ou módulos da sua aplicação para verificar se funcionam corretamente em conjunto.
- Os testes ponto a ponto são frequentemente usados juntamente com os testes de unidades e de integração. Os testes completos simulam cenários reais para testar a aplicação como um todo e ajudam a garantir que a aplicação cumpre os requisitos dos utilizadores finais.
Para integrar eficazmente os testes automáticos nos seus pipelines de CI/CD, tem de escolher ferramentas e frameworks de testes adequados. Existem muitas opções diferentes, cada uma com as suas próprias vantagens e desvantagens. Também tem de estabelecer uma estratégia de testes clara que descreva os tipos de testes a realizar, a frequência dos testes e os critérios para aprovação ou reprovação num teste. Seguindo estas recomendações, pode garantir que o processo de testes automáticos é eficiente e eficaz. Este processo fornece estatísticas valiosas sobre a qualidade e a fiabilidade das suas aplicações na nuvem.
Melhorar e inovar continuamente
Este princípio no pilar de excelência operacional da Google Cloud estrutura bem arquitetada oferece recomendações para ajudar a otimizar continuamente as operações na nuvem e promover a inovação.
Vista geral do princípio
Para melhorar e inovar continuamente na nuvem, tem de se concentrar na aprendizagem, experimentação e adaptação contínuas. Isto ajuda a explorar novas tecnologias e a otimizar os processos existentes, além de promover uma cultura de excelência que permite à sua organização alcançar e manter a liderança do setor.
Através da melhoria contínua e da inovação, pode alcançar os seguintes objetivos:
- Acelere a inovação: explore novas tecnologias e serviços para melhorar as capacidades e impulsionar a diferenciação.
- Reduza os custos: identifique e elimine ineficiências através de iniciativas de melhoria de processos.
- Melhore a agilidade: adapte-se rapidamente às exigências do mercado em constante mudança e às necessidades dos clientes.
- Melhore a tomada de decisões: obtenha estatísticas valiosas a partir de dados e estatísticas para tomar decisões orientadas por dados.
As organizações que adotam o princípio da melhoria contínua e da inovação podem desbloquear todo o potencial do ambiente de nuvem e alcançar um crescimento sustentável. Este princípio está principalmente relacionado com a área de foco da força de trabalho da preparação operacional. Uma cultura de inovação permite que as equipas façam experiências com novas ferramentas e tecnologias para expandir as capacidades e reduzir os custos.
Recomendações
Para melhorar e inovar continuamente as suas cargas de trabalho na nuvem, considere as recomendações nas secções seguintes. Cada recomendação neste documento é relevante para uma ou mais das áreas de foco da prontidão operacional.
Promova uma cultura de aprendizagem
Incentive as equipas a experimentar, partilhar conhecimentos e aprender continuamente. Adote uma cultura sem culpa, em que as falhas são vistas como oportunidades de crescimento e melhoria. Esta recomendação é relevante para a área de foco da prontidão operacional da força de trabalho.
Quando promove uma cultura de aprendizagem, as equipas podem aprender com os erros e iterar rapidamente. Esta abordagem incentiva os membros da equipa a correr riscos, experimentar novas ideias e expandir os limites do seu trabalho. Também cria um ambiente psicologicamente seguro onde os indivíduos se sentem confortáveis em partilhar falhas e aprender com elas. A partilha desta forma cria um ambiente mais aberto e colaborativo.
Para facilitar a partilha de conhecimentos e a aprendizagem contínua, crie oportunidades para as equipas partilharem conhecimentos e aprenderem umas com as outras. Pode fazê-lo através de sessões de aprendizagem informais e formais, bem como conferências.
Ao promover uma cultura de experiências, partilha de conhecimentos e aprendizagem contínua, pode criar um ambiente onde as equipas são incentivadas a correr riscos, inovar e crescer. Este ambiente pode levar a um aumento da produtividade, a uma melhor resolução de problemas e a uma força de trabalho mais empenhada e motivada. Além disso, ao promover uma cultura sem culpa, pode criar um espaço seguro para os funcionários aprenderem com os erros e contribuírem para o conhecimento coletivo da equipa. Esta cultura leva, em última análise, a uma força de trabalho mais resiliente e adaptável, mais bem equipada para lidar com desafios e gerar sucesso a longo prazo.
Realize retrospetivas regulares
As retrospetivas dão às equipas a oportunidade de refletir sobre as suas experiências, identificar o que correu bem e identificar o que pode ser melhorado. Ao realizar retrospetivas após projetos ou incidentes graves, as equipas podem aprender com os sucessos e os fracassos, e melhorar continuamente os seus processos e práticas. Esta recomendação é relevante para as seguintes áreas de foco da prontidão operacional: processos e governação.
Uma forma eficaz de estruturar uma retrospetiva é usar o modelo Iniciar-Parar-Continuar:
- Início: na fase de Início da retrospetiva, os membros da equipa identificam novas práticas, processos e comportamentos que acreditam poder melhorar o seu trabalho. Debatem o motivo pelo qual as alterações são necessárias e como podem ser implementadas.
- Parar: na fase de parar, os membros da equipa identificam e eliminam práticas, processos e comportamentos que já não são eficazes ou que dificultam o progresso. Debatem o motivo pelo qual estas alterações são necessárias e como podem ser implementadas.
- Continuar: na fase Continuar, os membros da equipa identificam práticas, processos e comportamentos que funcionam bem e que devem ser continuados. Debatem por que motivo estes elementos são importantes e como podem ser reforçados.
Ao usar um formato estruturado, como o modelo Iniciar-Parar-Continuar, as equipas podem garantir que as retrospetivas são produtivas e focadas. Este modelo ajuda a facilitar a discussão, identificar as principais conclusões e identificar passos acionáveis para melhorias futuras.
Mantenha-se a par das tecnologias de nuvem
Para maximizar o potencial dos serviços Google Cloud , tem de se manter a par dos mais recentes avanços, funcionalidades e práticas recomendadas. Esta recomendação é relevante para a área de foco de prontidão operacional.
A participação em conferências, webinars e sessões de formação relevantes é uma forma valiosa de expandir os seus conhecimentos. Estes eventos oferecem oportunidades para aprender com Google Cloud especialistas, compreender novas capacidades e interagir com colegas do setor que podem enfrentar desafios semelhantes. Ao participar nestas sessões, pode obter estatísticas sobre como usar as novas funcionalidades de forma eficaz, otimizar as suas operações na nuvem e impulsionar a inovação na sua organização.
Para garantir que os membros da sua equipa se mantêm a par das tecnologias de nuvem, incentive-os a obter certificações e a frequentar cursos de formação. Google Cloud oferece uma vasta gama de certificações que validam competências e conhecimentos em domínios de nuvem específicos. A obtenção destas certificações demonstra o compromisso com a excelência e fornece provas tangíveis de proficiência em tecnologias de nuvem. Os cursos de formação oferecidos pela Skillshop e pelos nossos parceiros abordam tópicos específicos de forma mais detalhada. Google Cloud Oferecem experiência direta e competências práticas que podem ser aplicadas imediatamente a projetos do mundo real. Ao investir no desenvolvimento profissional da sua equipa, pode fomentar uma cultura de aprendizagem contínua e garantir que todos têm as competências necessárias para ter sucesso na nuvem.
Procure e incorpore ativamente feedback
Recolha feedback de utilizadores, partes interessadas e membros da equipa. Use o feedback para identificar oportunidades de melhorar as suas soluções na nuvem. Esta recomendação é relevante para a força de trabalho na área de foco da prontidão operacional.
O feedback que recolhe pode ajudar a compreender as necessidades, os problemas e as expetativas em evolução dos utilizadores das suas soluções. Este feedback serve como uma entrada valiosa para impulsionar melhorias e dar prioridade a melhoramentos futuros. Pode usar vários mecanismos para recolher feedback:
- Os inquéritos são uma forma eficaz de recolher dados quantitativos de um grande número de utilizadores e partes interessadas.
- As entrevistas com utilizadores oferecem uma oportunidade para a recolha de dados qualitativos detalhados. As entrevistas permitem-lhe compreender os desafios e as experiências específicos de utilizadores individuais.
- Os formulários de feedback colocados nas soluções na nuvem oferecem uma forma conveniente para os utilizadores darem feedback imediato sobre a respetiva experiência.
- As reuniões regulares com os membros da equipa podem facilitar a recolha de feedback sobre aspetos técnicos e desafios de implementação.
O feedback que recolhe através destes mecanismos tem de ser analisado e sintetizado para identificar temas e padrões comuns. Esta análise pode ajudar a dar prioridade a melhorias futuras com base no impacto e na viabilidade das melhorias sugeridas. Ao abordar as necessidades e os problemas identificados através do feedback, pode garantir que as suas soluções na nuvem continuam a cumprir os requisitos em evolução dos seus utilizadores e partes interessadas.
Meça e acompanhe o progresso
Os indicadores essenciais de desempenho (IEDs) e as métricas são fundamentais para acompanhar o progresso e medir a eficácia das suas operações na nuvem. Os IEDs são medidas quantificáveis que refletem o desempenho geral. As métricas são pontos de dados específicos que contribuem para o cálculo dos IEDs. Reveja as métricas regularmente e use-as para identificar oportunidades de melhoria e medir o progresso. Isto ajuda a melhorar e otimizar continuamente o seu ambiente na nuvem. Esta recomendação é relevante para estas áreas de foco da prontidão operacional: governança e processos.
Uma das principais vantagens da utilização de KPIs e métricas é que permitem à sua organização adotar uma abordagem baseada em dados para as operações na nuvem. Ao monitorizar e analisar os dados operacionais, pode tomar decisões informadas sobre como melhorar o ambiente de nuvem. Esta abordagem baseada em dados ajuda a identificar tendências, padrões e anomalias que podem não ser visíveis sem a utilização de métricas sistemáticas.
Para recolher e analisar dados operacionais, pode usar ferramentas como o Cloud Monitoring e o BigQuery. O Cloud Monitoring permite a monitorização em tempo real dos recursos e serviços na nuvem. O BigQuery permite-lhe armazenar e analisar os dados que recolhe através da monitorização. Ao usar estas ferramentas em conjunto, pode criar painéis de controlo personalizados para visualizar métricas e tendências importantes.
Os painéis de controlo operacionais podem oferecer uma vista centralizada das métricas mais importantes, o que lhe permite identificar rapidamente as áreas que requerem atenção. Por exemplo, um painel de controlo pode incluir métricas como a utilização da CPU, a utilização da memória, o tráfego de rede e a latência para uma determinada aplicação ou serviço. Ao monitorizar estas métricas, pode identificar rapidamente potenciais problemas e tomar medidas para os resolver.