Faça a gestão de incidentes e problemas

Last reviewed 2024-10-31 UTC

Este princípio no pilar de excelência operacional do Google Cloud Well-Architected Framework fornece recomendações para ajudar a gerir incidentes e problemas relacionados com as suas cargas de trabalho na nuvem. Envolve a implementação de uma monitorização e uma observabilidade abrangentes, o estabelecimento de procedimentos claros de resposta a incidentes, a realização de uma análise da causa principal detalhada e a implementação de medidas preventivas. Muitos dos tópicos abordados neste princípio são tratados detalhadamente no pilar Fiabilidade.

Vista geral do princípio

A gestão de incidentes e a gestão de problemas são componentes importantes de um ambiente de operações funcional. A forma como responde, categoriza e resolve incidentes de gravidade diferente pode afetar significativamente as suas operações. Também tem de fazer ajustes de forma proativa e contínua para otimizar a fiabilidade e o desempenho. Um processo eficiente de gestão de incidentes e problemas baseia-se nos seguintes elementos fundamentais:

  • Monitorização contínua: identifique e resolva problemas rapidamente.
  • Automatização: simplifique as tarefas e melhore a eficiência.
  • Orquestração: coordene e faça a gestão dos recursos da nuvem de forma eficaz.
  • Estatísticas orientadas por dados: otimize as operações na nuvem e tome decisões informadas.

Estes elementos ajudam a criar um ambiente de nuvem resiliente que pode lidar com uma vasta gama de desafios e interrupções. Estes elementos também podem ajudar a reduzir o risco de incidentes e tempo de inatividade dispendiosos, e podem ajudar a alcançar uma maior agilidade e sucesso empresarial. Estes elementos fundamentais estão distribuídos pelas quatro áreas de foco da prontidão operacional: força de trabalho, processos, ferramentas e governação.

Recomendações

Para gerir incidentes e problemas de forma eficaz, considere as recomendações nas secções seguintes. Cada recomendação neste documento é relevante para uma ou mais das áreas de foco da prontidão operacional.

Estabeleça procedimentos de resposta a incidentes claros

As funções e as responsabilidades claras são essenciais para garantir uma resposta eficaz e coordenada a incidentes. Além disso, os protocolos de comunicação claros e os caminhos de encaminhamento ajudam a garantir que as informações são partilhadas de forma rápida e eficaz durante um incidente. Esta recomendação é relevante para estas áreas de foco da prontidão operacional: força de trabalho, processos e ferramentas.

Para estabelecer procedimentos de resposta a incidentes, tem de definir as funções e as expectativas de cada membro da equipa, como comandantes de incidentes, investigadores, comunicadores e especialistas técnicos. O estabelecimento de caminhos de comunicação e encaminhamento inclui a identificação de contactos importantes, a configuração de canais de comunicação e a definição do processo de encaminhamento de incidentes para níveis de gestão superiores quando necessário. A formação e a preparação regulares ajudam a garantir que as equipas têm os conhecimentos e as competências necessários para responder a incidentes de forma eficaz.

Ao documentar os procedimentos de resposta a incidentes num manual de operações ou num plano de ação, pode fornecer um guia de referência padronizado para as equipas seguirem durante um incidente. O manual de procedimentos tem de descrever os passos a seguir em cada fase do processo de resposta a incidentes, incluindo comunicação, triagem, investigação e resolução. Também tem de incluir informações sobre ferramentas e recursos relevantes e informações de contacto de pessoal importante. Tem de rever e atualizar regularmente o manual de procedimentos para garantir que se mantém atual e eficaz.

Centralize a gestão de incidentes

Para um acompanhamento e uma gestão eficazes durante todo o ciclo de vida do incidente, considere usar um sistema de gestão de incidentes centralizado. Esta recomendação é relevante para estas áreas de foco da prontidão operacional: processos e ferramentas.

Um sistema de gestão de incidentes centralizado oferece as seguintes vantagens:

  • Visibilidade melhorada: ao consolidar todos os dados relacionados com incidentes num único local, elimina a necessidade de as equipas pesquisarem contexto em vários canais ou sistemas. Esta abordagem poupa tempo e reduz a confusão, além de dar às partes interessadas uma vista abrangente do incidente, incluindo o respetivo estado, impacto e progresso.
  • Melhor coordenação e colaboração: um sistema centralizado oferece uma plataforma unificada para a comunicação e a gestão de tarefas. Promove a colaboração integrada entre os diferentes departamentos e funções envolvidos na resposta a incidentes. Esta abordagem garante que todos têm acesso a informações atualizadas e reduz o risco de mal-entendidos e desalinhamento.
  • Responsabilidade e propriedade melhoradas: um sistema de gestão de incidentes centralizado permite à sua organização atribuir tarefas a indivíduos ou equipas específicos e garante que as responsabilidades são claramente definidas e monitorizadas. Esta abordagem promove a responsabilização e incentiva a resolução de problemas proativa, uma vez que os membros da equipa podem monitorizar facilmente o seu progresso e contribuições.

Um sistema de gestão de incidentes centralizado tem de oferecer funcionalidades robustas para o acompanhamento de incidentes, a atribuição de tarefas e a gestão de comunicações. Estas funcionalidades permitem-lhe personalizar fluxos de trabalho, definir prioridades e integrar com outros sistemas, como ferramentas de monitorização e sistemas de emissão de pedidos.

Ao implementar um sistema de gestão de incidentes centralizado, pode otimizar os processos de resposta a incidentes da sua organização, melhorar a colaboração e aumentar a visibilidade. Isto leva a tempos de resolução de incidentes mais rápidos, a uma redução do tempo de inatividade e a uma melhoria da satisfação dos clientes. Também ajuda a fomentar uma cultura de melhoria contínua, uma vez que pode aprender com incidentes anteriores e identificar áreas de melhoria.

Realize revisões pós-incidente detalhadas

Após a ocorrência de um incidente, tem de realizar uma revisão detalhada pós-incidente (PIR), também conhecida como postmortem, para identificar a causa principal, os fatores contribuintes e as lições aprendidas. Esta revisão exaustiva ajuda a evitar incidentes semelhantes no futuro. Esta recomendação é relevante para as seguintes áreas de foco da prontidão operacional: processos e governação.

O processo de PIR tem de envolver uma equipa multidisciplinar com experiência em vários aspetos do incidente. A equipa tem de recolher todas as informações relevantes através de entrevistas, revisão de documentação e inspeções no local. Tem de ser criada uma cronologia de eventos para estabelecer a sequência de ações que originaram o incidente.

Depois de a equipa reunir as informações necessárias, tem de realizar uma análise da causa principal para determinar os fatores que originaram o incidente. Esta análise tem de identificar a causa imediata e os problemas sistémicos que contribuíram para o incidente.

Além de identificar a causa principal, a equipa de PIR tem de identificar quaisquer outros fatores que possam ter causado o incidente. Estes fatores podem incluir erro humano, falha de equipamento ou fatores organizacionais, como falhas de comunicação e falta de formação.

O relatório PIR tem de documentar as conclusões da investigação, incluindo a cronologia dos eventos, a análise da causa principal e as ações recomendadas. O relatório é um recurso valioso para implementar ações corretivas e evitar a recorrência. O relatório tem de ser partilhado com todas as partes interessadas relevantes e tem de ser usado para desenvolver procedimentos e formação em segurança.

Para garantir um processo de PIR bem-sucedido, a sua organização tem de promover uma cultura sem culpa que se foque na aprendizagem e na melhoria, em vez de atribuir culpas. Esta cultura incentiva os indivíduos a denunciar incidentes sem receio de retaliação e permite-lhe resolver problemas sistémicos e fazer melhorias significativas.

Ao realizar PIRs exaustivas e implementar medidas corretivas com base nas conclusões, pode reduzir significativamente o risco de ocorrência de incidentes semelhantes no futuro. Esta abordagem proativa à investigação e prevenção de incidentes ajuda a criar um ambiente de trabalho mais seguro e eficiente para todos os envolvidos.

Mantenha uma base de conhecimentos

Uma base de conhecimentos de problemas conhecidos, soluções e guias de resolução de problemas é essencial para a gestão e a resolução de incidentes. Os membros da equipa podem usar a base de conhecimentos para identificar e resolver rapidamente problemas comuns. A implementação de uma base de conhecimentos ajuda a reduzir a necessidade de encaminhamento e melhora a eficiência geral. Esta recomendação é relevante para estas áreas de foco da prontidão operacional: força de trabalho e processos.

Uma das principais vantagens de uma base de conhecimentos é permitir que as equipas aprendam com experiências passadas e evitem repetir erros. Ao captar e partilhar soluções para problemas conhecidos, as equipas podem criar uma compreensão coletiva de como resolver problemas comuns e práticas recomendadas para a gestão de incidentes. A utilização de uma base de conhecimentos poupa tempo e esforço, e ajuda a padronizar os processos e garantir a consistência na resolução de incidentes.

Além de ajudar a melhorar os tempos de resolução de incidentes, uma base de conhecimentos promove a partilha de conhecimentos e a colaboração entre equipas. Com um repositório central de informações, as equipas podem aceder facilmente e contribuir para a base de conhecimentos, o que promove uma cultura de aprendizagem e melhoria contínuas. Esta cultura incentiva as equipas a partilharem os seus conhecimentos e experiências, o que resulta numa base de conhecimentos mais abrangente e valiosa.

Para criar e gerir uma base de conhecimentos de forma eficaz, use ferramentas e tecnologias adequadas. As plataformas de colaboração, como o Google Workspace, são adequadas para este fim, uma vez que lhe permitem criar, editar e partilhar documentos facilmente em colaboração. Estas ferramentas também suportam o controlo de versões e o acompanhamento de alterações, o que garante que a base de conhecimentos permanece atualizada e precisa.

Torne a base de conhecimentos facilmente acessível a todas as equipas relevantes. Pode conseguir isto integrando a base de conhecimentos com os sistemas de gestão de incidentes existentes ou fornecendo um portal dedicado ou um site de intranet. Uma base de conhecimentos facilmente disponível permite que as equipas acedam rapidamente às informações de que precisam para resolver incidentes de forma eficiente. Esta disponibilidade ajuda a reduzir o tempo de inatividade e a minimizar o impacto nas operações empresariais.

Reveja e atualize regularmente a base de conhecimentos para garantir que continua a ser relevante e útil. Monitorizar relatórios de incidentes, identificar problemas e tendências comuns e incorporar novas soluções e guias de resolução de problemas na base de conhecimentos. Uma base de conhecimentos atualizada ajuda as suas equipas a resolver incidentes de forma mais rápida e eficaz.

Automatize a resposta a incidentes

A automatização ajuda a simplificar os processos de resposta a incidentes e correção. Permite-lhe resolver violações de segurança e falhas do sistema de forma rápida e eficiente. Ao usar Google Cloud produtos como funções do Cloud Run ou Cloud Run, pode automatizar várias tarefas que são normalmente manuais e demoradas. Esta recomendação é relevante para estas áreas de foco da prontidão operacional: processos e ferramentas.

A resposta a incidentes automatizada oferece as seguintes vantagens:

  • Redução nos tempos de deteção e resolução de incidentes: as ferramentas automatizadas podem monitorizar continuamente os sistemas e as aplicações, detetar atividades suspeitas ou anómalas em tempo real e notificar as partes interessadas ou responder sem intervenção. Esta automatização permite-lhe identificar potenciais ameaças ou problemas antes de se transformarem em incidentes graves. Quando é detetado um incidente, as ferramentas automatizadas podem acionar ações de remediação predefinidas, como isolar os sistemas afetados, colocar em quarentena ficheiros maliciosos ou reverter as alterações para restaurar o sistema para um estado bom conhecido.
  • Redução do encargo sobre as equipas de segurança e operações: a resposta a incidentes automatizada permite que as equipas de segurança e operações se concentrem em tarefas mais estratégicas. Ao automatizar tarefas de rotina e repetitivas, como a recolha de informações de diagnóstico ou o acionamento de alertas, a sua organização pode libertar pessoal para lidar com incidentes mais complexos e críticos. Esta automatização pode levar a uma melhoria da eficácia e eficiência gerais da resposta a incidentes.
  • Consistência e precisão melhoradas do processo de remediação: as ferramentas automatizadas podem garantir que as ações de remediação são aplicadas uniformemente em todos os sistemas afetados, minimizando o risco de erro humano ou inconsistência. Esta estandardização do processo de correção ajuda a minimizar o impacto dos incidentes nos utilizadores e na empresa.