Perspetiva das IFs: excelência operacional

Last reviewed 2025-07-28 UTC

Este documento no Google Cloud Framework bem arquitetado: perspetiva da FSI oferece uma vista geral dos princípios e das recomendações para criar, implementar e operar cargas de trabalho robustas da indústria de serviços financeiros (FSI) no Google Cloud. Estas recomendações ajudam a configurar elementos de base, como observabilidade, automatização e escalabilidade. As recomendações neste documento estão alinhadas com o pilar de excelência operacional da Well-Architected Framework.

A excelência operacional é fundamental para as cargas de trabalho de FSI no Google Cloud devido à natureza altamente regulamentada e sensível dessas cargas de trabalho. A excelência operacional garante que as soluções na nuvem se podem adaptar às necessidades em evolução e satisfazer os seus requisitos de valor, desempenho, segurança e fiabilidade. As falhas nestas áreas podem resultar em perdas financeiras significativas, penalizações regulamentares e danos reputacionais.

A excelência operacional oferece as seguintes vantagens para as cargas de trabalho de FSI:

  • Mantenha a confiança e a reputação: as instituições financeiras dependem muito da confiança dos seus clientes. As interrupções operacionais ou as violações de segurança podem afetar gravemente esta confiança e causar a perda de clientes. A excelência operacional ajuda a minimizar estes riscos.
  • Cumprir requisitos de conformidade regulamentar rigorosos: o FSI está sujeito a regulamentos numerosos e complexos, como os seguintes:

    Os processos operacionais robustos, a monitorização e a gestão de incidentes são essenciais para demonstrar a conformidade com os regulamentos e evitar penalizações.

  • Garantir a continuidade e a resiliência do negócio: os mercados e os serviços financeiros funcionam frequentemente de forma contínua. Por conseguinte, a alta disponibilidade e a recuperação de desastres eficaz são fundamentais. Os princípios da excelência operacional orientam a conceção e a implementação de sistemas resilientes. O pilar da fiabilidade oferece mais orientações nesta área.

  • Proteja os dados confidenciais: as instituições financeiras processam grandes quantidades de dados financeiros e de clientes altamente confidenciais. Os controlos operacionais fortes, a monitorização da segurança e a resposta rápida a incidentes são cruciais para evitar violações de dados e manter a privacidade. O pilar de segurança oferece mais orientações nesta área.

  • Otimize o desempenho para aplicações críticas: muitas aplicações financeiras, como plataformas de negociação e estatísticas em tempo real, exigem um elevado desempenho e uma baixa latência. Para cumprir estes requisitos de desempenho, precisa de um design de computação, rede e armazenamento altamente otimizado. O pilar de otimização do desempenho oferece mais orientações nesta área.

  • Gerir os custos de forma eficaz: além da segurança e fiabilidade, as instituições financeiras também se preocupam com a eficiência dos custos. A excelência operacional inclui práticas para otimizar a utilização de recursos e gerir os gastos na nuvem. O pilar de otimização de custos oferece mais orientações nesta área.

As recomendações de excelência operacional neste documento estão mapeadas para os seguintes princípios essenciais:

Defina SLAs e os SLOs e INSs correspondentes

Em muitas organizações de ISF, a disponibilidade de aplicações é normalmente classificada com base nas métricas de objetivo de tempo de recuperação (RTO) e objetivo de ponto de recuperação (RPO). Para aplicações essenciais para a empresa que servem clientes externos, também pode ser definido um contrato de nível de serviço (SLA).

Os SLAs precisam de uma estrutura de métricas que represente o comportamento do sistema na perspetiva da satisfação do utilizador. As práticas de engenharia de fiabilidade de sites (EFS) oferecem uma forma de alcançar o nível de fiabilidade do sistema que quer. A criação de uma estrutura de métricas envolve a definição e a monitorização de indicadores numéricos importantes para compreender o estado do sistema na perspetiva do utilizador. Por exemplo, as métricas como a latência e as taxas de erro quantificam o desempenho de um serviço. Estas métricas são denominadas indicadores do nível de serviço (INSs). O desenvolvimento de SLIs eficazes é crucial, uma vez que fornecem os dados não processados necessários para avaliar objetivamente a fiabilidade.

Para definir SLAs, SLIs e SLOs significativos, considere as seguintes recomendações:

  • Desenvolver e definir SLIs para cada serviço crítico. Defina valores de destino que definam os níveis de desempenho aceitáveis.
  • Desenvolver e definir os objetivos ao nível do serviço (SLO) que correspondem aos INSs. Por exemplo, um SLO pode indicar que 99,9% dos pedidos têm de ter uma latência inferior a 200 milissegundos.
  • Identifique as ações corretivas internas que têm de ser tomadas se um serviço não cumprir os SLOs. Por exemplo, para melhorar a resiliência da plataforma, pode ter de focar os recursos de desenvolvimento na correção de problemas.
  • Validar o requisito do SLA para cada serviço e reconhecer o SLA como o contrato formal com os utilizadores do serviço.

Exemplos de níveis de serviço

A tabela seguinte apresenta exemplos de INSs, SLOs e SLAs para uma plataforma de pagamentos:

Métrica empresarial SLI SLO SLA
Transação de pagamento bem-sucedida

Uma medida quantitativa da percentagem de todas as transações de pagamento iniciadas que são processadas e confirmadas com êxito.

Exemplo: (número de transações bem-sucedidas ÷ número total de transações válidas) × 100, medido num período contínuo de 5 minutos.

Um objetivo interno para manter uma percentagem elevada de transações de pagamento bem-sucedidas durante um período específico.

Exemplo: manter uma taxa de êxito de transações de pagamento de 99,98% durante um período de 30 dias consecutivos, excluindo pedidos inválidos e manutenção planeada.

Uma garantia contratual para a taxa de sucesso e a velocidade do processamento de transações de pagamento.

Exemplo: o fornecedor de serviços garante que 99,0% das transações de pagamento iniciadas pelo cliente vão ser processadas e confirmadas com êxito no prazo de um segundo.

Latência de processamento de pagamentos

O tempo médio necessário para processar uma transação de pagamento desde o início pelo cliente até à confirmação final.

Exemplo: tempo médio de resposta em milissegundos para a confirmação de transações, medido num período contínuo de 5 minutos.

Um objetivo interno para a velocidade a que as transações de pagamento são processadas.

Exemplo: certifique-se de que 99,5% das transações de pagamento são processadas no prazo de 400 milissegundos durante um período contínuo de 30 dias.

Um compromisso contratual para resolver problemas críticos de processamento de pagamentos num prazo especificado.

Exemplo: para problemas críticos de processamento de pagamentos (definidos como uma indisponibilidade que afeta mais de 1% das transações), o fornecedor de serviços compromete-se a um tempo de resolução de duas horas a partir do momento em que o problema é comunicado ou detetado.

Disponibilidade da plataforma

A percentagem de tempo em que a API de processamento de pagamentos principal e a interface do utilizador estão operacionais e acessíveis aos clientes.

Exemplo: (tempo operacional total − tempo de inatividade) ÷ tempo operacional total × 100, medido por minuto.

Um objetivo interno para o tempo de atividade da plataforma de pagamentos principal.

Exemplo: alcançar uma disponibilidade da plataforma de 99,995% por mês civil, excluindo as janelas de manutenção agendadas.

Um compromisso formal e legalmente vinculativo com os clientes relativamente ao tempo de atividade mínimo da plataforma de pagamentos, incluindo as consequências em caso de não cumprimento.

Exemplo: a plataforma vai manter uma disponibilidade mínima de 99,9% por mês civil, excluindo as janelas de manutenção agendadas. Se a disponibilidade for inferior ao nível mínimo, o cliente recebe um crédito de serviço de 5% da taxa de serviço mensal por cada descida de 0,1%.

Use dados de SLI para monitorizar se os sistemas estão dentro dos SLOs definidos e para garantir que os SLAs são cumpridos. Ao usar um conjunto de SLIs bem definidos, os engenheiros e os programadores podem monitorizar as aplicações de FSI nos seguintes níveis:

  • Diretamente no serviço no qual as aplicações estão implementadas, como o GKE ou o Cloud Run.
  • Através da utilização de registos fornecidos por componentes de infraestrutura, como o balanceador de carga.

O OpenTelemetry oferece uma norma de código aberto e um conjunto de tecnologias para captar todos os tipos de telemetria, incluindo métricas, rastreios e registos. O Google Cloud Managed Service for Prometheus oferece um back-end totalmente gerido e altamente escalável para métricas e funcionamento do Prometheus em grande escala.

Para mais informações sobre INSs, SLOs e margens de erro, consulte o manual de SRE.

Para desenvolver mecanismos e painéis de controlo de alertas e monitorização eficazes, use as ferramentas de observabilidade do Google Cloud juntamente com o Google Cloud Monitoring. Para informações sobre as capacidades de deteção e monitorização específicas de segurança, consulte o pilar de segurança.

Defina e teste processos de gestão de incidentes

Os processos de gestão de incidentes bem definidos e testados regularmente contribuem diretamente para o valor, o desempenho, a segurança e a fiabilidade das cargas de trabalho da FSI no Google Cloud. Estes processos ajudam as instituições financeiras a cumprir os seus rigorosos requisitos regulamentares, proteger dados confidenciais, manter a continuidade da empresa e defender a confiança dos clientes.

Os testes regulares dos processos de gestão de incidentes oferecem as seguintes vantagens:

  • Manter o desempenho sob cargas máximas: os testes regulares de desempenho e carga ajudam as instituições financeiras a garantir que as respetivas aplicações e infraestrutura baseadas na nuvem conseguem processar volumes máximos de transações, volatilidade do mercado e outros cenários de elevada procura sem degradação do desempenho. Esta capacidade é crucial para manter uma experiência do utilizador sem falhas e satisfazer as exigências dos mercados financeiros.
  • Identificar potenciais gargalos e limitações: os testes de esforço levam os sistemas aos seus limites e permitem que as instituições financeiras identifiquem potenciais gargalos e limitações de desempenho antes de afetarem as operações críticas. Esta abordagem proativa permite que as instituições financeiras ajustem a respetiva infraestrutura e aplicações para um desempenho e uma escalabilidade ideais.
  • Validar a fiabilidade e a resiliência: os testes regulares, incluindo a engenharia do caos ou as falhas simuladas, ajudam a validar a fiabilidade e a resiliência dos sistemas financeiros. Estes testes garantem que os sistemas podem recuperar facilmente de falhas e manter uma elevada disponibilidade, o que é essencial para a continuidade da empresa.
  • Faça um planeamento de capacidade eficaz: os testes de desempenho fornecem dados valiosos sobre a utilização de recursos em diferentes condições de carga, o que é fundamental para um planeamento de capacidade preciso. As instituições financeiras podem usar estes dados para antecipar proativamente as necessidades de capacidade futuras e evitar problemas de desempenho devido a restrições de recursos.
  • Implementar novas funcionalidades e alterações de código com êxito: a integração de testes automatizados em pipelines de CI/CD ajuda a garantir que as alterações e as novas implementações são totalmente validadas antes de serem lançadas em ambientes de produção. Esta abordagem reduz significativamente o risco de erros e regressões que podem levar a interrupções operacionais.
  • Cumprir os requisitos regulamentares para a estabilidade do sistema: os regulamentos financeiros exigem frequentemente que as instituições tenham práticas de testes robustas para garantir a estabilidade e a fiabilidade dos respetivos sistemas críticos. Os testes regulares ajudam a demonstrar a conformidade com estes requisitos.

Para definir e testar os seus processos de gestão de incidentes, considere as seguintes recomendações.

Estabeleça procedimentos de resposta a incidentes claros

Um conjunto bem estabelecido de procedimentos de resposta a incidentes envolve os seguintes elementos:

  • Funções e responsabilidades definidas para comandantes de incidentes, investigadores, comunicadores e especialistas técnicos para garantir uma resposta eficaz e coordenada.
  • Protocolos de comunicação e caminhos de encaminhamento definidos para garantir que as informações são partilhadas de forma rápida e eficaz durante incidentes.
  • Procedimentos documentados num manual de operações ou num plano de contingência que descrevem os passos para comunicação, triagem, investigação e resolução.
  • Formação e preparação regulares que equipam as equipas com os conhecimentos e as competências para responderem eficazmente.

Implemente testes de desempenho e de carga regularmente

Os testes de desempenho e de carga regulares ajudam a garantir que as aplicações e a infraestrutura baseadas na nuvem conseguem processar picos de carga e manter um desempenho ideal. Os testes de carga simulam padrões de tráfego realistas. Os testes de esforço exercitam o sistema até aos seus limites para identificar potenciais gargalos e limitações de desempenho. Pode usar produtos como o Cloud Load Balancing e serviços de testes de carga para simular o tráfego real. Com base nos resultados dos testes, pode ajustar a sua infraestrutura e aplicações na nuvem para um desempenho e escalabilidade ideais. Por exemplo, pode ajustar a atribuição de recursos ou ajustar as configurações das aplicações.

Automatize os testes em pipelines de CI/CD

A incorporação de testes automatizados nos seus pipelines de CI/CD ajuda a garantir a qualidade e a fiabilidade das aplicações na nuvem através da validação das alterações antes da implementação. Esta abordagem reduz significativamente o risco de erros e regressões, e ajuda a criar um sistema de software mais estável e robusto. Pode incorporar diferentes tipos de testes nos seus pipelines de CI/CD, incluindo testes unitários, testes de integração e testes ponto a ponto. Use produtos como o Cloud Build e o Cloud Deploy para criar e gerir os seus pipelines de CI/CD.

Melhorar e inovar continuamente

Para cargas de trabalho de serviços financeiros na nuvem, a migração para a nuvem é apenas o passo inicial. A melhoria e a inovação contínuas são essenciais pelos seguintes motivos:

  • Acelere a inovação: tire partido de novas tecnologias, como a IA, para melhorar os seus serviços.
  • Reduzir custos: elimine ineficiências e otimize a utilização de recursos.
  • Melhore a agilidade: adapte-se rapidamente às alterações do mercado e regulamentares.
  • Melhore a tomada de decisões: use produtos de estatísticas de dados, como o BigQuery e o Looker, para fazer escolhas fundamentadas.

Para garantir a melhoria contínua e a inovação, considere as seguintes recomendações.

Realize retrospetivas regulares

As retrospectivas são essenciais para melhorar continuamente os procedimentos de resposta a incidentes e para otimizar as estratégias de testes com base nos resultados dos testes de desempenho e de carga regulares. Para garantir que as retrospetivas são eficazes, faça o seguinte:

  • Dê às equipas a oportunidade de refletir sobre as suas experiências, identificar o que correu bem e determinar as áreas a melhorar.
  • Realize análises retrospetivas após marcos de projetos, incidentes importantes ou ciclos de testes significativos. As equipas podem aprender com os sucessos e os fracassos, e refinar continuamente os seus processos e práticas.
  • Use uma abordagem estruturada, como o modelo start-stop-continue, para garantir que as sessões retrospetivas são produtivas e levam a passos acionáveis.
  • Use retrospetivas para identificar áreas onde a automatização da gestão de alterações pode ser melhorada para aumentar a fiabilidade e reduzir os riscos.

Promova uma cultura de aprendizagem

Uma cultura de aprendizagem facilita a exploração segura de novas tecnologias na Google Cloud, como as capacidades de IA e ML para melhorar serviços como a deteção de fraude e o aconselhamento financeiro personalizado. Para promover uma cultura de aprendizagem, faça o seguinte:

  • Incentive as equipas a experimentar, partilhar conhecimentos e aprender continuamente.
  • Adote uma cultura sem culpa, em que as falhas são vistas como oportunidades de crescimento e melhoria.
  • Crie um ambiente psicologicamente seguro que permita às equipas assumir riscos e considerar soluções inovadoras. As equipas aprendem com os sucessos e os fracassos, o que leva a uma organização mais resiliente e adaptável.
  • Desenvolva uma cultura que facilite a partilha de conhecimentos adquiridos a partir dos processos de gestão de incidentes e dos exercícios de testes.

Mantenha-se a par das tecnologias de nuvem

A aprendizagem contínua é essencial para compreender e implementar novas medidas de segurança, tirar partido da análise de dados avançada para obter melhores estatísticas e adotar soluções inovadoras relevantes para a indústria financeira.

  • Maximize o potencial dos serviços do Google Cloud mantendo-se a par dos mais recentes avanços, funcionalidades e práticas recomendadas.
  • Quando são introduzidas novas Google Cloud funcionalidades e serviços, identifique oportunidades para automatizar ainda mais os processos, melhorar a segurança e melhorar o desempenho e a escalabilidade das suas aplicações.
  • Participe em conferências, webinars e sessões de formação relevantes para expandir os seus conhecimentos e compreender novas capacidades.
  • Incentive os membros da equipa a obterem Google Cloud certificações para ajudar a garantir que a organização tem as competências necessárias para ter sucesso na nuvem.