Este documento no Google Cloud Framework bem arquitetado: perspetiva da FSI oferece uma vista geral dos princípios e das recomendações para criar, implementar e operar cargas de trabalho robustas da indústria de serviços financeiros (FSI) no Google Cloud. Estas recomendações ajudam a configurar elementos de base, como observabilidade, automatização e escalabilidade. As recomendações neste documento estão alinhadas com o pilar de excelência operacional da Well-Architected Framework.
A excelência operacional é fundamental para as cargas de trabalho de FSI no Google Cloud devido à natureza altamente regulamentada e sensível dessas cargas de trabalho. A excelência operacional garante que as soluções na nuvem se podem adaptar às necessidades em evolução e satisfazer os seus requisitos de valor, desempenho, segurança e fiabilidade. As falhas nestas áreas podem resultar em perdas financeiras significativas, penalizações regulamentares e danos reputacionais.
A excelência operacional oferece as seguintes vantagens para as cargas de trabalho de FSI:
- Mantenha a confiança e a reputação: as instituições financeiras dependem muito da confiança dos seus clientes. As interrupções operacionais ou as violações de segurança podem afetar gravemente esta confiança e causar a perda de clientes. A excelência operacional ajuda a minimizar estes riscos.
Cumprir requisitos de conformidade regulamentar rigorosos: o FSI está sujeito a regulamentos numerosos e complexos, como os seguintes:
- Regulamento Geral sobre a Proteção de Dados (RGPD) da UE
- Regulamento da UE relativo à resiliência operacional digital (DORA)
- Lei da Privacidade dos Consumidores da Califórnia (CCPA)
- Regulamentos específicos da indústria
Os processos operacionais robustos, a monitorização e a gestão de incidentes são essenciais para demonstrar a conformidade com os regulamentos e evitar penalizações.
Garantir a continuidade e a resiliência do negócio: os mercados e os serviços financeiros funcionam frequentemente de forma contínua. Por conseguinte, a alta disponibilidade e a recuperação de desastres eficaz são fundamentais. Os princípios da excelência operacional orientam a conceção e a implementação de sistemas resilientes. O pilar da fiabilidade oferece mais orientações nesta área.
Proteja os dados confidenciais: as instituições financeiras processam grandes quantidades de dados financeiros e de clientes altamente confidenciais. Os controlos operacionais fortes, a monitorização da segurança e a resposta rápida a incidentes são cruciais para evitar violações de dados e manter a privacidade. O pilar de segurança oferece mais orientações nesta área.
Otimize o desempenho para aplicações críticas: muitas aplicações financeiras, como plataformas de negociação e estatísticas em tempo real, exigem um elevado desempenho e uma baixa latência. Para cumprir estes requisitos de desempenho, precisa de um design de computação, rede e armazenamento altamente otimizado. O pilar de otimização do desempenho oferece mais orientações nesta área.
Gerir os custos de forma eficaz: além da segurança e fiabilidade, as instituições financeiras também se preocupam com a eficiência dos custos. A excelência operacional inclui práticas para otimizar a utilização de recursos e gerir os gastos na nuvem. O pilar de otimização de custos oferece mais orientações nesta área.
As recomendações de excelência operacional neste documento estão mapeadas para os seguintes princípios essenciais:
- Defina SLAs e os SLOs e INSs correspondentes
- Defina e teste processos de gestão de incidentes
- Melhore e inove continuamente
Defina SLAs e os SLOs e INSs correspondentes
Em muitas organizações de ISF, a disponibilidade de aplicações é normalmente classificada com base nas métricas de objetivo de tempo de recuperação (RTO) e objetivo de ponto de recuperação (RPO). Para aplicações essenciais para a empresa que servem clientes externos, também pode ser definido um contrato de nível de serviço (SLA).
Os SLAs precisam de uma estrutura de métricas que represente o comportamento do sistema na perspetiva da satisfação do utilizador. As práticas de engenharia de fiabilidade de sites (EFS) oferecem uma forma de alcançar o nível de fiabilidade do sistema que quer. A criação de uma estrutura de métricas envolve a definição e a monitorização de indicadores numéricos importantes para compreender o estado do sistema na perspetiva do utilizador. Por exemplo, as métricas como a latência e as taxas de erro quantificam o desempenho de um serviço. Estas métricas são denominadas indicadores do nível de serviço (INSs). O desenvolvimento de SLIs eficazes é crucial, uma vez que fornecem os dados não processados necessários para avaliar objetivamente a fiabilidade.
Para definir SLAs, SLIs e SLOs significativos, considere as seguintes recomendações:
- Desenvolver e definir SLIs para cada serviço crítico. Defina valores de destino que definam os níveis de desempenho aceitáveis.
- Desenvolver e definir os objetivos ao nível do serviço (SLO) que correspondem aos INSs. Por exemplo, um SLO pode indicar que 99,9% dos pedidos têm de ter uma latência inferior a 200 milissegundos.
- Identifique as ações corretivas internas que têm de ser tomadas se um serviço não cumprir os SLOs. Por exemplo, para melhorar a resiliência da plataforma, pode ter de focar os recursos de desenvolvimento na correção de problemas.
- Validar o requisito do SLA para cada serviço e reconhecer o SLA como o contrato formal com os utilizadores do serviço.
Exemplos de níveis de serviço
A tabela seguinte apresenta exemplos de INSs, SLOs e SLAs para uma plataforma de pagamentos:
Métrica empresarial | SLI | SLO | SLA |
---|---|---|---|
Transação de pagamento bem-sucedida | Uma medida quantitativa da percentagem de todas as transações de pagamento iniciadas que são processadas e confirmadas com êxito. Exemplo: (número de transações bem-sucedidas ÷ número total de transações válidas) × 100, medido num período contínuo de 5 minutos. |
Um objetivo interno para manter uma percentagem elevada de transações de pagamento bem-sucedidas durante um período específico. Exemplo: manter uma taxa de êxito de transações de pagamento de 99,98% durante um período de 30 dias consecutivos, excluindo pedidos inválidos e manutenção planeada. |
Uma garantia contratual para a taxa de sucesso e a velocidade do processamento de transações de pagamento. Exemplo: o fornecedor de serviços garante que 99,0% das transações de pagamento iniciadas pelo cliente vão ser processadas e confirmadas com êxito no prazo de um segundo. |
Latência de processamento de pagamentos | O tempo médio necessário para processar uma transação de pagamento desde o início pelo cliente até à confirmação final. Exemplo: tempo médio de resposta em milissegundos para a confirmação de transações, medido num período contínuo de 5 minutos. |
Um objetivo interno para a velocidade a que as transações de pagamento são processadas. Exemplo: certifique-se de que 99,5% das transações de pagamento são processadas no prazo de 400 milissegundos durante um período contínuo de 30 dias. |
Um compromisso contratual para resolver problemas críticos de processamento de pagamentos num prazo especificado. Exemplo: para problemas críticos de processamento de pagamentos (definidos como uma indisponibilidade que afeta mais de 1% das transações), o fornecedor de serviços compromete-se a um tempo de resolução de duas horas a partir do momento em que o problema é comunicado ou detetado. |
Disponibilidade da plataforma | A percentagem de tempo em que a API de processamento de pagamentos principal e a interface do utilizador estão operacionais e acessíveis aos clientes. Exemplo: (tempo operacional total − tempo de inatividade) ÷ tempo operacional total × 100, medido por minuto. |
Um objetivo interno para o tempo de atividade da plataforma de pagamentos principal. Exemplo: alcançar uma disponibilidade da plataforma de 99,995% por mês civil, excluindo as janelas de manutenção agendadas. |
Um compromisso formal e legalmente vinculativo com os clientes relativamente ao tempo de atividade mínimo da plataforma de pagamentos, incluindo as consequências em caso de não cumprimento. Exemplo: a plataforma vai manter uma disponibilidade mínima de 99,9% por mês civil, excluindo as janelas de manutenção agendadas. Se a disponibilidade for inferior ao nível mínimo, o cliente recebe um crédito de serviço de 5% da taxa de serviço mensal por cada descida de 0,1%. |
Use dados de SLI para monitorizar se os sistemas estão dentro dos SLOs definidos e para garantir que os SLAs são cumpridos. Ao usar um conjunto de SLIs bem definidos, os engenheiros e os programadores podem monitorizar as aplicações de FSI nos seguintes níveis:
- Diretamente no serviço no qual as aplicações estão implementadas, como o GKE ou o Cloud Run.
- Através da utilização de registos fornecidos por componentes de infraestrutura, como o balanceador de carga.
O OpenTelemetry oferece uma norma de código aberto e um conjunto de tecnologias para captar todos os tipos de telemetria, incluindo métricas, rastreios e registos. O Google Cloud Managed Service for Prometheus oferece um back-end totalmente gerido e altamente escalável para métricas e funcionamento do Prometheus em grande escala.
Para mais informações sobre INSs, SLOs e margens de erro, consulte o manual de SRE.
Para desenvolver mecanismos e painéis de controlo de alertas e monitorização eficazes, use as ferramentas de observabilidade do Google Cloud juntamente com o Google Cloud Monitoring. Para informações sobre as capacidades de deteção e monitorização específicas de segurança, consulte o pilar de segurança.
Defina e teste processos de gestão de incidentes
Os processos de gestão de incidentes bem definidos e testados regularmente contribuem diretamente para o valor, o desempenho, a segurança e a fiabilidade das cargas de trabalho da FSI no Google Cloud. Estes processos ajudam as instituições financeiras a cumprir os seus rigorosos requisitos regulamentares, proteger dados confidenciais, manter a continuidade da empresa e defender a confiança dos clientes.
Os testes regulares dos processos de gestão de incidentes oferecem as seguintes vantagens:
- Manter o desempenho sob cargas máximas: os testes regulares de desempenho e carga ajudam as instituições financeiras a garantir que as respetivas aplicações e infraestrutura baseadas na nuvem conseguem processar volumes máximos de transações, volatilidade do mercado e outros cenários de elevada procura sem degradação do desempenho. Esta capacidade é crucial para manter uma experiência do utilizador sem falhas e satisfazer as exigências dos mercados financeiros.
- Identificar potenciais gargalos e limitações: os testes de esforço levam os sistemas aos seus limites e permitem que as instituições financeiras identifiquem potenciais gargalos e limitações de desempenho antes de afetarem as operações críticas. Esta abordagem proativa permite que as instituições financeiras ajustem a respetiva infraestrutura e aplicações para um desempenho e uma escalabilidade ideais.
- Validar a fiabilidade e a resiliência: os testes regulares, incluindo a engenharia do caos ou as falhas simuladas, ajudam a validar a fiabilidade e a resiliência dos sistemas financeiros. Estes testes garantem que os sistemas podem recuperar facilmente de falhas e manter uma elevada disponibilidade, o que é essencial para a continuidade da empresa.
- Faça um planeamento de capacidade eficaz: os testes de desempenho fornecem dados valiosos sobre a utilização de recursos em diferentes condições de carga, o que é fundamental para um planeamento de capacidade preciso. As instituições financeiras podem usar estes dados para antecipar proativamente as necessidades de capacidade futuras e evitar problemas de desempenho devido a restrições de recursos.
- Implementar novas funcionalidades e alterações de código com êxito: a integração de testes automatizados em pipelines de CI/CD ajuda a garantir que as alterações e as novas implementações são totalmente validadas antes de serem lançadas em ambientes de produção. Esta abordagem reduz significativamente o risco de erros e regressões que podem levar a interrupções operacionais.
- Cumprir os requisitos regulamentares para a estabilidade do sistema: os regulamentos financeiros exigem frequentemente que as instituições tenham práticas de testes robustas para garantir a estabilidade e a fiabilidade dos respetivos sistemas críticos. Os testes regulares ajudam a demonstrar a conformidade com estes requisitos.
Para definir e testar os seus processos de gestão de incidentes, considere as seguintes recomendações.
Estabeleça procedimentos de resposta a incidentes claros
Um conjunto bem estabelecido de procedimentos de resposta a incidentes envolve os seguintes elementos:
- Funções e responsabilidades definidas para comandantes de incidentes, investigadores, comunicadores e especialistas técnicos para garantir uma resposta eficaz e coordenada.
- Protocolos de comunicação e caminhos de encaminhamento definidos para garantir que as informações são partilhadas de forma rápida e eficaz durante incidentes.
- Procedimentos documentados num manual de operações ou num plano de contingência que descrevem os passos para comunicação, triagem, investigação e resolução.
- Formação e preparação regulares que equipam as equipas com os conhecimentos e as competências para responderem eficazmente.
Implemente testes de desempenho e de carga regularmente
Os testes de desempenho e de carga regulares ajudam a garantir que as aplicações e a infraestrutura baseadas na nuvem conseguem processar picos de carga e manter um desempenho ideal. Os testes de carga simulam padrões de tráfego realistas. Os testes de esforço exercitam o sistema até aos seus limites para identificar potenciais gargalos e limitações de desempenho. Pode usar produtos como o Cloud Load Balancing e serviços de testes de carga para simular o tráfego real. Com base nos resultados dos testes, pode ajustar a sua infraestrutura e aplicações na nuvem para um desempenho e escalabilidade ideais. Por exemplo, pode ajustar a atribuição de recursos ou ajustar as configurações das aplicações.
Automatize os testes em pipelines de CI/CD
A incorporação de testes automatizados nos seus pipelines de CI/CD ajuda a garantir a qualidade e a fiabilidade das aplicações na nuvem através da validação das alterações antes da implementação. Esta abordagem reduz significativamente o risco de erros e regressões, e ajuda a criar um sistema de software mais estável e robusto. Pode incorporar diferentes tipos de testes nos seus pipelines de CI/CD, incluindo testes unitários, testes de integração e testes ponto a ponto. Use produtos como o Cloud Build e o Cloud Deploy para criar e gerir os seus pipelines de CI/CD.
Melhorar e inovar continuamente
Para cargas de trabalho de serviços financeiros na nuvem, a migração para a nuvem é apenas o passo inicial. A melhoria e a inovação contínuas são essenciais pelos seguintes motivos:
- Acelere a inovação: tire partido de novas tecnologias, como a IA, para melhorar os seus serviços.
- Reduzir custos: elimine ineficiências e otimize a utilização de recursos.
- Melhore a agilidade: adapte-se rapidamente às alterações do mercado e regulamentares.
- Melhore a tomada de decisões: use produtos de estatísticas de dados, como o BigQuery e o Looker, para fazer escolhas fundamentadas.
Para garantir a melhoria contínua e a inovação, considere as seguintes recomendações.
Realize retrospetivas regulares
As retrospectivas são essenciais para melhorar continuamente os procedimentos de resposta a incidentes e para otimizar as estratégias de testes com base nos resultados dos testes de desempenho e de carga regulares. Para garantir que as retrospetivas são eficazes, faça o seguinte:
- Dê às equipas a oportunidade de refletir sobre as suas experiências, identificar o que correu bem e determinar as áreas a melhorar.
- Realize análises retrospetivas após marcos de projetos, incidentes importantes ou ciclos de testes significativos. As equipas podem aprender com os sucessos e os fracassos, e refinar continuamente os seus processos e práticas.
- Use uma abordagem estruturada, como o modelo start-stop-continue, para garantir que as sessões retrospetivas são produtivas e levam a passos acionáveis.
- Use retrospetivas para identificar áreas onde a automatização da gestão de alterações pode ser melhorada para aumentar a fiabilidade e reduzir os riscos.
Promova uma cultura de aprendizagem
Uma cultura de aprendizagem facilita a exploração segura de novas tecnologias na Google Cloud, como as capacidades de IA e ML para melhorar serviços como a deteção de fraude e o aconselhamento financeiro personalizado. Para promover uma cultura de aprendizagem, faça o seguinte:
- Incentive as equipas a experimentar, partilhar conhecimentos e aprender continuamente.
- Adote uma cultura sem culpa, em que as falhas são vistas como oportunidades de crescimento e melhoria.
- Crie um ambiente psicologicamente seguro que permita às equipas assumir riscos e considerar soluções inovadoras. As equipas aprendem com os sucessos e os fracassos, o que leva a uma organização mais resiliente e adaptável.
- Desenvolva uma cultura que facilite a partilha de conhecimentos adquiridos a partir dos processos de gestão de incidentes e dos exercícios de testes.
Mantenha-se a par das tecnologias de nuvem
A aprendizagem contínua é essencial para compreender e implementar novas medidas de segurança, tirar partido da análise de dados avançada para obter melhores estatísticas e adotar soluções inovadoras relevantes para a indústria financeira.
- Maximize o potencial dos serviços do Google Cloud mantendo-se a par dos mais recentes avanços, funcionalidades e práticas recomendadas.
- Quando são introduzidas novas Google Cloud funcionalidades e serviços, identifique oportunidades para automatizar ainda mais os processos, melhorar a segurança e melhorar o desempenho e a escalabilidade das suas aplicações.
- Participe em conferências, webinars e sessões de formação relevantes para expandir os seus conhecimentos e compreender novas capacidades.
- Incentive os membros da equipa a obterem Google Cloud certificações para ajudar a garantir que a organização tem as competências necessárias para ter sucesso na nuvem.