Framework Well-Architected: perspetiva da indústria de serviços financeiros (FSI)

Last reviewed 2025-07-28 UTC

Este documento no Google Cloud Well-Architected Framework descreve princípios e recomendações para ajudar a conceber, criar e gerir aplicações da indústria de serviços financeiros (FSI) no Google Cloud que cumprem os seus objetivos operacionais, de segurança, fiabilidade, custo e desempenho.

O público-alvo deste documento inclui decisores, arquitetos, administradores, programadores e operadores que concebem, criam, implementam e mantêm cargas de trabalho de FSI no Google Cloud. Alguns exemplos de organizações de ISF que podem beneficiar destas orientações incluem bancos, intervenientes na infraestrutura de pagamentos, seguradoras e operadores do mercado de capitais.

As organizações de FSI têm considerações específicas, particularmente para a arquitetura e a resiliência. Estas considerações são principalmente motivadas por requisitos regulamentares, de risco e de desempenho. Este documento fornece orientações gerais baseadas em considerações de design que observámos num vasto leque de clientes de ISF a nível global. Quer as suas cargas de trabalho estejam totalmente na nuvem ou em transição para implementações híbridas ou multinuvens, as orientações neste documento ajudam a conceber cargas de trabalho no Google Cloud para cumprir os seus requisitos regulamentares e diversas perspetivas de risco. As orientações podem não abordar os desafios únicos de cada organização. Oferece uma base que aborda muitos dos principais requisitos regulamentares das organizações de FSI.

Um dos principais desafios na conceção de cargas de trabalho na nuvem envolve o alinhamento das implementações na nuvem com os ambientes nas instalações, especialmente quando pretende abordagens consistentes à segurança, fiabilidade e resiliência. Os serviços na nuvem criam oportunidades para repensar fundamentalmente a sua arquitetura de modo a reduzir a sobrecarga de gestão, otimizar os custos, melhorar a segurança e aumentar a fiabilidade e a resiliência.

As páginas seguintes descrevem os princípios e as recomendações específicos das cargas de trabalho de IF para cada pilar da Well-Architected Framework:

Colaboradores

Autores:

Outros colaboradores:

Perspetiva das IFs: excelência operacional

Este documento no Google Cloud Framework bem arquitetado: perspetiva da FSI oferece uma vista geral dos princípios e das recomendações para criar, implementar e operar cargas de trabalho robustas da indústria de serviços financeiros (FSI) no Google Cloud. Estas recomendações ajudam a configurar elementos de base, como observabilidade, automatização e escalabilidade. As recomendações neste documento estão alinhadas com o pilar de excelência operacional da Well-Architected Framework.

A excelência operacional é fundamental para as cargas de trabalho de FSI no Google Cloud devido à natureza altamente regulamentada e sensível dessas cargas de trabalho. A excelência operacional garante que as soluções na nuvem se podem adaptar às necessidades em evolução e satisfazer os seus requisitos de valor, desempenho, segurança e fiabilidade. As falhas nestas áreas podem resultar em perdas financeiras significativas, penalizações regulamentares e danos reputacionais.

A excelência operacional oferece as seguintes vantagens para as cargas de trabalho de FSI:

  • Mantenha a confiança e a reputação: as instituições financeiras dependem muito da confiança dos seus clientes. As interrupções operacionais ou as violações de segurança podem afetar gravemente esta confiança e causar a perda de clientes. A excelência operacional ajuda a minimizar estes riscos.
  • Cumprir requisitos de conformidade regulamentar rigorosos: o FSI está sujeito a regulamentos numerosos e complexos, como os seguintes:

    Os processos operacionais robustos, a monitorização e a gestão de incidentes são essenciais para demonstrar a conformidade com os regulamentos e evitar penalizações.

  • Garantir a continuidade e a resiliência do negócio: os mercados e os serviços financeiros funcionam frequentemente de forma contínua. Por conseguinte, a alta disponibilidade e a recuperação de desastres eficaz são fundamentais. Os princípios da excelência operacional orientam a conceção e a implementação de sistemas resilientes. O pilar da fiabilidade oferece mais orientações nesta área.

  • Proteja os dados confidenciais: as instituições financeiras processam grandes quantidades de dados financeiros e de clientes altamente confidenciais. Os controlos operacionais fortes, a monitorização da segurança e a resposta rápida a incidentes são cruciais para evitar violações de dados e manter a privacidade. O pilar de segurança oferece mais orientações nesta área.

  • Otimize o desempenho para aplicações críticas: muitas aplicações financeiras, como plataformas de negociação e estatísticas em tempo real, exigem um elevado desempenho e uma baixa latência. Para cumprir estes requisitos de desempenho, precisa de um design de computação, rede e armazenamento altamente otimizado. O pilar de otimização do desempenho oferece mais orientações nesta área.

  • Gerir os custos de forma eficaz: além da segurança e fiabilidade, as instituições financeiras também se preocupam com a eficiência dos custos. A excelência operacional inclui práticas para otimizar a utilização de recursos e gerir os gastos na nuvem. O pilar de otimização de custos oferece mais orientações nesta área.

As recomendações de excelência operacional neste documento estão mapeadas para os seguintes princípios essenciais:

Defina SLAs e os SLOs e INSs correspondentes

Em muitas organizações de ISF, a disponibilidade de aplicações é normalmente classificada com base nas métricas de objetivo de tempo de recuperação (RTO) e objetivo de ponto de recuperação (RPO). Para aplicações essenciais para a empresa que servem clientes externos, também pode ser definido um contrato de nível de serviço (SLA).

Os SLAs precisam de uma estrutura de métricas que represente o comportamento do sistema na perspetiva da satisfação do utilizador. As práticas de engenharia de fiabilidade de sites (EFS) oferecem uma forma de alcançar o nível de fiabilidade do sistema que quer. A criação de uma estrutura de métricas envolve a definição e a monitorização de indicadores numéricos importantes para compreender o estado do sistema na perspetiva do utilizador. Por exemplo, as métricas como a latência e as taxas de erro quantificam o desempenho de um serviço. Estas métricas são denominadas indicadores do nível de serviço (INSs). O desenvolvimento de SLIs eficazes é crucial, uma vez que fornecem os dados não processados necessários para avaliar objetivamente a fiabilidade.

Para definir SLAs, SLIs e SLOs significativos, considere as seguintes recomendações:

  • Desenvolver e definir SLIs para cada serviço crítico. Defina valores de destino que definam os níveis de desempenho aceitáveis.
  • Desenvolver e definir os objetivos ao nível do serviço (SLO) que correspondem aos INSs. Por exemplo, um SLO pode indicar que 99,9% dos pedidos têm de ter uma latência inferior a 200 milissegundos.
  • Identifique as ações corretivas internas que têm de ser tomadas se um serviço não cumprir os SLOs. Por exemplo, para melhorar a resiliência da plataforma, pode ter de focar os recursos de desenvolvimento na correção de problemas.
  • Validar o requisito do SLA para cada serviço e reconhecer o SLA como o contrato formal com os utilizadores do serviço.

Exemplos de níveis de serviço

A tabela seguinte apresenta exemplos de INSs, SLOs e SLAs para uma plataforma de pagamentos:

Métrica empresarial SLI SLO SLA
Transação de pagamento bem-sucedida

Uma medida quantitativa da percentagem de todas as transações de pagamento iniciadas que são processadas e confirmadas com êxito.

Exemplo: (número de transações bem-sucedidas ÷ número total de transações válidas) × 100, medido num período contínuo de 5 minutos.

Um objetivo interno para manter uma percentagem elevada de transações de pagamento bem-sucedidas durante um período específico.

Exemplo: manter uma taxa de êxito de transações de pagamento de 99,98% durante um período de 30 dias consecutivos, excluindo pedidos inválidos e manutenção planeada.

Uma garantia contratual para a taxa de sucesso e a velocidade do processamento de transações de pagamento.

Exemplo: o fornecedor de serviços garante que 99,0% das transações de pagamento iniciadas pelo cliente vão ser processadas e confirmadas com êxito no prazo de um segundo.

Latência de processamento de pagamentos

O tempo médio necessário para processar uma transação de pagamento desde o início pelo cliente até à confirmação final.

Exemplo: tempo médio de resposta em milissegundos para a confirmação de transações, medido num período contínuo de 5 minutos.

Um objetivo interno para a velocidade a que as transações de pagamento são processadas.

Exemplo: certifique-se de que 99,5% das transações de pagamento são processadas no prazo de 400 milissegundos durante um período contínuo de 30 dias.

Um compromisso contratual para resolver problemas críticos de processamento de pagamentos num prazo especificado.

Exemplo: para problemas críticos de processamento de pagamentos (definidos como uma indisponibilidade que afeta mais de 1% das transações), o fornecedor de serviços compromete-se a um tempo de resolução de duas horas a partir do momento em que o problema é comunicado ou detetado.

Disponibilidade da plataforma

A percentagem de tempo em que a API de processamento de pagamentos principal e a interface do utilizador estão operacionais e acessíveis aos clientes.

Exemplo: (tempo operacional total − tempo de inatividade) ÷ tempo operacional total × 100, medido por minuto.

Um objetivo interno para o tempo de atividade da plataforma de pagamentos principal.

Exemplo: alcançar uma disponibilidade da plataforma de 99,995% por mês civil, excluindo as janelas de manutenção agendadas.

Um compromisso formal e legalmente vinculativo com os clientes relativamente ao tempo de atividade mínimo da plataforma de pagamentos, incluindo as consequências em caso de não cumprimento.

Exemplo: a plataforma vai manter uma disponibilidade mínima de 99,9% por mês civil, excluindo as janelas de manutenção agendadas. Se a disponibilidade for inferior ao nível mínimo, o cliente recebe um crédito de serviço de 5% da taxa de serviço mensal por cada descida de 0,1%.

Use dados de SLI para monitorizar se os sistemas estão dentro dos SLOs definidos e para garantir que os SLAs são cumpridos. Ao usar um conjunto de SLIs bem definidos, os engenheiros e os programadores podem monitorizar as aplicações de FSI nos seguintes níveis:

  • Diretamente no serviço no qual as aplicações estão implementadas, como o GKE ou o Cloud Run.
  • Através da utilização de registos fornecidos por componentes de infraestrutura, como o balanceador de carga.

O OpenTelemetry oferece uma norma de código aberto e um conjunto de tecnologias para captar todos os tipos de telemetria, incluindo métricas, rastreios e registos. O Google Cloud Managed Service for Prometheus oferece um back-end totalmente gerido e altamente escalável para métricas e funcionamento do Prometheus em grande escala.

Para mais informações sobre INSs, SLOs e margens de erro, consulte o manual de SRE.

Para desenvolver mecanismos e painéis de controlo de alertas e monitorização eficazes, use as ferramentas de observabilidade do Google Cloud juntamente com o Google Cloud Monitoring. Para informações sobre as capacidades de deteção e monitorização específicas de segurança, consulte o pilar de segurança.

Defina e teste processos de gestão de incidentes

Os processos de gestão de incidentes bem definidos e testados regularmente contribuem diretamente para o valor, o desempenho, a segurança e a fiabilidade das cargas de trabalho da FSI no Google Cloud. Estes processos ajudam as instituições financeiras a cumprir os seus rigorosos requisitos regulamentares, proteger dados confidenciais, manter a continuidade da empresa e defender a confiança dos clientes.

Os testes regulares dos processos de gestão de incidentes oferecem as seguintes vantagens:

  • Manter o desempenho sob cargas máximas: os testes regulares de desempenho e carga ajudam as instituições financeiras a garantir que as respetivas aplicações e infraestrutura baseadas na nuvem conseguem processar volumes máximos de transações, volatilidade do mercado e outros cenários de elevada procura sem degradação do desempenho. Esta capacidade é crucial para manter uma experiência do utilizador sem falhas e satisfazer as exigências dos mercados financeiros.
  • Identificar potenciais gargalos e limitações: os testes de esforço levam os sistemas aos seus limites e permitem que as instituições financeiras identifiquem potenciais gargalos e limitações de desempenho antes de afetarem as operações críticas. Esta abordagem proativa permite que as instituições financeiras ajustem a respetiva infraestrutura e aplicações para um desempenho e uma escalabilidade ideais.
  • Validar a fiabilidade e a resiliência: os testes regulares, incluindo a engenharia do caos ou as falhas simuladas, ajudam a validar a fiabilidade e a resiliência dos sistemas financeiros. Estes testes garantem que os sistemas podem recuperar facilmente de falhas e manter uma elevada disponibilidade, o que é essencial para a continuidade da empresa.
  • Faça um planeamento de capacidade eficaz: os testes de desempenho fornecem dados valiosos sobre a utilização de recursos em diferentes condições de carga, o que é fundamental para um planeamento de capacidade preciso. As instituições financeiras podem usar estes dados para antecipar proativamente as necessidades de capacidade futuras e evitar problemas de desempenho devido a restrições de recursos.
  • Implementar novas funcionalidades e alterações de código com êxito: a integração de testes automatizados em pipelines de CI/CD ajuda a garantir que as alterações e as novas implementações são totalmente validadas antes de serem lançadas em ambientes de produção. Esta abordagem reduz significativamente o risco de erros e regressões que podem levar a interrupções operacionais.
  • Cumprir os requisitos regulamentares para a estabilidade do sistema: os regulamentos financeiros exigem frequentemente que as instituições tenham práticas de testes robustas para garantir a estabilidade e a fiabilidade dos respetivos sistemas críticos. Os testes regulares ajudam a demonstrar a conformidade com estes requisitos.

Para definir e testar os seus processos de gestão de incidentes, considere as seguintes recomendações.

Estabeleça procedimentos de resposta a incidentes claros

Um conjunto bem estabelecido de procedimentos de resposta a incidentes envolve os seguintes elementos:

  • Funções e responsabilidades definidas para comandantes de incidentes, investigadores, comunicadores e especialistas técnicos para garantir uma resposta eficaz e coordenada.
  • Protocolos de comunicação e caminhos de encaminhamento definidos para garantir que as informações são partilhadas de forma rápida e eficaz durante incidentes.
  • Procedimentos documentados num manual de operações ou num plano de contingência que descrevem os passos para comunicação, triagem, investigação e resolução.
  • Formação e preparação regulares que equipam as equipas com os conhecimentos e as competências para responderem eficazmente.

Implemente testes de desempenho e de carga regularmente

Os testes de desempenho e de carga regulares ajudam a garantir que as aplicações e a infraestrutura baseadas na nuvem conseguem processar picos de carga e manter um desempenho ideal. Os testes de carga simulam padrões de tráfego realistas. Os testes de esforço exercitam o sistema até aos seus limites para identificar potenciais gargalos e limitações de desempenho. Pode usar produtos como o Cloud Load Balancing e serviços de testes de carga para simular o tráfego real. Com base nos resultados dos testes, pode ajustar a sua infraestrutura e aplicações na nuvem para um desempenho e escalabilidade ideais. Por exemplo, pode ajustar a atribuição de recursos ou ajustar as configurações das aplicações.

Automatize os testes em pipelines de CI/CD

A incorporação de testes automatizados nos seus pipelines de CI/CD ajuda a garantir a qualidade e a fiabilidade das aplicações na nuvem através da validação das alterações antes da implementação. Esta abordagem reduz significativamente o risco de erros e regressões, e ajuda a criar um sistema de software mais estável e robusto. Pode incorporar diferentes tipos de testes nos seus pipelines de CI/CD, incluindo testes unitários, testes de integração e testes ponto a ponto. Use produtos como o Cloud Build e o Cloud Deploy para criar e gerir os seus pipelines de CI/CD.

Melhorar e inovar continuamente

Para cargas de trabalho de serviços financeiros na nuvem, a migração para a nuvem é apenas o passo inicial. A melhoria e a inovação contínuas são essenciais pelos seguintes motivos:

  • Acelere a inovação: tire partido de novas tecnologias, como a IA, para melhorar os seus serviços.
  • Reduzir custos: elimine ineficiências e otimize a utilização de recursos.
  • Melhore a agilidade: adapte-se rapidamente às alterações do mercado e regulamentares.
  • Melhore a tomada de decisões: use produtos de estatísticas de dados, como o BigQuery e o Looker, para fazer escolhas fundamentadas.

Para garantir a melhoria contínua e a inovação, considere as seguintes recomendações.

Realize retrospetivas regulares

As retrospectivas são essenciais para melhorar continuamente os procedimentos de resposta a incidentes e para otimizar as estratégias de testes com base nos resultados dos testes de desempenho e de carga regulares. Para garantir que as retrospetivas são eficazes, faça o seguinte:

  • Dê às equipas a oportunidade de refletir sobre as suas experiências, identificar o que correu bem e determinar as áreas a melhorar.
  • Realize análises retrospetivas após marcos de projetos, incidentes importantes ou ciclos de testes significativos. As equipas podem aprender com os sucessos e os fracassos, e refinar continuamente os seus processos e práticas.
  • Use uma abordagem estruturada, como o modelo start-stop-continue, para garantir que as sessões retrospetivas são produtivas e levam a passos acionáveis.
  • Use retrospetivas para identificar áreas onde a automatização da gestão de alterações pode ser melhorada para aumentar a fiabilidade e reduzir os riscos.

Promova uma cultura de aprendizagem

Uma cultura de aprendizagem facilita a exploração segura de novas tecnologias na Google Cloud, como as capacidades de IA e ML para melhorar serviços como a deteção de fraude e o aconselhamento financeiro personalizado. Para promover uma cultura de aprendizagem, faça o seguinte:

  • Incentive as equipas a experimentar, partilhar conhecimentos e aprender continuamente.
  • Adote uma cultura sem culpa, em que as falhas são vistas como oportunidades de crescimento e melhoria.
  • Crie um ambiente psicologicamente seguro que permita às equipas assumir riscos e considerar soluções inovadoras. As equipas aprendem com os sucessos e os fracassos, o que leva a uma organização mais resiliente e adaptável.
  • Desenvolva uma cultura que facilite a partilha de conhecimentos adquiridos a partir dos processos de gestão de incidentes e dos exercícios de testes.

Mantenha-se a par das tecnologias de nuvem

A aprendizagem contínua é essencial para compreender e implementar novas medidas de segurança, tirar partido da análise de dados avançada para obter melhores estatísticas e adotar soluções inovadoras relevantes para a indústria financeira.

  • Maximize o potencial dos serviços do Google Cloud mantendo-se a par dos mais recentes avanços, funcionalidades e práticas recomendadas.
  • Quando são introduzidas novas Google Cloud funcionalidades e serviços, identifique oportunidades para automatizar ainda mais os processos, melhorar a segurança e melhorar o desempenho e a escalabilidade das suas aplicações.
  • Participe em conferências, webinars e sessões de formação relevantes para expandir os seus conhecimentos e compreender novas capacidades.
  • Incentive os membros da equipa a obterem Google Cloud certificações para ajudar a garantir que a organização tem as competências necessárias para ter sucesso na nuvem.

Perspetiva das IFs: segurança, privacidade e conformidade

Este documento no Google Cloud Framework bem arquitetado: perspetiva da FSI oferece uma vista geral dos princípios e das recomendações para abordar os requisitos de segurança, privacidade e conformidade das cargas de trabalho da indústria de serviços financeiros (FSI) no Google Cloud. As recomendações ajudam a criar uma infraestrutura resiliente e em conformidade, salvaguardar dados confidenciais, manter a confiança dos clientes, navegar no panorama complexo dos requisitos regulamentares e gerir eficazmente as ameaças cibernéticas. As recomendações neste documento estão alinhadas com o pilar de segurança do Well-Architected Framework.

A segurança na computação em nuvem é uma preocupação crítica para as organizações de serviços financeiros, que são altamente atrativas para os cibercriminosos devido às grandes quantidades de dados confidenciais que gerem, incluindo detalhes dos clientes e registos financeiros. As consequências de uma violação de segurança são extremamente graves, incluindo perdas financeiras significativas, danos de reputação a longo prazo e multas regulamentares significativas. Por conseguinte, as cargas de trabalho de FSI precisam de controlos de segurança rigorosos.

Para ajudar a garantir a segurança e a conformidade abrangentes, tem de compreender as responsabilidades partilhadas entre si (organizações de ISF) e a Google Cloud. Google Cloud é responsável por proteger a infraestrutura subjacente, incluindo a segurança física e a segurança de rede. É responsável pela proteção de dados e aplicações, pela configuração do controlo de acesso e pela configuração e gestão de serviços de segurança. Para ajudar nos seus esforços de segurança, o Google Cloud ecossistema de parceiros oferece integração de segurança e serviços geridos.

As recomendações de segurança neste documento estão mapeadas para os seguintes princípios fundamentais:

Implemente a segurança desde a conceção

Os regulamentos financeiros, como a Norma de Segurança de Dados do Setor de Cartões de Pagamento (PCI DSS), a Lei Gramm-Leach-Bliley (GLBA) nos Estados Unidos e várias leis nacionais de proteção de dados financeiros exigem que a segurança seja integrada nos sistemas desde o início. O princípio da segurança por design enfatiza a integração da segurança ao longo do ciclo de vida de desenvolvimento para ajudar a garantir que as vulnerabilidades são minimizadas desde o início.

Para aplicar o princípio de segurança por design às suas cargas de trabalho de FSI no Google Cloud, considere as seguintes recomendações:

  • Certifique-se de que apenas são concedidas as autorizações necessárias aplicando o princípio do menor privilégio através do controlo de acesso baseado em funções (CABF) detalhado na gestão de identidade e de acesso (IAM). A utilização do RBAC é um requisito fundamental em muitos regulamentos financeiros.
  • Aplique perímetros de segurança em torno dos seus serviços e dados sensíveis através dos Google Cloud VPC Service Controls. Os perímetros de segurança ajudam a segmentar e proteger dados e recursos confidenciais, e ajudam a evitar a exfiltração de dados e o acesso não autorizado, conforme exigido pelos regulamentos.
  • Defina as configurações de segurança como código através de ferramentas de infraestrutura como código (IaC), como o Terraform. Esta abordagem incorpora controlos de segurança desde a fase de implementação inicial, o que ajuda a garantir a consistência e a capacidade de auditoria.
  • Analise o código da sua aplicação integrando os testes de segurança de aplicações estáticos (SAST) no pipeline de CI/CD com o Cloud Build. Estabelecer limites de segurança automatizados para impedir a implementação de código não conforme.
  • Forneça uma interface unificada para estatísticas de segurança através do Security Command Center. A utilização do Security Command Center permite a monitorização contínua e a deteção precoce de configurações incorretas ou ameaças que podem levar a violações regulamentares. Para cumprir os requisitos de normas como ISO 27001 e NIST 800-53, pode usar modelos de gestão da postura.
  • Acompanhe a redução das vulnerabilidades identificadas nas implementações de produção e a percentagem de implementações de IaC que cumprem as práticas recomendadas de segurança. Pode detetar e ver vulnerabilidades e informações sobre a conformidade com as normas de segurança através do Security Command Center. Para mais informações, consulte o artigo Resultados de vulnerabilidades.

Implemente a confiança zero

Os regulamentos financeiros modernos enfatizam cada vez mais a necessidade de controlos de acesso rigorosos e validação contínua. Estes requisitos refletem o princípio de confiança zero, que visa proteger as cargas de trabalho contra ameaças internas e externas, bem como intervenientes prejudiciais. O princípio de confiança zero defende a validação contínua de todos os utilizadores e dispositivos, o que elimina a confiança implícita e mitiga o movimento lateral.

Para implementar a confiança zero, considere as seguintes recomendações:

  • Ative o acesso sensível ao contexto com base na identidade do utilizador, na segurança do dispositivo, na localização e noutros fatores combinando os controlos da IAM com o Chrome Enterprise Premium. Esta abordagem garante a validação contínua antes de ser concedido o acesso a dados e sistemas financeiros.
  • Forneça uma gestão de identidade e acesso segura e escalável configurando a Identity Platform (ou o seu fornecedor de identidade externo se usar a federação de identidade da força de trabalho). Configure a autenticação multifator (MFA) e outros controlos que são cruciais para implementar a confiança zero e ajudar a garantir a conformidade regulamentar.
  • Implemente a MFA para todas as contas de utilizador, especialmente para contas com acesso a dados ou sistemas sensíveis.
  • Apoiar auditorias e investigações relacionadas com a conformidade regulamentar através do estabelecimento de registos e monitorização abrangentes do acesso dos utilizadores e da atividade de rede.
  • Ative a comunicação privada e segura entre serviços nos ambientesGoogle Cloud e no local sem expor o tráfego à Internet pública através do Private Service Connect.
  • Implemente controlos de identidade detalhados e autorize o acesso ao nível da aplicação através do Identity-Aware Proxy (IAP), em vez de depender de mecanismos de segurança baseados na rede, como túneis VPN. Esta abordagem ajuda a reduzir o movimento lateral no ambiente.

Implemente a segurança shift-left

Os reguladores financeiros incentivam medidas de segurança proativas. A identificação e a resolução de vulnerabilidades no início do ciclo de vida de desenvolvimento ajudam a reduzir o risco de incidentes de segurança e o potencial de penalizações por não conformidade. O princípio da segurança deslocada para a esquerda promove os testes de segurança e a integração antecipados, o que ajuda a reduzir o custo e a complexidade da correção.

Para implementar a segurança shift-left, considere as seguintes recomendações:

  • Garanta verificações de segurança automáticas numa fase inicial do processo de desenvolvimento através da integração de ferramentas de verificação de segurança, como a verificação de vulnerabilidades de contentores e a análise de código estático, no pipeline de CI/CD com o Cloud Build.

  • Certifique-se de que apenas são implementados artefactos seguros através do Artifact Registry para fornecer um repositório seguro e centralizado para pacotes de software e imagens de contentores com análise de vulnerabilidades integrada. Use repositórios virtuais para mitigar ataques de confusão de dependências, dando prioridade aos seus artefactos privados em detrimento dos repositórios remotos.

  • Analise automaticamente as aplicações Web quanto a vulnerabilidades comuns através da integração do Web Security Scanner, que faz parte do Security Command Center, nos seus pipelines de desenvolvimento.

  • Implemente verificações de segurança para o código-fonte, o processo de compilação e a proveniência do código através da estrutura Supply-chain Levels for Software Artifacts (SLSA). Aplique a proveniência das cargas de trabalho executadas nos seus ambientes através de soluções como a Autorização binária. Certifique-se de que as suas cargas de trabalho usam apenas bibliotecas de software de código aberto validadas através do Assured Open Source.

  • Acompanhe o número de vulnerabilidades identificadas e corrigidas no seu ciclo de vida de desenvolvimento, a percentagem de implementações de código que passam nas verificações de segurança e a redução nos incidentes de segurança causados por vulnerabilidades de software.O Google Cloud oferece ferramentas para ajudar neste acompanhamento para diferentes tipos de cargas de trabalho. Por exemplo, para cargas de trabalho em contentores, use a funcionalidade de análise de contentores do Artifact Registry.

Implemente a cibersegurança preventiva

As instituições financeiras são alvos privilegiados de ciberataques sofisticados. Os regulamentos exigem frequentemente mecanismos robustos de inteligência contra ameaças e defesa proativa. A defesa cibernética preventiva centra-se na deteção e resposta proativas a ameaças através da utilização de estatísticas e automatização avançadas.

Considere as seguintes recomendações:

Use a IA de forma segura e responsável, e use a IA para segurança

A IA e a AA são cada vez mais usadas para exemplos de utilização de serviços financeiros, como a deteção de fraudes e a negociação algorítmica. Os regulamentos exigem que estas tecnologias sejam usadas de forma ética, transparente e segura. A IA também pode ajudar a melhorar as suas capacidades de segurança. Considere as seguintes recomendações para usar a IA:

  • Desenvolva e implemente modelos de ML num ambiente seguro e regido através da Vertex AI. As funcionalidades, como a explicabilidade do modelo e as métricas de equidade, podem ajudar a resolver preocupações relacionadas com a IA responsável.
  • Tire partido das capacidades de análise e operações de segurança do Google Security Operations, que usa a IA e a AA para analisar grandes volumes de dados de segurança, detetar anomalias e automatizar a resposta a ameaças. Estas capacidades ajudam a melhorar a sua postura de segurança geral e facilitam a monitorização da conformidade.
  • Estabelecer políticas de governação claras para o desenvolvimento e a implementação de IA e AA, incluindo considerações relacionadas com a segurança e a ética.
  • Alinhe-se com os elementos da Secure AI Framework (SAIF), que oferece uma abordagem prática para resolver as preocupações de segurança e risco dos sistemas de IA.
  • Acompanhe a precisão e a eficácia dos sistemas de deteção de fraudes com tecnologia de IA, a redução de falsos positivos nos alertas de segurança e os ganhos de eficiência da automatização da segurança orientada por IA.

Cumprir as necessidades regulamentares, de conformidade e de privacidade

Os serviços financeiros estão sujeitos a uma vasta gama de regulamentos, incluindo requisitos de residência de dados, registos de auditoria específicos e normas de proteção de dados. Para garantir que os dados confidenciais são devidamente identificados, protegidos e geridos, as organizações de FSI precisam de políticas de gestão de dados robustas e esquemas de classificação de dados. Considere as seguintes recomendações para ajudar a cumprir os requisitos regulamentares:

  • Configure limites de dados em Google Cloud para cargas de trabalho confidenciais e regulamentadas usando o Assured Workloads. Isto ajuda a cumprir os requisitos de conformidade governamentais e específicos da indústria, como o FedRAMP e o CJIS.
  • Identifique, classifique e proteja dados confidenciais, incluindo informações financeiras, implementando o Cloud Data Loss Prevention (Cloud DLP). Ao fazê-lo, ajuda a cumprir os regulamentos de privacidade de dados, como o RGPD e a CCPA.
  • Monitorize os detalhes das atividades administrativas e o acesso aos recursos através dos registos de auditoria do Cloud. Estes registos são fundamentais para cumprir os requisitos de auditoria estipulados por muitos regulamentos financeiros.
  • Quando escolhe Google Cloud regiões para as suas cargas de trabalho e dados, considere os regulamentos locais relacionados com a residência dos dados. Google Cloud A infraestrutura global permite-lhe escolher regiões que podem ajudar a cumprir os seus requisitos de residência dos dados.
  • Faça a gestão das chaves usadas para encriptar dados financeiros confidenciais em repouso e em trânsito através do Cloud Key Management Service. Esta encriptação é um requisito fundamental de muitos regulamentos de segurança e privacidade.
  • Implemente os controlos necessários para cumprir os seus requisitos regulamentares. Valide se os controlos funcionam como esperado. Volte a validar os controlos por um auditor externo para provar ao regulador que as suas cargas de trabalho estão em conformidade com os regulamentos.

Priorize as iniciativas de segurança

Dada a amplitude dos requisitos de segurança, as instituições financeiras têm de dar prioridade a iniciativas baseadas na avaliação de risco e nos mandatos regulamentares. Recomendamos a seguinte abordagem faseada:

  1. Estabeleça uma base de segurança sólida: foque-se nas áreas essenciais da segurança, incluindo a gestão de identidades e acessos, a segurança de rede e a proteção de dados. Este foco ajuda a criar uma postura de segurança robusta e ajuda a garantir uma defesa abrangente contra ameaças em evolução.
  2. Aborde os regulamentos críticos: dê prioridade à conformidade com regulamentos importantes, como a PCI DSS, o RGPD e as leis nacionais relevantes. Isto ajuda a garantir a proteção de dados, mitiga os riscos legais e cria confiança junto dos clientes.
  3. Implemente segurança avançada: adote gradualmente práticas de segurança avançadas, como a confiança zero, soluções de segurança baseadas em IA e deteção proativa de ameaças.

Perspetiva da FSI: fiabilidade

Este documento no Google Cloud Well-Architected Framework: FSI perspective oferece uma vista geral dos princípios e das recomendações para conceber, implementar e operar cargas de trabalho fiáveis da indústria de serviços financeiros (FSI) no Google Cloud. O documento explora como integrar práticas de fiabilidade avançadas e observabilidade nos seus planos arquitetónicos. As recomendações neste documento estão alinhadas com o pilar de fiabilidade da framework bem arquitetada.

Para as instituições financeiras, uma infraestrutura fiável e resiliente é uma necessidade empresarial e um imperativo regulamentar. Para garantir que as cargas de trabalho de FSI no Google Cloud são fiáveis, tem de compreender e mitigar potenciais pontos de falha, implementar recursos de forma redundante e planear a recuperação. A resiliência operacional é um resultado da fiabilidade. É a capacidade de absorver, adaptar-se e recuperar de interrupções. A resiliência operacional ajuda as organizações de FSI a cumprir requisitos regulamentares rigorosos. Também ajuda a evitar danos intoleráveis aos clientes.

Os elementos essenciais da fiabilidade são as regiões, as zonas e os vários âmbitos de localização dos recursos na nuvem: zonal, regional, multirregional e global. Google Cloud Pode melhorar a disponibilidade usando serviços geridos, distribuindo recursos, implementando padrões de alta disponibilidade e automatizando processos.

Requisitos regulamentares

As organizações de ISF operam sob mandatos de fiabilidade rigorosos de agências reguladoras, como o Federal Reserve System nos EUA, a Autoridade Bancária Europeia na UE e a Prudential Regulation Authority no Reino Unido. A nível global, os reguladores enfatizam a resiliência operacional, que é vital para a estabilidade financeira e a proteção do consumidor. A resiliência operacional é a capacidade de resistir a interrupções, recuperar de forma eficaz e manter serviços críticos. Isto requer uma abordagem harmonizada para gerir os riscos tecnológicos e as dependências de terceiros.

Os requisitos regulamentares na maioria das jurisdições têm os seguintes temas comuns:

  • Cibersegurança e resiliência tecnológica: reforçar as defesas contra ciberameaças e garantir a resiliência dos sistemas de TI.
  • Gestão de riscos de terceiros: gestão dos riscos associados à subcontratação de serviços a fornecedores de tecnologias de informação e comunicação (TIC).
  • Continuidade do negócio e resposta a incidentes: planeamento robusto para manter as operações críticas durante as interrupções e para recuperar de forma eficaz.
  • Proteger a estabilidade financeira: garantir a solidez e a estabilidade do sistema financeiro em geral.

As recomendações de fiabilidade neste documento estão mapeadas para os seguintes princípios fundamentais:

Dê prioridade a implementações multirregionais e em várias zonas

Para aplicações de serviços financeiros críticas, recomendamos que use uma topologia de várias regiões distribuída por, pelo menos, duas regiões e por três zonas em cada região. Esta abordagem é importante para a resiliência contra indisponibilidades de zonas e regiões. Os regulamentos prescrevem frequentemente esta abordagem, porque se ocorrer uma falha numa zona ou região, a maioria das jurisdições considera uma interrupção grave numa segunda zona uma consequência plausível. A razão é que, quando uma localização falha, a outra localização pode receber uma quantidade excecionalmente elevada de tráfego adicional.

Considere as seguintes recomendações para criar resiliência contra interrupções ao nível da zona e da região:

  • Preferir recursos com um âmbito geográfico mais amplo. Sempre que possível, use recursos regionais em vez de recursos zonais e use recursos multirregionais ou globais em vez de recursos regionais. Esta abordagem ajuda a evitar a necessidade de restaurar operações através de cópias de segurança.
  • Em cada região, tire partido de três zonas em vez de duas. Para processar as comutações por falha, aumente a capacidade em um terço em relação à estimativa.
  • Minimize os passos de recuperação manual implementando implementações ativas-ativas, como os seguintes exemplos:
    • As bases de dados distribuídas, como o Spanner, oferecem redundância incorporada e sincronização entre regiões.
    • A funcionalidade de HA do Cloud SQL oferece uma topologia quase ativa-ativa, com réplicas de leitura em várias zonas. Oferece um objetivo de ponto de recuperação (OPR) entre regiões próximo de 0.
  • Distribua o tráfego de utilizadores por várias regiões através do Cloud DNS e implemente um balanceador de carga regional em cada região. Um equilibrador de carga global é outra opção que pode considerar consoante os seus requisitos e criticidade. Para mais informações, consulte o artigo Vantagens e riscos do balanceamento de carga global para implementações em várias regiões.
  • Para armazenar dados, use serviços multirregionais como o Spanner e o Cloud Storage.

Elimine pontos únicos de falha

Distribua os recursos por diferentes localizações e use recursos redundantes para evitar que um único ponto de falha (SPOF) afete toda a pilha de aplicações.

Considere as seguintes recomendações para evitar SPOFs:

Para mais informações, consulte o artigo Crie uma infraestrutura fiável para as suas cargas de trabalho no Google Cloud.

Compreenda e faça a gestão da disponibilidade agregada

Tenha em atenção que a disponibilidade geral ou agregada de um sistema é afetada pela disponibilidade de cada nível ou componente do sistema. O número de camadas numa pilha de aplicações tem uma relação inversa com a disponibilidade agregada da pilha. Considere as seguintes recomendações para gerir a disponibilidade agregada:

  • Calcule a disponibilidade agregada de uma pilha de vários níveis através da fórmula disponibilidade_nível1 × disponibilidade_nível2 × disponibilidade_nívelN.

    O diagrama seguinte mostra o cálculo da disponibilidade agregada para um sistema de vários níveis composto por quatro serviços:

    A fórmula de disponibilidade agregada para um serviço de vários níveis que tem quatro serviços.

    No diagrama anterior, o serviço em cada nível oferece uma disponibilidade de 99,9%, mas a disponibilidade agregada do sistema é inferior, de 99,6% (0,999 × 0,999 × 0,999 × 0,999). Em geral, a disponibilidade agregada de uma pilha de vários níveis é inferior à disponibilidade do nível que oferece a menor disponibilidade.

  • Sempre que possível, escolha a paralelização em vez da encadeamento. Com os serviços paralelizados, a disponibilidade ponto a ponto é superior à disponibilidade de cada serviço individual.

    O diagrama seguinte mostra dois serviços, A e B, implementados através das abordagens de encadeamento e paralelização:

    As fórmulas de disponibilidade agregada para serviços encadeados em comparação com serviços paralelizados.

    Nos exemplos anteriores, ambos os serviços têm um SLA de 99%, o que resulta na seguinte disponibilidade agregada, consoante a abordagem de implementação:

    • Os serviços encadeados geram uma disponibilidade agregada de apenas 98% (0,99 × 0,99).
    • Os serviços paralelizados geram uma disponibilidade agregada mais elevada de 99,99%, porque cada serviço é executado de forma independente e os serviços individuais não são afetados pela disponibilidade dos outros serviços. A fórmula para serviços paralelizados agregados é 1 − (1 − A) × (1 − B).
  • Escolha Google Cloud serviços com SLAs de tempo de atividade que podem ajudar a cumprir o nível necessário de tempo de atividade geral para a sua pilha de aplicações.

  • Quando cria a sua arquitetura, considere os compromissos entre a disponibilidade, a complexidade operacional, a latência e o custo. Aumentar o número de noves de disponibilidade geralmente custa mais, mas fazê-lo ajuda a cumprir os requisitos regulamentares.

    Por exemplo, uma disponibilidade de 99,9% (três noves) significa um potencial tempo de inatividade de 86 segundos num dia de 24 horas. Em contrapartida, 99% (dois noves) significa um tempo de inatividade de 864 segundos durante o mesmo período, o que representa 10 vezes mais tempo de inatividade do que com três noves de disponibilidade.

    Para serviços financeiros críticos, as opções de arquitetura podem ser limitadas. No entanto, é fundamental identificar os requisitos de disponibilidade e calcular a disponibilidade com precisão. A realização de tal avaliação ajuda a avaliar as implicações das suas decisões de design na sua arquitetura e orçamento.

Implemente uma estratégia de recuperação de desastres robusta

Crie planos bem definidos para diferentes cenários de desastre, incluindo interrupções zonais e regionais. Uma estratégia de recuperação de desastres (RD) bem definida permite-lhe recuperar de uma interrupção e retomar as operações normais com um impacto mínimo.

A RD e a alta disponibilidade (AD) são conceitos diferentes. Com as implementações na nuvem, em geral, a recuperação de desastres aplica-se a implementações multirregionais e a alta disponibilidade aplica-se a implementações regionais. Estes arquétipos de implementação suportam diferentes mecanismos de replicação.

  • HA: muitos serviços geridos oferecem replicação síncrona entre zonas numa única região por predefinição. Estes serviços suportam um objetivo de tempo de recuperação (RTO) e um objetivo de ponto de recuperação (RPO) de zero ou quase zero. Este suporte permite-lhe criar uma topologia de implementação ativa-ativa que não tem nenhum SPOF.
  • DR: para cargas de trabalho implementadas em duas ou mais regiões, se não usar serviços multirregionais ou globais, tem de definir uma estratégia de replicação. Normalmente, a estratégia de replicação é assíncrona. Avalie cuidadosamente como essa replicação afeta o RTO e o RPO para aplicações críticas. Identifique as operações manuais ou semiautomáticas necessárias para a comutação por falha.

Para instituições financeiras, a sua escolha da região de alternativa pode estar limitada por regulamentos relativos à soberania e à residência dos dados. Se precisar de uma topologia ativo-ativo em duas regiões, recomendamos que escolha serviços multirregionais geridos, como o Spanner e o Cloud Storage, especialmente quando a replicação de dados é fundamental.

Considere as seguintes recomendações:

  • Use serviços de armazenamento multirregionais geridos para dados.
  • Tire capturas instantâneas de dados em discos persistentes e armazene-as em localizações multirregionais.
  • Quando usa recursos regionais ou zonais, configure a replicação de dados para outras regiões.
  • Valide se os seus planos de recuperação de desastres são eficazes testando-os regularmente.
  • Tenha em atenção o RTO e o RPO, bem como a respetiva correlação com a tolerância ao impacto estipulada pelos regulamentos financeiros na sua jurisdição.

Para mais informações, consulte o artigo Arquitetar a recuperação de desastres para interrupções da infraestrutura na nuvem.

Aproveite os serviços geridos

Sempre que possível, use serviços geridos para tirar partido das funcionalidades incorporadas para cópias de segurança, HA e escalabilidade. Considere as seguintes recomendações para usar serviços geridos:

  • Use serviços geridos no Google Cloud. Oferecem HA com base em SLAs. Também oferecem mecanismos de cópia de segurança integrados e funcionalidades de resiliência.
  • Para a gestão de dados, considere serviços como o Cloud SQL, Cloud Storage, e o Spanner,
  • Para a computação e o alojamento de aplicações, considere os grupos de instâncias geridas (GIGs) do Compute Engine e os clusters do Google Kubernetes Engine (GKE). Os GIGs regionais e os clusters regionais do GKE são resilientes a falhas de zonas.
  • Para melhorar a resiliência em caso de interrupções regionais, use serviços multirregionais geridos.
  • Identifique a necessidade de planos de saída para serviços com características únicas e defina os planos necessários. Os reguladores financeiros, como a FCA, a PRA e a EBA, exigem que as empresas tenham estratégias e planos de contingência para a obtenção de dados e a continuidade operacional se a relação com um fornecedor de nuvem terminar. As empresas têm de avaliar a viabilidade da saída antes de celebrar contratos de nuvem e têm de manter a capacidade de alterar fornecedores sem interrupções operacionais.
  • Verifique se os serviços que escolher suportam a exportação de dados para um formato aberto, como CSV, Parquet e Avro. Verifique se os serviços se baseiam em tecnologias abertas, como o suporte do GKE para o formato da Open Container Initiative (OCI) ou o Cloud Composer criado no Apache Airflow.

Automatize os processos de aprovisionamento e recuperação de infraestruturas

A automatização ajuda a minimizar os erros humanos e a reduzir o tempo e os recursos necessários para responder a incidentes. A utilização da automatização pode ajudar a garantir uma recuperação mais rápida de falhas e resultados mais consistentes. Considere as seguintes recomendações para automatizar o aprovisionamento e a recuperação de recursos:

  • Minimize os erros humanos através de ferramentas de infraestrutura como código (IaC), como o Terraform.
  • Reduza a intervenção manual automatizando os processos de comutação por falha. As respostas automáticas também podem ajudar a reduzir o impacto das falhas. Por exemplo, pode usar o Eventarc ou os Workflows para acionar automaticamente ações corretivas em resposta a problemas observados através dos registos de auditoria.
  • Aumente a capacidade dos seus recursos na nuvem durante a comutação por falha através do dimensionamento automático.
  • Aplique automaticamente políticas e salvaguardas para requisitos regulamentares na topologia da nuvem durante a implementação de serviços através da adoção da engenharia de plataformas.

Perspetiva de FSI: otimização de custos

Este documento no Google Cloud Well-Architected Framework: perspetiva da FSI oferece uma vista geral dos princípios e das recomendações para otimizar o custo dos seus workloads da indústria de serviços financeiros (FSI) no Google Cloud. As recomendações neste documento estão alinhadas com o pilar de otimização de custos da Well-Architected Framework.

A otimização de custos robusta para cargas de trabalho de serviços financeiros requer os seguintes elementos fundamentais:

  • A capacidade de identificar a utilização de recursos desperdiçados em comparação com a utilização de recursos que geram valor.
  • Uma cultura incorporada de responsabilidade financeira.

Para otimizar os custos, precisa de compreender detalhadamente os fatores de custo e as necessidades de recursos em toda a sua organização. Em algumas organizações grandes, especialmente nas que estão no início do percurso na nuvem, uma única equipa é frequentemente responsável por otimizar os gastos num grande número de domínios. Esta abordagem parte do princípio de que uma equipa central está melhor posicionada para identificar oportunidades de elevado valor para melhorar a eficiência.

A abordagem centralizada pode ter algum sucesso durante as fases iniciais da adoção da nuvem ou para cargas de trabalho não críticas. No entanto, uma única equipa não pode gerar otimização de custos em toda uma organização. Quando a utilização de recursos ou o nível de controlo regulamentar aumenta, a abordagem centralizada não é sustentável. As equipas centralizadas enfrentam desafios de escalabilidade, particularmente quando lidam com um grande número de produtos e serviços financeiros. As equipas de projeto proprietárias dos produtos e serviços podem resistir a alterações feitas por uma equipa externa.

Para uma otimização de custos eficaz, os dados relacionados com os gastos têm de ser altamente visíveis, e os engenheiros e outros utilizadores da nuvem que estão próximos das cargas de trabalho têm de estar motivados para tomar medidas de otimização de custos. Do ponto de vista organizacional, o desafio da otimização de custos é identificar as áreas que devem ser otimizadas, identificar os engenheiros responsáveis por essas áreas e, em seguida, convencê-los a tomar a ação de otimização necessária. Este documento fornece recomendações para resolver este desafio.

As recomendações de otimização de custos neste documento estão mapeadas para os seguintes princípios fundamentais:

Identifique os resíduos através de Google Cloud ferramentas

Google Cloud oferece vários produtos, ferramentas e funcionalidades para ajudar a identificar o desperdício. Considere as seguintes recomendações.

Use a automatização e a IA para identificar sistematicamente o que otimizar

O Active Assist oferece recomendações inteligentes em serviços essenciais para as IFs, como o Cloud Run para microsserviços, o BigQuery para estatísticas de dados, o Compute Engine para aplicações principais e o Cloud SQL para bases de dados relacionais. As recomendações do Active Assist são fornecidas sem custo financeiro e sem qualquer configuração da sua parte. As recomendações ajudam a identificar recursos inativos e compromissos subutilizados.

Centralize a monitorização e o controlo de FinOps através de uma interface unificada

Os relatórios do Cloud Billing e o hub de FinOps permitem-lhe implementar uma monitorização de custos abrangente. Esta vista abrangente é essencial para os auditores financeiros e as equipas financeiras internas acompanharem os gastos na nuvem, avaliarem a situação financeira, avaliarem a maturidade das FinOps em várias unidades de negócio ou centros de custos e fornecerem uma narrativa financeira consistente.

Identifique o valor através da análise e do enriquecimento dos dados de gastos

O Active Assist é eficaz na identificação de desperdícios óbvios. No entanto, pode ser mais difícil identificar o valor, especialmente quando as cargas de trabalho estão em produtos inadequados ou quando as cargas de trabalho não têm um alinhamento claro com o valor empresarial. Para cargas de trabalho de FSI, o valor empresarial vai além da redução de custos. O valor inclui a mitigação de riscos, a conformidade regulamentar e a obtenção de vantagens competitivas.

Para compreender os gastos e o valor da nuvem de forma holística, precisa de uma compreensão completa a vários níveis: de onde vêm os gastos, que função empresarial os gastos estão a gerar e a viabilidade técnica de refatorar ou otimizar a carga de trabalho em questão.

O diagrama seguinte mostra como pode aplicar a pirâmide de dados-informações-conhecimentos-sabedoria (DIKW) e as Google Cloud ferramentas para obter uma compreensão holística dos custos e do valor da nuvem.

A pirâmide de dados-informações-conhecimento-sabedoria (DIKW) mostra como usar os dados de gastos na nuvem para fundamentar as decisões.

O diagrama anterior mostra como pode usar a abordagem DIKW para refinar os dados de gastos na nuvem brutos em estatísticas acionáveis e decisões que geram valor empresarial.

  • Dados: nesta camada, recolhe streams não processadas de dados de utilização e de custos para os seus recursos da nuvem. A sua equipa central de FinOps usa ferramentas como faturas do Cloud Billing, exportações de faturação e o Cloud Monitoring para obter dados detalhados e específicos. Por exemplo, um ponto de dados pode ser que uma VM denominada app1-test-vmA foi executada durante 730 horas na região us-central1 e custou 70 USD.
  • Informações: nesta camada, a sua equipa central de FinOps usa ferramentas como os relatórios de faturação do Google Cloud e o FinOps Hub para estruturar os dados não processados de modo a ajudar a responder a perguntas como "Em que categorias de recursos as pessoas estão a gastar dinheiro?" Por exemplo, pode descobrir que foi gasto um total de 1050 USD em VMs do tipo de máquina n4-standard-2 em duas regiões nos EUA.
  • Conhecimento: nesta camada, a sua equipa central de FinOps enriquece as informações com o contexto empresarial adequado sobre quem gastou dinheiro e com que finalidade. Usa mecanismos como a etiquetagem, a etiquetagem, a hierarquia de recursos, as contas de faturação e os painéis de controlo personalizados do Looker. Por exemplo, pode determinar que a equipa de testes app1 nos EUA gastou 650 USD durante a segunda semana de julho como parte de um exercício de teste de esforço.
  • Sabedoria: nesta camada, as equipas de produtos e aplicações usam o conhecimento contextualizado para avaliar o valor empresarial dos gastos na nuvem e tomar decisões estratégicas informadas. As suas equipas podem responder a perguntas como as seguintes:
    • Os 5000 USD gastos num pipeline de análise de dados estão a gerar valor empresarial?
    • Podemos reestruturar o pipeline para ser mais eficiente sem reduzir o desempenho?

Considere as seguintes recomendações para analisar os dados de gastos na nuvem.

Analise os dados de gastos fornecidos por Google Cloud

Comece com dados detalhados da faturação do Google Cloud exportados para o BigQuery e dados disponíveis nos registos do Monitoring. Para obter estatísticas acionáveis e tomar decisões, tem de estruturar estes dados e enriquecê-los com o contexto empresarial.

Visualize dados através das ferramentas disponíveis

Aumente os Google Cloud painéis de controlo incorporados com relatórios personalizados através de ferramentas como o Looker Studio com base nas exportações do BigQuery. As equipas financeiras podem criar painéis de controlo personalizados que contextualizam os gastos na nuvem em função das métricas financeiras, dos requisitos de relatórios regulamentares e da rentabilidade da unidade de negócio. Em seguida, podem fornecer uma narrativa financeira clara para análise e tomada de decisões por parte dos intervenientes executivos.

Atribua gastos para incentivar a responsabilidade

Depois de compreender o que está a gerar os gastos na nuvem, tem de identificar quem está a gastar dinheiro e porquê. Este nível de compreensão requer uma prática de atribuição de custos robusta, que envolve anexar metadados relevantes para a empresa a recursos na nuvem. Por exemplo, se um recurso específico for usado pela equipa de desenvolvimento de apps bancárias, pode anexar uma etiqueta como team=banking_appdev ao recurso para acompanhar o custo que a equipa incorre nesse recurso. Idealmente, deve atribuir 100% dos seus custos da nuvem à origem dos gastos. Na prática, pode começar com um alvo mais baixo, uma vez que a criação de uma estrutura de metadados para suportar a atribuição de custos de 100% é um esforço complexo.

Considere as seguintes recomendações para desenvolver uma estratégia de metadados que suporte a atribuição de custos:

  • Validade: certifique-se de que as etiquetas ajudam a identificar os indicadores essenciais de desempenho (IEDs) relacionados com a empresa e os requisitos regulamentares. Esta associação é fundamental para as reversões de cobranças internas, os relatórios regulamentares e o alinhamento dos gastos na nuvem com os objetivos da unidade de negócio. Por exemplo, as seguintes etiquetas identificam claramente uma equipa de gastos, a respetiva região e o produto no qual trabalham: team=banking_appdev, region=emea, product=frontend.
  • Automatização: para alcançar um nível elevado de conformidade com a etiquetagem, aplique a etiquetagem através da automatização. A etiquetagem manual é propensa a erros e inconsistências, o que é inaceitável em ambientes de ISF onde a capacidade de auditoria e a precisão financeira são fundamentais. A etiquetagem automática garante que os recursos são categorizados corretamente quando são criados.
  • Simplicidade: meça fatores simples e não correlacionados. Os ambientes de FSI são complexos. Para garantir que as regras de atribuição de custos num ambiente deste tipo são fáceis de compreender e aplicar, as regras têm de ser o mais simples possível. Evite criar regras demasiado complexas para casos altamente específicos (casos extremos). As regras complexas podem gerar confusão e resistência por parte das equipas operacionais.

Depois de definir uma estratégia de atribuição através de etiquetas, tem de decidir o nível de detalhe ao qual a estratégia deve ser implementada. A granularidade necessária depende das necessidades da sua empresa. Por exemplo, algumas organizações podem ter de acompanhar os custos ao nível do produto, outras podem precisar de dados de custos para cada centro de custos e outras podem precisar de dados de custos por ambiente (desenvolvimento, preparação e produção).

Considere as seguintes abordagens para alcançar o nível adequado de detalhe da atribuição de custos para a sua organização:

  • Use a hierarquia do projeto no Google Cloud como ponto de partida natural para a atribuição de custos. Os projetos representam pontos de aplicação de políticas no Google Cloud. Por predefinição, as autorizações do IAM, as políticas de segurança e os custos são atribuídos a projetos e pastas. Quando revê os dados de custos exportados da Faturação na nuvem, pode ver a hierarquia de pastas e os projetos associados aos dados de custos. Se a hierarquia de recursos refletir a estrutura de responsabilidade da sua organização para os gastos, esta é a forma mais simples de implementar a atribuição de custos.Google Cloud
  • Use etiquetas e rótulos para uma granularidade adicional. Oferecem formas flexíveis de categorizar os recursos nas exportações de faturação. As etiquetas e os marcadores facilitam as discriminações detalhadas dos custos por aplicação e ambiente.

Muitas vezes, pode ter de usar a hierarquia do projeto combinada com a etiquetagem e a etiquetagem para uma atribuição de custos eficaz. Independentemente da abordagem de atribuição de custos que escolher, siga as recomendações descritas anteriormente para desenvolver uma estratégia de metadados robusta: validação, automatização e simplicidade.

Promova a responsabilização e motive os engenheiros a tomarem medidas

A equipa de FinOps na nuvem é responsável por levar uma organização a ter consciência dos custos e do valor. As equipas de engenharia e de produtos individuais têm de tomar as medidas necessárias para a otimização de custos. Estas equipas também são responsáveis pelo comportamento dos custos das cargas de trabalho dos serviços financeiros e por garantir que as respetivas cargas de trabalho oferecem o valor empresarial necessário.

Considere as seguintes recomendações para promover a responsabilização e motivar as equipas a otimizar os custos.

Estabeleça uma equipa de FinOps centralizada para a governação

As práticas de FinOps na nuvem não crescem de forma orgânica. Uma equipa de FinOps dedicada tem de definir e estabelecer práticas de FinOps fazendo o seguinte:

  • Criar os processos, as ferramentas e as orientações necessários.
  • Criar, comunicar e aplicar as políticas necessárias, como etiquetagem obrigatória, revisões de orçamentos e processos de otimização.
  • Incentive as equipas de engenharia a serem responsáveis pelos custos.
  • Intervenha quando as equipas de engenharia não assumem a responsabilidade pelos custos.

Obtenha patrocínio e mandatos executivos

A liderança sénior, incluindo o diretor de tecnologia (CTO), o diretor financeiro (CFO) e o diretor de informação (CIO), tem de defender ativamente uma mudança a nível de toda a organização para uma cultura de FinOps. O apoio da liderança é fundamental para priorizar a responsabilidade pelos custos, atribuir recursos ao programa FinOps, garantir a participação multifuncional e promover a conformidade com os requisitos do FinOps.

Incentive as equipas a otimizar os custos

Os engenheiros e as equipas de engenharia podem não ter motivação própria para se focarem na otimização de custos. É importante alinhar os objetivos da equipa e individuais com a eficiência de custos através da implementação de incentivos, como os seguintes:

  • Reinvestir uma parte das poupanças da otimização de custos nas equipas que alcançaram a otimização.
  • Reconheça e celebre publicamente os esforços e os sucessos de otimização de custos.
  • Use técnicas de gamificação para recompensar as equipas que otimizam os custos de forma eficaz.
  • Integre as métricas de eficiência nos objetivos de desempenho.

Implemente técnicas de showback e chargeback

Certifique-se de que as equipas têm uma visibilidade clara dos recursos e custos da nuvem que detêm. Atribuir a responsabilidade financeira aos indivíduos adequados nas equipas. Use mecanismos formais para aplicar uma etiquetagem rigorosa e implementar regras transparentes para a atribuição de custos partilhados.

Foque-se no valor e no CCT em vez do custo

Quando avaliar soluções na nuvem, considere o custo total de propriedade (TCO) a longo prazo. Por exemplo, a auto-hospedagem de uma base de dados para uma aplicação pode parecer mais barata do que usar um serviço de base de dados gerido como o Cloud SQL. No entanto, para avaliar o valor a longo prazo e o CTT, tem de considerar os custos ocultos associados a bases de dados alojadas por si. Estes custos incluem o esforço de engenharia dedicado para aplicação de patches, escalabilidade, reforço da segurança e recuperação de desastres, que são requisitos críticos para cargas de trabalho de FSI. Os serviços geridos oferecem um valor a longo prazo significativamente mais elevado, o que compensa os custos de infraestrutura. Os serviços geridos oferecem capacidades de conformidade robustas, têm funcionalidades de fiabilidade incorporadas e podem ajudar a reduzir os seus custos gerais operacionais.

Considere as seguintes recomendações para se focar no valor e no CCT.

Use técnicas e ferramentas específicas do produto para a otimização de recursos

Tire partido das ferramentas e funcionalidades de otimização de custos fornecidas pelos Google Cloud produtos, como as seguintes:

Tire partido dos descontos

Certifique-se de que a taxa de faturação dos seus recursos na nuvem é o mais baixa possível através de descontos oferecidos pela Google. Normalmente, as equipas individuais de produtos e engenharia gerem a otimização de recursos. A equipa central de FinOps é responsável pela otimização das taxas de faturação porque tem visibilidade dos requisitos de recursos em toda a organização. Por conseguinte, podem agregar os requisitos e maximizar os descontos baseados em compromissos.

Pode tirar partido dos seguintes tipos de descontos para Google Cloud recursos:

  • Os descontos empresariais são descontos negociados com base no compromisso da sua organização de um gasto total mínimo no Google Cloud a uma taxa de faturação reduzida.
  • Os CUDs baseados em recursos destinam-se a uma troca por um compromisso de usar uma quantidade mínima de recursos do Compute Engine durante um período de um ano ou três anos. Os CUDs baseados em recursos são aplicáveis aos recursos que se encontram num projeto e numa região específicos. Para partilhar CUDs em vários projetos, pode ativar a partilha de descontos.
  • Os CUDs baseados em gastos são em troca de um compromisso de gastar um valor mínimo de dinheiro num produto específico durante um período de um ano ou três anos. Os descontos baseados em gastos são aplicáveis ao nível da conta de faturação. Os descontos são aplicados regional ou globalmente, consoante o produto.

Pode conseguir poupanças significativas usando CUDs além dos descontos empresariais.

Além dos CUDs, use as seguintes abordagens para reduzir as taxas de faturação:

  • Use VMs do Spot para cargas de trabalho flexíveis e com tolerância a falhas. As VMs de capacidade disponível são mais de 80% mais baratas do que as VMs normais.
  • O BigQuery oferece vários modelos de preços, incluindo preços a pedido e preços baseados em edições que se baseiam em compromissos e requisitos de escalabilidade automática. Se usar um volume significativo de recursos do BigQuery, escolha uma edição adequada para reduzir o custo por slot para cargas de trabalho de análise.
  • Avalie cuidadosamente as Google Cloud regiões disponíveis para os serviços que precisa de usar. Escolha regiões que se alinhem com os seus objetivos de custos e fatores como a latência e os requisitos de conformidade. Para compreender as compromissos entre o custo, a sustentabilidade e a latência, use o Google Cloud seletor de regiões.

Perspetiva de FSI: otimização do desempenho

Este documento no Google Cloud Well-Architected Framework: perspetiva de FSI oferece uma vista geral dos princípios e das recomendações para otimizar o desempenho das suas cargas de trabalho da indústria de serviços financeiros (FSI) no Google Cloud. As recomendações neste documento estão alinhadas com o pilar de otimização do desempenho da Well-Architected Framework.

A otimização do desempenho tem uma longa história nos serviços financeiros. Ajudou as organizações de serviços financeiros a ultrapassar os desafios técnicos e tem sido quase sempre um facilitador ou um acelerador para a criação de novos modelos de negócio. Por exemplo, as caixas multibanco (introduzidas em 1967) automatizaram o processo de dispensa de dinheiro e ajudaram os bancos a diminuir o custo da sua atividade principal. As técnicas como ignorar o kernel do SO e fixar threads de aplicações aos núcleos de computação ajudaram a alcançar uma latência determinística e baixa para as aplicações de negociação. A redução da latência facilitou uma liquidez mais elevada e firme com spreads mais apertados nos mercados financeiros.

A nuvem cria novas oportunidades de otimização do desempenho. Também desafia alguns dos padrões de otimização historicamente aceites. Especificamente, as seguintes concessões são mais transparentes e controláveis na nuvem:

  • Tempo de colocação no mercado versus custo.
  • Desempenho global ao nível do sistema em comparação com o desempenho ao nível do nó.
  • Disponibilidade de talentos versus agilidade da tomada de decisões relacionadas com tecnologia.

Por exemplo, adaptar o hardware e os recursos de TI a requisitos de competências específicos é uma tarefa simples na nuvem. Para suportar a programação de GPUs, pode criar facilmente VMs baseadas em GPUs. Pode dimensionar a capacidade na nuvem para acomodar picos de procura sem aprovisionar recursos em excesso. Esta capacidade ajuda a garantir que as suas cargas de trabalho conseguem processar picos de carga, como nos dias de folha de pagamentos não agrícola e quando os volumes de negociação são significativamente superiores aos níveis históricos. Em vez de gastar recursos na escrita de código altamente otimizado ao nível de servidores individuais (como código altamente ajustado na linguagem C) ou na escrita de código para ambientes de computação de alto desempenho (HPC) convencionais, pode expandir de forma ideal através de um sistema distribuído baseado em Kubernetes bem arquitetado.

As recomendações de otimização do desempenho neste documento estão mapeadas para os seguintes princípios fundamentais:

Alinhe as métricas de desempenho da tecnologia com os principais indicadores empresariais

Pode mapear a otimização do desempenho para resultados de valor empresarial de várias formas. Por exemplo, num departamento de investigação de compras, um objetivo empresarial pode ser otimizar o resultado por hora de investigação ou dar prioridade a experiências de equipas com um histórico comprovado, como ratios de Sharpe mais elevados. Do lado das vendas, pode usar as estatísticas para acompanhar o interesse dos clientes e, em conformidade, dar prioridade ao débito para modelos de IA que suportem a investigação mais interessante.

A associação dos objetivos de desempenho aos indicadores essenciais de desempenho (IEDs) da empresa também é importante para financiar as melhorias de desempenho. As iniciativas de inovação e transformação empresarial (por vezes, denominadas esforços de mudança da instituição financeira) têm orçamentos diferentes e, potencialmente, diferentes graus de acesso a recursos em comparação com as operações normais (BAU) ou de gestão da instituição financeira. Por exemplo, Google Cloud ajudou as equipas de gestão de riscos e tecnologia de uma G-SIFI a colaborar com os analistas quantitativos da linha de frente numa solução para fazer cálculos de estatísticas de risco (como XVA) em minutos, em vez de horas ou dias. Esta solução ajudou a organização a cumprir os requisitos de conformidade relevantes. Também permitiu que os negociadores tivessem conversas de maior qualidade com os seus clientes, oferecendo potencialmente spreads mais apertados, liquidez mais firme e cobertura mais rentável.

Quando alinhar as métricas de desempenho com os indicadores empresariais, tenha em consideração as seguintes recomendações:

  • Associe cada iniciativa tecnológica aos objetivos e resultados principais (OKRs) da empresa relevantes, como aumentar a receita ou o lucro, reduzir os custos e mitigar o risco de forma mais eficiente ou holística.
  • Foque-se na otimização do desempenho ao nível do sistema. Olhe para além da separação convencional entre a mudança de banco e a gestão do banco, e dos silos entre o front-office e o back-office.

Dê prioridade à segurança sem sacrificar o desempenho por riscos não comprovados

A segurança e a conformidade regulamentar nas organizações de FSI têm de ser inequivocamente de um padrão elevado. Manter um padrão elevado é essencial para evitar a perda de clientes e impedir danos irreparáveis na marca de uma organização. Muitas vezes, o valor mais elevado é derivado de inovações tecnológicas, como a IA generativa, e de serviços geridos únicos, como o Spanner. Não rejeite automaticamente essas opções tecnológicas devido a uma conceção errada generalizada sobre o risco operacional proibitivo ou a postura de conformidade regulamentar inadequada.

Google Cloud trabalhou em estreita colaboração com os G-SIFIs para garantir que é possível usar uma abordagem baseada em IA para o combate ao branqueamento de capitais (AML) nas jurisdições onde as instituições prestam serviços aos clientes. Por exemplo, a HSBC melhorou significativamente o desempenho da sua unidade de crimes financeiros (Fincrime) com os seguintes resultados:

  • Quase duas a quatro vezes mais atividade suspeita confirmada.
  • Redução dos custos operacionais devido à eliminação de mais de 60% dos falsos positivos e tempo de investigação focado apenas em alertas acionáveis de alto risco.
  • Resultados auditáveis e explicáveis para apoiar a conformidade regulamentar.

Considere as seguintes recomendações:

  • Confirme se os produtos que pretende usar podem ajudar a cumprir os requisitos de segurança, resiliência e conformidade para as jurisdições onde opera. Para alcançar este objetivo, trabalhe com as Google Cloud equipas de contas, as equipas de risco e as equipas de produtos.
  • Crie modelos mais poderosos e ofereça transparência aos clientes através da explicação da IA (por exemplo, a atribuição de valor de Shapley). As técnicas como a atribuição de valor de Shapley podem atribuir decisões do modelo a funcionalidades específicas ao nível da entrada.
  • Alcance a transparência para cargas de trabalho de IA generativa usando técnicas como citações de fontes, fundamentação e RAG.

  • Quando a capacidade de explicação não é suficiente, separe os passos de tomada de decisão nas suas streams de valor e use a IA para automatizar apenas os passos que não envolvem tomada de decisão. Em alguns casos, a IA explicável pode não ser suficiente ou um processo pode exigir intervenção humana devido a preocupações regulamentares (por exemplo, o Artigo 22 do RGPD). Nestes casos, apresente todas as informações de que o agente humano precisa para tomar decisões num único painel de controlo, mas automatize as tarefas de recolha, carregamento, manipulação e resumo de dados.

Repense a sua arquitetura para se adaptar a novas oportunidades e requisitos

Aumentar as suas arquiteturas atuais com capacidades baseadas na nuvem pode oferecer um valor significativo. Para alcançar resultados mais transformadores, tem de repensar periodicamente a sua arquitetura através de uma abordagem baseada na nuvem.

Considere as seguintes recomendações para repensar periodicamente a arquitetura das suas cargas de trabalho de modo a otimizar ainda mais o desempenho.

Use alternativas baseadas na nuvem aos sistemas e aos programadores de HPC no local

Para tirar partido de uma maior elasticidade, de uma postura de segurança melhorada e de capacidades de monitorização e governação extensivas, pode executar cargas de trabalho de HPC na nuvem ou aumentar as cargas de trabalho no local para a nuvem. No entanto, para determinados exemplos de utilização de modelagem numérica, como a simulação de estratégias de investimento ou a modelagem de XVA, a combinação do Kubernetes com o Kueue pode oferecer uma solução mais eficaz.

Mude para a programação baseada em gráficos para simulações

As simulações de Monte Carlo podem ter um desempenho muito melhor num sistema de execução baseado em gráficos, como o Dataflow. Por exemplo, o HSBC usa o Dataflow para executar cálculos de risco 16 vezes mais rápido em comparação com a abordagem anterior.

Execute plataformas de negociação e câmbios baseados na nuvem

As conversas com os Google Cloud clientes revelam que o princípio de Pareto 80/20 aplica-se aos requisitos de desempenho dos mercados e das aplicações de negociação.

  • Mais de 80% das aplicações de negociação não precisam de uma latência extremamente baixa. No entanto, tiram partido de vantagens significativas das capacidades de resiliência, segurança e elasticidade da nuvem. Por exemplo, BidFX, uma plataforma de vários negociadores de câmbios usa a nuvem para lançar novos produtos rapidamente e aumentar significativamente a respetiva disponibilidade e presença sem aumentar os recursos.
  • As restantes aplicações (menos de 20%) precisam de baixa latência (menos de um milissegundo), determinismo e equidade na entrega de mensagens. Convencionalmente, estes sistemas são executados em instalações de alojamento conjunto rígidas e caras. Cada vez mais, mesmo esta categoria de aplicações está a ser reformulada na nuvem, quer no limite ou como aplicações concebidas para a nuvem.

Prepare a sua tecnologia para o futuro de forma a satisfazer as necessidades empresariais atuais e futuras

Historicamente, muitas organizações de FSI criaram tecnologias proprietárias para obter uma vantagem competitiva. Por exemplo, no início dos anos 2000, os bancos de investimento e as empresas de negociação bem-sucedidos tinham as suas próprias implementações de tecnologias fundamentais, como sistemas de publicação/subscrição e agentes de mensagens. Com a evolução das tecnologias de código aberto e da nuvem, essas tecnologias tornaram-se mercadorias e não oferecem valor empresarial incremental.

Considere as seguintes recomendações para preparar a sua tecnologia para o futuro.

Adote uma abordagem de dados como serviço (DaaS) para um tempo de comercialização mais rápido e transparência de custos

As organizações de FSI evoluem frequentemente através de uma combinação de crescimento orgânico e fusões e aquisições (M&A). Como resultado, as organizações têm de integrar tecnologias distintas. Também têm de gerir recursos duplicados, como fornecedores de dados, licenças de dados e pontos de integração.A Google Cloud oferece oportunidades para criar valor diferenciado nas integrações pós-fusão.

Por exemplo, pode usar serviços como a partilha do BigQuery para criar uma plataforma de dados como serviço (DaaS) pronta para análise. A plataforma pode fornecer dados de mercado e informações de origens alternativas. Esta abordagem elimina a necessidade de criar pipelines de dados redundantes e permite-lhe focar-se em iniciativas mais valiosas. Além disso, as empresas unidas ou adquiridas podem racionalizar de forma rápida e eficiente as respetivas necessidades de licenciamento de dados e infraestrutura após a fusão. Em vez de se esforçar para adaptar e unir os dados e as operações existentes, a empresa combinada pode concentrar-se em novas oportunidades de negócio.

Crie uma camada de abstração para isolar os sistemas existentes e abordar os modelos de negócio emergentes

Cada vez mais, a vantagem competitiva dos bancos não é o sistema bancário principal, mas sim a camada da experiência do cliente. No entanto, os sistemas bancários antigos usam frequentemente aplicações monolíticas que foram desenvolvidas em linguagens como Cobol e estão integradas em toda a cadeia de valor bancária. Esta integração dificultou a separação das camadas da cadeia de valor, pelo que era quase impossível atualizar e modernizar esses sistemas.

Uma solução para resolver este desafio é usar uma camada de isolamento, como um sistema de gestão de APIs, ou uma camada de preparação, como o Spanner, que duplica o registo de dados e facilita a modernização dos serviços com estatísticas avançadas e IA. Por exemplo, o Deutsche Bank usou o Spanner para isolar o respetivo sistema bancário central antigo e iniciar o seu percurso de inovação.