Well-Architected Framework: perspectiva do setor de serviços financeiros (FSI)

Last reviewed 2025-07-28 UTC

Este documento no Google Cloud Well-Architected Framework descreve princípios e recomendações para ajudar você a projetar, criar e gerenciar aplicativos do setor de serviços financeiros (FSI, na sigla em inglês) no Google Cloud que atendam às suas metas operacionais, de segurança, confiabilidade, custo e desempenho.

O público-alvo deste documento inclui tomadores de decisões, arquitetos, administradores, desenvolvedores e operadores que projetam, criam, implantam e mantêm cargas de trabalho de FSI no Google Cloud. Exemplos de organizações de serviços financeiros que podem se beneficiar desta orientação incluem bancos, empresas de infraestrutura de pagamentos, seguradoras e operadores do mercado de capitais.

As organizações de serviços financeiros têm considerações específicas, principalmente para arquitetura e resiliência. Essas considerações são impulsionadas principalmente por requisitos regulatórios, de risco e de desempenho. Este documento fornece orientações gerais com base em considerações de design que observamos em uma ampla variedade de clientes de FSI no mundo todo. Se suas cargas de trabalho estão totalmente na nuvem ou em transição para implantações híbridas ou multicloud, as orientações neste documento ajudam você a projetar cargas de trabalho no Google Cloud para atender aos seus requisitos regulatórios e diversas perspectivas de risco. As orientações podem não abordar os desafios exclusivos de todas as organizações. Ela oferece uma base que atende a muitos dos principais requisitos regulamentares das organizações de serviços financeiros.

Um dos principais desafios ao projetar cargas de trabalho na nuvem é alinhar as implantações na nuvem com ambientes locais, principalmente quando o objetivo é ter abordagens consistentes de segurança, confiabilidade e resiliência. Os serviços de nuvem criam oportunidades para repensar fundamentalmente sua arquitetura e reduzir a sobrecarga de gerenciamento, otimizar custos, melhorar a segurança e aumentar a confiabilidade e a capacidade de recuperação.

As páginas a seguir descrevem princípios e recomendações específicos para cargas de trabalho de FSI em cada pilar do framework bem arquitetado:

Colaboradores

Autores:

Outros colaboradores:

Perspectiva de FSI: excelência operacional

Este documento do Google Cloud Well-Architected Framework: perspectiva do setor de serviços financeiros (FSI) fornece uma visão geral dos princípios e recomendações para criar, implantar e operar cargas de trabalho robustas do setor de serviços financeiros (FSI) no Google Cloud. Essas recomendações ajudam a configurar elementos básicos, como observabilidade, automação e escalonabilidade. As recomendações neste documento estão alinhadas ao pilar de excelência operacional do framework bem arquitetado.

A excelência operacional é fundamental para as cargas de trabalho de instituições financeiras em Google Cloud devido à natureza altamente regulamentada e sensível delas. A excelência operacional garante que as soluções de nuvem possam se adaptar às necessidades em evolução e atender aos seus requisitos de valor, desempenho, segurança e confiabilidade. Falhas nessas áreas podem resultar em perdas financeiras significativas, penalidades regulatórias e danos à reputação.

A excelência operacional oferece os seguintes benefícios para cargas de trabalho de instituições financeiras:

  • Mantenha a confiança e a reputação: as instituições financeiras dependem muito da confiança dos clientes. Interrupções operacionais ou violações de segurança podem prejudicar muito essa confiança e causar a perda de clientes. A excelência operacional ajuda a minimizar esses riscos.
  • Atender a requisitos rigorosos de conformidade regulatória: o FSI está sujeito a regulamentações numerosas e complexas, como:

    Processos operacionais, monitoramento e gerenciamento de incidentes robustos são essenciais para demonstrar a conformidade com as regulamentações e evitar penalidades.

  • Garantir a continuidade e a resiliência dos negócios: os mercados e serviços financeiros geralmente operam de forma contínua. Portanto, a alta disponibilidade e uma recuperação de desastres eficaz são fundamentais. Os princípios da excelência operacional orientam o design e a implementação de sistemas resilientes. O pilar de confiabilidade oferece mais orientações nessa área.

  • Proteja dados sensíveis: as instituições financeiras lidam com grandes quantidades de dados financeiros e de clientes altamente sensíveis. Controles operacionais fortes, monitoramento de segurança e resposta rápida a incidentes são cruciais para evitar violações de dados e manter a privacidade. O pilar de segurança oferece mais orientações nessa área.

  • Otimize a performance de aplicativos críticos: muitos aplicativos financeiros, como plataformas de negociação e análises em tempo real, exigem alta performance e baixa latência. Para atender a esses requisitos de performance, é necessário um design de computação, rede e armazenamento altamente otimizado. O pilar de otimização de performance oferece mais orientações nessa área.

  • Gerenciar custos de maneira eficaz: além da segurança e da confiabilidade, as instituições financeiras também se preocupam com a eficiência de custos. A excelência operacional inclui práticas para otimizar a utilização de recursos e gerenciar os gastos na nuvem. O pilar de otimização de custos oferece mais orientações nessa área.

As recomendações de excelência operacional neste documento são mapeadas para os seguintes princípios básicos:

Definir SLAs e os respectivos SLOs e SLIs

Em muitas organizações de FSI, a disponibilidade de aplicativos geralmente é classificada com base nas métricas de objetivo de tempo de recuperação (RTO) e objetivo de ponto de recuperação (RPO). Para aplicativos essenciais aos negócios que atendem clientes externos, também é possível definir um contrato de nível de serviço (SLA).

Os SLAs precisam de um framework de métricas que represente o comportamento do sistema do ponto de vista da satisfação do usuário. As práticas de engenharia de confiabilidade do site (SRE) oferecem uma maneira de alcançar o nível de confiabilidade do sistema desejado. Criar uma estrutura de métricas envolve definir e monitorar indicadores numéricos importantes para entender a integridade do sistema do ponto de vista do usuário. Por exemplo, métricas como latência e taxas de erro quantificam o desempenho de um serviço. Essas métricas são chamadas de indicadores de nível de serviço (SLIs). É fundamental desenvolver SLIs eficazes, porque eles fornecem os dados brutos necessários para avaliar a confiabilidade de forma objetiva.

Para definir SLAs, SLIs e SLOs significativos, considere as seguintes recomendações:

  • Desenvolva e defina SLIs para cada serviço crítico. Defina valores de meta que definam os níveis de performance aceitáveis.
  • Desenvolver e definir os objetivos de nível de serviço (SLOs) que correspondem aos SLIs. Por exemplo, um SLO pode declarar que 99,9% das solicitações precisam ter uma latência inferior a 200 milissegundos.
  • Identifique as ações corretivas internas que precisam ser tomadas se um serviço não atender aos SLOs. Por exemplo, para melhorar a capacidade de recuperação da plataforma, talvez seja necessário concentrar os recursos de desenvolvimento na correção de problemas.
  • Valide o requisito de SLA para cada serviço e reconheça o SLA como o contrato formal com os usuários do serviço.

Exemplos de níveis de serviço

A tabela a seguir fornece exemplos de SLIs, SLOs e SLAs para uma plataforma de pagamento:

Métrica de negócios SLI SLO SLA
Pagamento concluído

Uma medida quantitativa da porcentagem de todas as transações de pagamento iniciadas que são processadas e confirmadas com sucesso.

Exemplo: (número de transações bem-sucedidas ÷ número total de transações válidas) × 100, medido em uma janela móvel de 5 minutos.

Uma meta interna para manter uma alta porcentagem de transações de pagamento bem-sucedidas em um período específico.

Exemplo: mantenha uma taxa de sucesso de transações de pagamento de 99,98% em uma janela contínua de 30 dias, excluindo solicitações inválidas e manutenção planejada.

Uma garantia contratual para a taxa de sucesso e a velocidade do processamento de transações de pagamento.

Exemplo: o provedor de serviços garante que 99% das transações de pagamento iniciadas pelo cliente serão processadas e confirmadas em um segundo.

Latência de processamento de pagamentos

O tempo médio gasto para processar uma transação de pagamento desde o início pelo cliente até a confirmação final.

Exemplo: tempo médio de resposta em milissegundos para confirmação de transação, medido em uma janela contínua de cinco minutos.

Uma meta interna para a velocidade com que as transações de pagamento são processadas.

Exemplo: garantir que 99,5% das transações de pagamento sejam processadas em até 400 milissegundos em uma janela contínua de 30 dias.

Um compromisso contratual para resolver problemas críticos de processamento de pagamentos em um período especificado.

Exemplo: para problemas críticos de processamento de pagamentos (definidos como uma interrupção que afeta mais de 1% das transações), o provedor de serviços se compromete a resolver o problema em até duas horas a partir do momento em que ele é informado ou detectado.

Disponibilidade da plataforma

A porcentagem de tempo em que a API principal de processamento de pagamentos e a interface do usuário estão operacionais e acessíveis aos clientes.

Exemplo: (tempo operacional total − tempo de inatividade) ÷ tempo operacional total × 100, medido por minuto.

Uma meta interna para o tempo de atividade da plataforma principal de pagamentos.

Exemplo: alcance 99,995% de disponibilidade da plataforma por mês civil, excluindo janelas de manutenção programada.

Um compromisso formal e juridicamente vinculativo com os clientes sobre o tempo mínimo de atividade da plataforma de pagamento, incluindo as consequências em caso de não cumprimento.

Exemplo: a plataforma vai manter uma disponibilidade mínima de 99,9% por mês civil, excluindo janelas de manutenção programadas. Se a disponibilidade ficar abaixo do nível mínimo, o cliente vai receber um crédito de serviço de 5% da taxa mensal por cada queda de 0,1%.

Use dados de SLI para monitorar se os sistemas estão dentro dos SLOs definidos e garantir que os SLAs sejam atendidos. Ao usar um conjunto de SLIs bem definidas, engenheiros e desenvolvedores podem monitorar aplicativos de FSI nos seguintes níveis:

  • Diretamente no serviço em que os aplicativos são implantados, como GKE ou Cloud Run.
  • Usando registros fornecidos por componentes de infraestrutura, como o balanceador de carga.

O OpenTelemetry fornece um padrão de código aberto e um conjunto de tecnologias para capturar todos os tipos de telemetria, incluindo métricas, traces e registros. O Google Cloud Managed Service para Prometheus oferece um back-end totalmente gerenciado e altamente escalonável para métricas e operação do Prometheus em grande escala.

Para mais informações sobre SLI, SLO e orçamentos de erro, consulte o manual de SRE.

Para desenvolver painéis e mecanismos de alerta e monitoramento eficazes, use as ferramentas do Google Cloud Observability com o Google Cloud Monitoring. Para informações sobre recursos de monitoramento e detecção específicos de segurança, consulte o pilar de segurança.

Definir e testar processos de gerenciamento de incidentes

Processos de gerenciamento de incidentes bem definidos e testados regularmente contribuem diretamente para o valor, o desempenho, a segurança e a confiabilidade das cargas de trabalho de FSI em Google Cloud. Esses processos ajudam as instituições financeiras a atender aos requisitos regulamentares rigorosos, proteger dados sensíveis, manter a continuidade dos negócios e preservar a confiança dos clientes.

Testes regulares dos processos de gerenciamento de incidentes oferecem os seguintes benefícios:

  • Manter o desempenho em cargas de pico: testes regulares de desempenho e carga ajudam as instituições financeiras a garantir que os aplicativos e a infraestrutura baseados na nuvem possam lidar com volumes de transações de pico, volatilidade do mercado e outros cenários de alta demanda sem degradação do desempenho. Esse recurso é crucial para manter uma experiência do usuário perfeita e atender às demandas dos mercados financeiros.
  • Identifique possíveis gargalos e limitações: o teste de estresse leva os sistemas ao limite e permite que as instituições financeiras identifiquem possíveis gargalos e limitações de desempenho antes que eles afetem as operações críticas. Essa abordagem proativa permite que as instituições financeiras ajustem a infraestrutura e os aplicativos para ter desempenho e escalonabilidade ideais.
  • Validar a confiabilidade e a resiliência: testes regulares, incluindo engenharia do caos ou falhas simuladas, ajudam a validar a confiabilidade e a resiliência dos sistemas financeiros. Esse teste garante que os sistemas possam se recuperar de falhas e manter a alta disponibilidade, o que é essencial para a continuidade dos negócios.
  • Faça um planejamento de capacidade eficaz: o teste de desempenho fornece dados valiosos sobre a utilização de recursos em diferentes condições de carga, o que é crucial para um planejamento de capacidade preciso. As instituições financeiras podem usar esses dados para antecipar de forma proativa as necessidades futuras de capacidade e evitar problemas de desempenho devido a restrições de recursos.
  • Implante novos recursos e mudanças de código com sucesso: a integração de testes automatizados em pipelines de CI/CD ajuda a garantir que as mudanças e as novas implantações sejam totalmente validadas antes de serem lançadas em ambientes de produção. Essa abordagem reduz significativamente o risco de erros e regressões que podem levar a interrupções operacionais.
  • Atender aos requisitos regulamentares de estabilidade do sistema: as regulamentações financeiras geralmente exigem que as instituições tenham práticas de teste robustas para garantir a estabilidade e a confiabilidade dos sistemas críticos. Testes regulares ajudam a demonstrar a conformidade com esses requisitos.

Para definir e testar seus processos de gerenciamento de incidentes, considere as seguintes recomendações.

Estabelecer procedimentos claros de resposta a incidentes

Um conjunto bem estabelecido de procedimentos de resposta a incidentes envolve os seguintes elementos:

  • Funções e responsabilidades definidas para comandantes de incidentes, investigadores, comunicadores e especialistas técnicos para garantir uma resposta eficaz e coordenada.
  • Protocolos de comunicação e caminhos de escalonamento definidos para garantir que as informações sejam compartilhadas de forma rápida e eficaz durante incidentes.
  • Procedimentos documentados em um runbook ou playbook que descreve as etapas de comunicação, triagem, investigação e resolução.
  • Treinamento e preparação regulares que capacitam as equipes com o conhecimento e as habilidades necessárias para responder com eficácia.

Implemente testes de desempenho e carga regularmente

Os testes regulares de performance e carga ajudam a garantir que os aplicativos e a infraestrutura baseados na nuvem possam lidar com picos de carga e manter o desempenho ideal. O teste de carga simula padrões de tráfego realistas. O teste de estresse leva o sistema aos limites para identificar possíveis gargalos e limitações de desempenho. É possível usar produtos como o Cloud Load Balancing e serviços de teste de carga para simular o tráfego do mundo real. Com base nos resultados do teste, você pode ajustar sua infraestrutura e seus aplicativos de nuvem para ter performance e escalonabilidade ideais. Por exemplo, é possível ajustar a alocação de recursos ou ajustar as configurações do aplicativo.

Automatizar testes em pipelines de CI/CD

A incorporação de testes automatizados aos pipelines de CI/CD ajuda a garantir a qualidade e a confiabilidade dos aplicativos na nuvem, validando as mudanças antes da implantação. Essa abordagem reduz significativamente o risco de erros e regressões e ajuda a criar um sistema de software mais estável e robusto. É possível incorporar diferentes tipos de testes nos pipelines de CI/CD, incluindo teste de unidade, de integração e completos. Use produtos como o Cloud Build e o Cloud Deploy para criar e gerenciar seus pipelines de CI/CD.

Melhorar e inovar continuamente

Para cargas de trabalho de serviços financeiros na nuvem, a migração é apenas a etapa inicial. A melhoria e a inovação contínuas são essenciais pelos seguintes motivos:

  • Acelere a inovação: aproveite novas tecnologias, como a IA, para melhorar seus serviços.
  • Reduzir custos: elimine ineficiências e otimize o uso de recursos.
  • Aumentar a agilidade: adapte-se rapidamente às mudanças regulatórias e do mercado.
  • Melhorar a tomada de decisões: use produtos de análise de dados, como o BigQuery e o Looker, para fazer escolhas embasadas.

Para garantir melhoria e inovação contínuas, considere as seguintes recomendações.

Realizar retrospectivas regulares

Retrospectivas são essenciais para melhorar continuamente os procedimentos de resposta a incidentes e otimizar as estratégias de teste com base nos resultados dos testes regulares de performance e carga. Para garantir que as retrospectivas sejam eficazes, faça o seguinte:

  • Dê às equipes a oportunidade de refletir sobre as experiências, identificar o que deu certo e apontar áreas de melhoria.
  • Faça retrospectivas após marcos do projeto, incidentes graves ou ciclos de teste significativos. As equipes podem aprender com sucessos e fracassos e refinar continuamente os processos e as práticas.
  • Use uma abordagem estruturada, como o modelo iniciar-parar-continuar, para garantir que as sessões de retrospectiva sejam produtivas e levem a etapas práticas.
  • Use retrospectivas para identificar áreas em que a automação do gerenciamento de mudanças pode ser aprimorada para aumentar a confiabilidade e reduzir os riscos.

Adotar uma cultura de aprendizagem

Uma cultura de aprendizado facilita a exploração segura de novas tecnologias em Google Cloud, como recursos de IA e ML para melhorar serviços como detecção de fraudes e consultoria financeira personalizada. Para promover uma cultura de aprendizado, faça o seguinte:

  • Incentive as equipes a testar, compartilhar conhecimento e aprender continuamente.
  • Adote uma cultura sem culpa, em que as falhas são vistas como oportunidades de crescimento e melhoria.
  • Crie um ambiente psicologicamente seguro que permita que as equipes assumam riscos e considerem soluções inovadoras. As equipes aprendem com sucessos e falhas, o que leva a uma organização mais resiliente e adaptável.
  • Desenvolva uma cultura que facilite o compartilhamento do conhecimento adquirido com processos de gerenciamento de incidentes e exercícios de teste.

Fique por dentro das tecnologias de nuvem

O aprendizado contínuo é essencial para entender e implementar novas medidas de segurança, aproveitar a análise avançada de dados para ter insights melhores e adotar soluções inovadoras relevantes para o setor financeiro.

  • Maximize o potencial dos serviços do Google Cloud ficando por dentro dos avanços, recursos e práticas recomendadas mais recentes.
  • Quando novos recursos e serviços do Google Cloud forem lançados, identifique oportunidades para automatizar ainda mais os processos, aumentar a segurança e melhorar o desempenho e a escalonabilidade dos seus aplicativos.
  • Participe de conferências, webinars e sessões de treinamento relevantes para ampliar seu conhecimento e entender novas funcionalidades.
  • Incentive os membros da equipe a obter Google Cloud certificações para garantir que a organização tenha as habilidades necessárias para o sucesso na nuvem.

Perspectiva de FSI: segurança, privacidade e compliance

Este documento do Google Cloud Framework bem arquitetado: perspectiva do setor de serviços financeiros fornece uma visão geral dos princípios e recomendações para atender aos requisitos de segurança, privacidade e compliance das cargas de trabalho do setor de serviços financeiros (FSI) em Google Cloud. As recomendações ajudam você a criar uma infraestrutura resiliente e em conformidade, proteger dados sensíveis, manter a confiança dos clientes, navegar pelo cenário complexo de requisitos regulatórios e gerenciar ameaças cibernéticas com eficácia. As recomendações neste documento estão alinhadas ao pilar de segurança do framework bem arquitetado.

A segurança na computação em nuvem é uma preocupação fundamental para as instituições financeiras, que são muito atraentes para os cibercriminosos devido às grandes quantidades de dados sensíveis que gerenciam, incluindo detalhes dos clientes e registros financeiros. As consequências de uma violação de segurança são excepcionalmente graves, incluindo perdas financeiras significativas, danos à reputação de longo prazo e multas regulatórias significativas. Portanto, as cargas de trabalho de FSI precisam de controles de segurança rigorosos.

Para garantir segurança e compliance abrangentes, é necessário entender as responsabilidades compartilhadas entre você (organizações de serviços financeiros) e o Google Cloud.O Google Cloud é responsável por proteger a infraestrutura subjacente, incluindo segurança física e de rede. Você é responsável por proteger dados e aplicativos, configurar o controle de acesso e configurar e gerenciar serviços de segurança. Para ajudar você nas iniciativas de segurança, o ecossistema de parceiros doGoogle Cloud oferece integração de segurança e serviços gerenciados.

As recomendações de segurança neste documento são mapeadas para os seguintes princípios básicos:

Implementar a segurança incorporada ao design

Regulamentações financeiras como o Padrão de Segurança de Dados do Setor de Cartões de Pagamento (PCI DSS), a Lei Gramm-Leach-Bliley (GLBA) nos Estados Unidos e várias leis nacionais de proteção de dados financeiros exigem que a segurança seja integrada aos sistemas desde o início. O princípio de segurança por design enfatiza a integração da segurança em todo o ciclo de vida do desenvolvimento para ajudar a garantir que as vulnerabilidades sejam minimizadas desde o início.

Para aplicar o princípio de segurança por design às suas cargas de trabalho de FSI em Google Cloud, considere as seguintes recomendações:

  • Aplique o princípio de privilégio mínimo com o controle de acesso baseado em função (RBAC) granular no Identity and Access Management (IAM) para garantir que apenas as permissões necessárias sejam concedidas. O uso do RBAC é um requisito fundamental em muitas regulamentações financeiras.
  • Aplique perímetros de segurança em torno dos seus serviços e dados sensíveis no Google Cloud usando o VPC Service Controls. Os perímetros de segurança ajudam a segmentar e proteger dados e recursos sensíveis, além de evitar a exfiltração de dados e o acesso não autorizado, conforme exigido pelas regulamentações.
  • Defina configurações de segurança como código usando ferramentas de infraestrutura como código (IaC), como o Terraform. Essa abordagem incorpora controles de segurança desde a fase inicial de implantação, o que ajuda a garantir consistência e capacidade de auditoria.
  • Faça a verificação do código do aplicativo integrando o teste de segurança de aplicativos estático (SAST) ao pipeline de CI/CD com o Cloud Build. Estabeleça gates de segurança automatizados para evitar a implantação de código não compatível.
  • Forneça uma interface unificada para insights de segurança usando o Security Command Center. O uso do Security Command Center permite o monitoramento contínuo e a detecção precoce de configurações incorretas ou ameaças que podem levar a violações regulatórias. Para atender aos requisitos de padrões como ISO 27001 e NIST 800-53, use modelos de gerenciamento de postura.
  • Acompanhe a redução nas vulnerabilidades identificadas em implantações de produção e a porcentagem de implantações de IaC que seguem as práticas recomendadas de segurança. É possível detectar e ver vulnerabilidades e informações sobre a conformidade com os padrões de segurança usando o Security Command Center. Para mais informações, consulte Descobertas de vulnerabilidades.

Implementar a confiança zero

As regulamentações financeiras modernas enfatizam cada vez mais a necessidade de controles de acesso rigorosos e verificação contínua. Esses requisitos refletem o princípio da confiança zero, que visa proteger as cargas de trabalho contra ameaças internas e externas e agentes maliciosos. O princípio de zero trust defende a verificação contínua de todos os usuários e dispositivos, o que elimina a confiança implícita e reduz o movimento lateral.

Para implementar a confiança zero, considere as seguintes recomendações:

  • Ative o acesso baseado no contexto com base na identidade do usuário, segurança do dispositivo, localização e outros fatores combinando controles do IAM com o Chrome Enterprise Premium. Essa abordagem garante a verificação contínua antes da concessão de acesso a dados e sistemas financeiros.
  • Forneça gerenciamento de identidade e acesso seguro e escalonável configurando o Identity Platform (ou seu provedor de identidade externo se você usar a federação de identidade de colaboradores). Configure a autenticação multifator (MFA) e outros controles cruciais para implementar a confiança zero e garantir a conformidade regulamentar.
  • Implemente a MFA para todas as contas de usuário, especialmente aquelas com acesso a dados ou sistemas sensíveis.
  • Ofereça suporte a auditorias e investigações relacionadas à conformidade regulatória estabelecendo um registro e monitoramento abrangentes do acesso do usuário e da atividade de rede.
  • Ative a comunicação particular e segura entre serviços em ambientesGoogle Cloud e locais sem expor o tráfego à Internet pública usando o Private Service Connect.
  • Implemente controles de identidade granulares e autorize o acesso no nível do aplicativo usando o Identity-Aware Proxy (IAP) em vez de depender de mecanismos de segurança baseados em rede, como túneis VPN. Essa abordagem ajuda a reduzir o movimento lateral no ambiente.

Implementar a segurança de "shift-left"

Os reguladores financeiros incentivam medidas de segurança proativas. Identificar e resolver vulnerabilidades no início do ciclo de vida de desenvolvimento ajuda a reduzir o risco de incidentes de segurança e a possibilidade de penalidades por não conformidade. O princípio da segurança shift-left promove testes e integração de segurança antecipados, o que ajuda a reduzir o custo e a complexidade da correção.

Para implementar a segurança shift-left, considere as seguintes recomendações:

  • Garanta verificações de segurança automatizadas no início do processo de desenvolvimento integrando ferramentas de verificação de segurança, como verificação de vulnerabilidade de contêiner e análise estática de código, ao pipeline de CI/CD com o Cloud Build.

  • Use o Artifact Registry para garantir que apenas artefatos seguros sejam implantados. Ele oferece um repositório seguro e centralizado para pacotes de software e imagens de contêiner com verificação de vulnerabilidades integrada. Use repositórios virtuais para mitigar ataques de confusão de dependências, priorizando seus artefatos particulares em vez de repositórios remotos.

  • Faça a verificação automática de vulnerabilidades comuns em aplicativos da Web integrando o Web Security Scanner, que faz parte do Security Command Center, aos seus pipelines de desenvolvimento.

  • Implemente verificações de segurança para o código-fonte, o processo de build e a procedência do código usando o framework Níveis da cadeia de suprimentos para artefatos de software (SLSA). Aplique a origem das cargas de trabalho executadas nos seus ambientes usando soluções como a autorização binária. Use o Assured Open Source para garantir que suas cargas de trabalho usem apenas bibliotecas de software de código aberto verificadas.

  • Acompanhe o número de vulnerabilidades identificadas e corrigidas no ciclo de vida de desenvolvimento, a porcentagem de implantações de código que passam nas verificações de segurança e a redução nos incidentes de segurança causados por vulnerabilidades de software.O Google Cloud fornece ferramentas para ajudar nesse acompanhamento em diferentes tipos de cargas de trabalho. Por exemplo, para cargas de trabalho em contêineres, use o recurso de verificação de contêineres do Artifact Registry.

Implementar defesa cibernética preventiva

As instituições financeiras são os principais alvos de ataques cibernéticos sofisticados. As regulamentações geralmente exigem mecanismos robustos de defesa proativa e inteligência de ameaças. A defesa cibernética preventiva se concentra na detecção e resposta proativas a ameaças usando análises e automação avançadas.

Considere as seguintes recomendações:

Use a IA de forma segura e responsável, e use a IA para segurança

A IA e o ML são cada vez mais usados em casos de uso de serviços financeiros, como detecção de fraudes e negociação algorítmica. As regulamentações exigem que essas tecnologias sejam usadas de forma ética, transparente e segura. A IA também pode ajudar a melhorar seus recursos de segurança. Considere as seguintes recomendações para usar a IA:

  • Desenvolva e implante modelos de ML em um ambiente seguro e controlado usando a Vertex AI. Recursos como a explicabilidade do modelo e as métricas de justiça podem ajudar a resolver problemas de IA responsável.
  • Aproveite os recursos de análise e operações de segurança do Google Security Operations, que usa IA e ML para analisar grandes volumes de dados de segurança, detectar anomalias e automatizar a resposta a ameaças. Esses recursos ajudam a melhorar sua postura geral de segurança e auxiliam no monitoramento da conformidade.
  • Estabeleça políticas de governança claras para o desenvolvimento e a implantação de IA e ML, incluindo considerações relacionadas à segurança e à ética.
  • Alinhe-se aos elementos do framework de IA segura (SAIF), que oferece uma abordagem prática para lidar com as preocupações de segurança e risco dos sistemas de IA.
  • Acompanhe a precisão e a eficácia dos sistemas de detecção de fraudes com tecnologia de IA, a redução de falsos positivos em alertas de segurança e os ganhos de eficiência da automação de segurança baseada em IA.

Atender às necessidades regulatórias, de compliance e de privacidade

Os serviços financeiros estão sujeitos a uma ampla variedade de regulamentações, incluindo requisitos de residência de dados, trilhas de auditoria específicas e padrões de proteção de dados. Para garantir que os dados sensíveis sejam identificados, protegidos e gerenciados corretamente, as organizações de serviços financeiros precisam de políticas de governança de dados e esquemas de classificação de dados robustos. Considere as seguintes recomendações para atender aos requisitos regulamentares:

  • Configure limites de dados no Google Cloud para cargas de trabalho sensíveis e regulamentadas usando o Assured Workloads. Isso ajuda você a atender aos requisitos de compliance governamentais e específicos do setor, como FedRAMP e CJIS.
  • Identifique, classifique e proteja dados sensíveis, incluindo informações financeiras, implementando a Cloud Data Loss Prevention (Cloud DLP Cloud. Isso ajuda você a obedecer a regulamentações de privacidade de dados, como o GDPR e a CCPA.
  • Acompanhe os detalhes das atividades administrativas e o acesso aos recursos usando os Registros de auditoria do Cloud. Esses registros são cruciais para atender aos requisitos de auditoria estipulados por muitas regulamentações financeiras.
  • Ao escolher Google Cloud regiões para suas cargas de trabalho e dados, considere os regulamentos locais relacionados à residência de dados.A infraestrutura global do Google Cloud permite escolher regiões que podem ajudar você a atender aos requisitos de residência de dados.
  • Gerencie as chaves usadas para criptografar dados financeiros sensíveis em repouso e em trânsito usando o Cloud Key Management Service. Essa criptografia é um requisito fundamental de muitos regulamentos de segurança e privacidade.
  • Implemente os controles necessários para atender aos requisitos regulatórios. Valide se os controles funcionam conforme o esperado. Valide novamente os controles por um auditor externo para provar ao regulador que suas cargas de trabalho estão em conformidade com as regulamentações.

Priorizar iniciativas de segurança

Devido à amplitude dos requisitos de segurança, as instituições financeiras precisam priorizar iniciativas baseadas em avaliação de risco e mandatos regulatórios. Recomendamos a seguinte abordagem por fases:

  1. Estabeleça uma base de segurança sólida: concentre-se nas principais áreas de segurança, incluindo gerenciamento de identidade e acesso, segurança de rede e proteção de dados. Esse foco ajuda a criar uma postura de segurança robusta e garante uma defesa abrangente contra ameaças em evolução.
  2. Atenda a regulamentações críticas: priorize a conformidade com regulamentações importantes, como PCI DSS, GDPR e leis nacionais relevantes. Isso ajuda a garantir a proteção de dados, reduzir os riscos legais e criar confiança com os clientes.
  3. Implemente a segurança avançada: adote gradualmente práticas de segurança avançadas, como zero trust, soluções de segurança com tecnologia de IA e busca proativa de ameaças.

Perspectiva de FSI: confiabilidade

Este documento do Google Cloud Well-Architected Framework: perspectiva de instituições financeiras fornece uma visão geral dos princípios e recomendações para projetar, implantar e operar cargas de trabalho confiáveis do setor de serviços financeiros (FSI, na sigla em inglês) no Google Cloud. O documento explica como integrar práticas avançadas de confiabilidade e capacidade de observação aos seus projetos arquitetônicos. As recomendações neste documento estão alinhadas ao pilar de confiabilidade do framework bem arquitetado.

Para instituições financeiras, uma infraestrutura confiável e resiliente é uma necessidade comercial e um imperativo regulatório. Para garantir a confiabilidade das cargas de trabalho de FSI em Google Cloud , é necessário entender e reduzir possíveis pontos de falha, implantar recursos de forma redundante e planejar a recuperação. A resiliência operacional é um resultado da confiabilidade. É a capacidade de absorver, se adaptar e se recuperar de interrupções. A resiliência operacional ajuda as organizações de serviços financeiros a atender a requisitos regulamentares rigorosos. Isso também ajuda a evitar danos intoleráveis aos clientes.

Os principais elementos de confiabilidade no Google Cloud são regiões, zonas e os vários escopos de localização dos recursos de nuvem: zonal, regional, multirregional e global. É possível melhorar a disponibilidade usando serviços gerenciados, distribuindo recursos, implementando padrões de alta disponibilidade e automatizando processos.

Requisitos regulatórios

As organizações de serviços financeiros operam sob mandatos de confiabilidade rigorosos de agências regulatórias, como o Federal Reserve System (em inglês) nos EUA, a Autoridade Bancária Europeia (em inglês) na UE e a Autoridade de Regulamentação Prudencial (em inglês) no Reino Unido. No mundo todo, os reguladores enfatizam a resiliência operacional, que é vital para a estabilidade financeira e a proteção do consumidor. A resiliência operacional é a capacidade de resistir a interrupções, se recuperar de maneira eficaz e manter serviços críticos. Isso exige uma abordagem harmonizada para gerenciar riscos tecnológicos e dependências de terceiros.

Os requisitos regulamentares na maioria das jurisdições têm os seguintes temas em comum:

  • Segurança cibernética e resiliência tecnológica: fortalecimento das defesas contra ameaças cibernéticas e garantia da resiliência dos sistemas de TI.
  • Gerenciamento de riscos de terceiros: gerenciamento dos riscos associados à terceirização de serviços para provedores de tecnologia da informação e comunicação (TIC).
  • Continuidade de negócios e resposta a incidentes: planejamento robusto para manter as operações críticas durante interrupções e se recuperar de maneira eficaz.
  • Proteção da estabilidade financeira: garantir a integridade e a estabilidade do sistema financeiro em geral.

As recomendações de confiabilidade neste documento são mapeadas para os seguintes princípios básicos:

Priorizar implantações multizona e multirregionais

Para aplicativos financeiros críticos, recomendamos o uso de uma topologia multirregional distribuída em pelo menos duas regiões e três zonas em cada região. Essa abordagem é importante para a resiliência contra interrupções de zona e região. As regulamentações costumam prescrever essa abordagem porque, se ocorrer uma falha em uma zona ou região, a maioria das jurisdições considera uma interrupção grave em uma segunda zona como uma consequência plausível. A lógica é que, quando um local falha, o outro pode receber uma quantidade excepcionalmente alta de tráfego adicional.

Considere as seguintes recomendações para criar resiliência contra falhas de zona e região:

  • Prefira recursos com um escopo geográfico mais amplo. Sempre que possível, use recursos regionais em vez de zonais e multirregionais ou globais em vez de regionais. Essa abordagem ajuda a evitar a necessidade de restaurar operações usando backups.
  • Em cada região, use três zonas em vez de duas. Para lidar com failovers, faça um superprovisionamento de capacidade em um terço a mais do que a estimativa.
  • Minimize as etapas de recuperação manual implementando implantações ativas-ativas, como os exemplos a seguir:
    • Bancos de dados distribuídos, como o Spanner, oferecem redundância e sincronização integradas em todas as regiões.
    • O recurso de alta disponibilidade do Cloud SQL oferece uma topologia quase ativa-ativa, com réplicas de leitura em todas as zonas. Ele oferece um objetivo de ponto de recuperação (RPO) entre regiões próximo a 0.
  • Distribua o tráfego de usuários entre regiões usando o Cloud DNS e implante um balanceador de carga regional em cada região. Outra opção que você pode considerar, dependendo dos seus requisitos e da importância, é um balanceador de carga global. Para mais informações, consulte Benefícios e riscos do balanceamento de carga global para implantações multirregionais.
  • Para armazenar dados, use serviços multirregionais, como o Spanner e o Cloud Storage.

Eliminar pontos únicos de falha

Distribua recursos em diferentes locais e use recursos redundantes para evitar que um único ponto de falha (SPOF) afete toda a pilha de aplicativos.

Considere as seguintes recomendações para evitar SPOFs:

Para mais informações, consulte Criar uma infraestrutura confiável para suas cargas de trabalho no Google Cloud.

Entender e gerenciar a disponibilidade agregada

A disponibilidade geral ou agregada de um sistema é afetada pela disponibilidade de cada nível ou componente dele. O número de níveis em uma pilha de aplicativos tem uma relação inversa com a disponibilidade agregada da pilha. Considere as seguintes recomendações para gerenciar a disponibilidade agregada:

  • Calcule a disponibilidade agregada de uma pilha de vários níveis usando a fórmula disponibilidade_nível1 × disponibilidade_nível2 × disponibilidade_nívelN.

    O diagrama a seguir mostra o cálculo da disponibilidade agregada para um sistema de várias camadas que consiste em quatro serviços:

    A fórmula de disponibilidade agregada para um serviço de várias camadas com quatro serviços.

    No diagrama anterior, o serviço em cada nível oferece 99,9% de disponibilidade, mas a disponibilidade agregada do sistema é menor, de 99,6% (0,999 × 0,999 × 0,999 × 0,999). Em geral, a disponibilidade agregada de uma pilha de vários níveis é menor que a disponibilidade do nível que oferece a menor disponibilidade.

  • Sempre que possível, escolha paralelização em vez de encadeamento. Com serviços paralelizados, a disponibilidade de ponta a ponta é maior do que a disponibilidade de cada serviço individual.

    O diagrama a seguir mostra dois serviços, A e B, implantados usando as abordagens de encadeamento e paralelização:

    As fórmulas de disponibilidade agregada para serviços encadeados em comparação com serviços paralelizados.

    Nos exemplos anteriores, os dois serviços têm um SLA de 99%, o que resulta na seguinte disponibilidade agregada, dependendo da abordagem de implementação:

    • Serviços encadeados geram uma disponibilidade agregada de apenas 98% (0,99 × 0,99).
    • Serviços paralelizados geram uma disponibilidade agregada maior, de 99,99%, porque cada serviço é executado de forma independente e os serviços individuais não são afetados pela disponibilidade dos outros serviços. A fórmula para serviços paralelos agregados é 1 − (1 − A) × (1 − B).
  • Escolha serviços Google Cloud com SLAs de tempo de atividade que podem ajudar a atender ao nível necessário de tempo de atividade geral para sua pilha de aplicativos.

  • Ao projetar sua arquitetura, considere as vantagens e desvantagens entre disponibilidade, complexidade operacional, latência e custo. Aumentar o número de noves de disponibilidade geralmente custa mais, mas ajuda você a atender aos requisitos regulamentares.

    Por exemplo, uma disponibilidade de 99,9% (três noves) significa um possível tempo de inatividade de 86 segundos em um dia de 24 horas. Por outro lado, 99% (dois noves) significa um tempo de inatividade de 864 segundos no mesmo período, que é 10 vezes maior do que com três noves de disponibilidade.

    Para serviços financeiros críticos, as opções de arquitetura podem ser limitadas. No entanto, é fundamental identificar os requisitos de disponibilidade e calcular a disponibilidade com precisão. Realizar essa avaliação ajuda você a entender as implicações das suas decisões de design na arquitetura e no orçamento.

Implementar uma estratégia de DR robusta

Crie planos bem definidos para diferentes cenários de desastre, incluindo interrupções zonais e regionais. Com uma estratégia de recuperação de desastres (DR) bem definida, é possível se recuperar de uma interrupção e retomar as operações normais com o mínimo de impacto.

DR e alta disponibilidade (HA) são conceitos diferentes. Com implantações na nuvem, em geral, a recuperação de DR se aplica a implantações multirregionais, e a alta disponibilidade se aplica a implantações regionais. Esses arquétipos de implantação oferecem suporte a diferentes mecanismos de replicação.

  • HA: muitos serviços gerenciados oferecem replicação síncrona entre zonas em uma única região por padrão. Esses serviços oferecem um objetivo de tempo de recuperação (RTO) e um objetivo de ponto de recuperação (RPO) de zero ou quase zero. Com esse suporte, é possível criar uma topologia de implantação ativo-ativo sem SPOF.
  • DR: para cargas de trabalho implantadas em duas ou mais regiões, se você não usar serviços multirregionais ou globais, defina uma estratégia de replicação. A estratégia de replicação normalmente é assíncrona. Avalie com cuidado como essa replicação afeta o RTO e o RPO de aplicativos críticos. Identifique as operações manuais ou semiautomáticas necessárias para o failover.

Para instituições financeiras, a escolha da região de failover pode ser limitada por regulamentações sobre soberania e residência de dados. Se você precisar de uma topologia ativo-ativo em duas regiões, recomendamos escolher serviços multirregionais gerenciados, como o Spanner e o Cloud Storage, principalmente quando a replicação de dados é essencial.

Considere as seguintes recomendações:

  • Use serviços de armazenamento gerenciados e multirregionais para dados.
  • Crie snapshots de dados em discos permanentes e armazene-os em locais multirregionais.
  • Ao usar recursos regionais ou por zona, configure a replicação de dados para outras regiões.
  • Teste o plano regularmente para validar a eficácia dele.
  • Conheça o RTO e o RPO e a correlação deles com a tolerância a impactos estipulada pelas regulamentações financeiras na sua jurisdição.

Para mais informações, consulte Como arquitetar a recuperação de desastres para interrupções de infraestrutura em nuvem.

Aproveitar serviços gerenciados

Sempre que possível, use serviços gerenciados para aproveitar os recursos integrados de backups, alta disponibilidade e escalonabilidade. Considere as seguintes recomendações para usar serviços gerenciados:

  • Use serviços gerenciados em Google Cloud. Eles oferecem alta disponibilidade com suporte de SLAs. Eles também oferecem mecanismos de backup e recursos de resiliência integrados.
  • Para gerenciamento de dados, considere serviços como Cloud SQL, Cloud Storage e Spanner.
  • Para hospedagem de computação e aplicativos, considere os grupos de instâncias gerenciadas (MIGs) do Compute Engine e os clusters do Google Kubernetes Engine (GKE). Os MIGs regionais e os clusters regionais do GKE são resilientes a interrupções de zona.
  • Para melhorar a resiliência contra interrupções regionais, use serviços multirregionais gerenciados.
  • Identifique a necessidade de planos de saída para serviços com características exclusivas e defina os planos necessários. Reguladores financeiros como a FCA, a PRA e a EBA exigem que as empresas tenham estratégias e planos de contingência para recuperação de dados e continuidade operacional se a relação com um provedor de nuvem terminar. As empresas precisam avaliar a viabilidade de saída antes de firmar contratos de nuvem e manter a capacidade de mudar de provedor sem interrupção operacional.
  • Verifique se os serviços escolhidos permitem exportar dados para um formato aberto, como CSV, Parquet e Avro. Verifique se os serviços são baseados em tecnologias abertas, como o suporte do GKE para o formato da Open Container Initiative (OCI) ou Cloud Composer criado no Apache Airflow.

Automatizar os processos de provisionamento e recuperação da infraestrutura

Automation ajuda a minimizar erros humanos e reduzir o tempo e os recursos necessários para responder a incidentes. O uso da automação pode ajudar a garantir uma recuperação mais rápida de falhas e resultados mais consistentes. Considere as seguintes recomendações para automatizar o provisionamento e a recuperação de recursos:

  • Minimize os erros humanos usando ferramentas de infraestrutura como código (IaC), como o Terraform.
  • Reduza a intervenção manual automatizando processos de failover. As respostas automáticas também podem ajudar a reduzir o impacto das falhas. Por exemplo, é possível usar o Eventarc ou Workflows para acionar automaticamente ações corretivas em resposta a problemas observados nos registros de auditoria.
  • Aumente a capacidade dos seus recursos de nuvem durante o failover usando o escalonamento automático.
  • Aplique automaticamente políticas e proteções para requisitos regulamentares em toda a topologia da nuvem durante a implantação do serviço ao adotar a engenharia de plataforma.

Perspectiva de FSI: otimização de custos

Este documento no Google Cloud Framework bem arquitetado: perspectiva de instituições financeiras fornece uma visão geral dos princípios e recomendações para otimizar o custo das cargas de trabalho do setor de serviços financeiros (FSI, na sigla em inglês) no Google Cloud. As recomendações neste documento estão alinhadas ao pilar de otimização de custos do framework bem arquitetado.

Para uma otimização de custos robusta para cargas de trabalho de serviços financeiros, são necessários os seguintes elementos fundamentais:

  • A capacidade de identificar o uso de recursos desperdiçados em comparação com o uso que gera valor.
  • Uma cultura incorporada de responsabilidade financeira.

Para otimizar os custos, é necessário entender os fatores de custo e as necessidades de recursos em toda a organização. Em algumas grandes organizações, principalmente aquelas que estão no início da jornada para a nuvem, uma única equipe costuma ser responsável por otimizar os gastos em um grande número de domínios. Essa abordagem considera que uma equipe central é a mais adequada para identificar oportunidades de alto valor e melhorar a eficiência.

A abordagem centralizada pode ter algum sucesso durante os estágios iniciais da adoção da nuvem ou para cargas de trabalho não críticas. No entanto, uma única equipe não consegue otimizar os custos em toda a organização. Quando o uso de recursos ou o nível de análise regulatória aumenta, a abordagem centralizada não é sustentável. As equipes centralizadas enfrentam desafios de escalonabilidade, principalmente ao lidar com um grande número de produtos e serviços financeiros. As equipes de projeto que são proprietárias dos produtos e serviços podem resistir a mudanças feitas por uma equipe externa.

Para uma otimização de custos eficaz, os dados relacionados a gastos precisam ser altamente visíveis, e os engenheiros e outros usuários da nuvem que estão próximos das cargas de trabalho precisam ser motivados a tomar medidas para otimizar os custos. Do ponto de vista organizacional, o desafio da otimização de custos é identificar quais áreas precisam ser otimizadas, os engenheiros responsáveis por elas e convencê-los a tomar as medidas de otimização necessárias. Este documento fornece recomendações para enfrentar esse desafio.

As recomendações de otimização de custos neste documento são mapeadas para os seguintes princípios básicos:

Identificar o desperdício usando ferramentas do Google Cloud

OGoogle Cloud oferece vários produtos, ferramentas e recursos para ajudar você a identificar o desperdício. Considere as recomendações a seguir.

Use a automação e a IA para identificar sistematicamente o que otimizar

O Active Assist oferece recomendações inteligentes em serviços essenciais para o setor financeiro, como o Cloud Run para microsserviços, o BigQuery para análise de dados, o Compute Engine para aplicativos principais e o Cloud SQL para bancos de dados relacionais. As recomendações do Active Assist são fornecidas sem custo financeiro e sem nenhuma configuração da sua parte. As recomendações ajudam a identificar recursos ociosos e compromissos subutilizados.

Centralize o monitoramento e o controle de FinOps em uma interface unificada

Os relatórios do Cloud Billing e o Hub do FinOps permitem implementar um monitoramento de custos abrangente. Essa visão abrangente é vital para auditores financeiros e equipes financeiras internas monitorarem os gastos na nuvem, avaliarem a situação financeira, analisarem a maturidade da FinOps em várias unidades de negócios ou centros de custo e fornecerem uma narrativa financeira consistente.

Identificar valor analisando e enriquecendo dados de gastos

O Active Assist é eficaz na identificação de desperdícios óbvios. No entanto, identificar o valor pode ser mais difícil, principalmente quando as cargas de trabalho estão em produtos inadequados ou não têm um alinhamento claro com o valor comercial. Para cargas de trabalho de instituições financeiras, o valor comercial vai além da redução de custos. O valor inclui mitigação de riscos, conformidade regulatória e vantagens competitivas.

Para entender o gasto e o valor da nuvem de forma holística, é necessário ter uma compreensão completa em vários níveis: de onde vem o gasto, qual função de negócios ele está impulsionando e a viabilidade técnica de refatorar ou otimizar a carga de trabalho em questão.

O diagrama a seguir mostra como aplicar a pirâmide de dados, informações, conhecimento e sabedoria (DIKW) e as ferramentas do Google Cloud para ter uma compreensão holística dos custos e do valor da nuvem.

A pirâmide de dados, informações, conhecimento e sabedoria (DIKW, na sigla em inglês) mostra como usar os dados de gastos na nuvem para fundamentar decisões.

O diagrama anterior mostra como usar a abordagem DIKW para refinar dados brutos de gastos na nuvem em insights e decisões práticas que impulsionam o valor comercial.

  • Dados: nessa camada, você coleta fluxos brutos e não processados de dados de uso e custo dos seus recursos de nuvem. Sua equipe central de FinOps usa ferramentas como faturas do Cloud Billing, exportações de faturamento e o Cloud Monitoring para receber dados detalhados e granulares. Por exemplo, um ponto de dados pode ser que uma VM chamada app1-test-vmA foi executada por 730 horas na região us-central1 e custou US$ 70.
  • Informações: nessa camada, sua equipe central de FinOps usa ferramentas como relatórios do Cloud Billing e o Hub do FinOps para estruturar os dados brutos e ajudar a responder perguntas como "Em quais categorias de recursos as pessoas estão gastando dinheiro?" Por exemplo, você pode descobrir que um total de US$ 1.050 foi gasto em VMs do tipo de máquina n4-standard-2 em duas regiões nos EUA.
  • Conhecimento: nessa camada, sua equipe central de FinOps enriquece as informações com o contexto comercial adequado sobre quem gastou dinheiro e para qual finalidade. Você usa mecanismos como inclusão de tags e rótulos, hierarquia de recursos, contas de faturamento e painéis personalizados do Looker. Por exemplo, você pode determinar que a equipe de testes app1 nos EUA gastou US$ 650 durante a segunda semana de julho como parte de um exercício de teste de estresse.
  • Sabedoria: nessa camada, as equipes de produtos e aplicativos usam o conhecimento contextualizado para avaliar o valor comercial dos gastos com a nuvem e tomar decisões estratégicas e fundamentadas. Suas equipes podem responder a perguntas como as seguintes:
    • Os US$ 5.000 gastos em um pipeline de análise de dados estão gerando valor comercial?
    • Podemos reestruturar o pipeline para ser mais eficiente sem reduzir o desempenho?

Considere as seguintes recomendações para analisar dados de gastos na nuvem.

Analise os dados de gastos fornecidos por Google Cloud

Comece com dados detalhados do Cloud Billing que são exportados para o BigQuery e dados disponíveis nos registros do Monitoring. Para extrair insights úteis e tomar decisões, é necessário estruturar esses dados e enriquecê-los com o contexto de negócios.

Visualizar dados com as ferramentas disponíveis

Aumente os painéis Google Cloud integrados com relatórios personalizados usando ferramentas como o Looker Studio com base nas exportações do BigQuery. As equipes financeiras podem criar painéis personalizados que contextualizam os gastos na nuvem em relação a métricas financeiras, requisitos de relatórios regulatórios e lucratividade da unidade de negócios. Assim, eles podem fornecer uma narrativa financeira clara para análise e tomada de decisões pelos stakeholders executivos.

Alocar gastos para promover a responsabilidade

Depois de entender o que está impulsionando os gastos na nuvem, você precisa identificar quem está gastando dinheiro e por quê. Esse nível de compreensão exige uma prática robusta de alocação de custos, que envolve anexar metadados relevantes para os negócios aos recursos da nuvem. Por exemplo, se um recurso específico for usado pela equipe Banking-AppDev, você poderá anexar uma tag como team=banking_appdev ao recurso para rastrear o custo que a equipe incorre nele. O ideal é alocar 100% dos custos da nuvem à origem do gasto. Na prática, você pode começar com uma meta menor, porque criar uma estrutura de metadados para oferecer suporte a 100% da alocação de custos é um esforço complexo.

Considere as seguintes recomendações para desenvolver uma estratégia de metadados que apoie a alocação de custos:

  • Validade: garanta que as tags ajudem a identificar indicadores principais de performance (KPIs) relacionados aos negócios e requisitos regulamentares. Essa associação é fundamental para estornos internos, relatórios regulatórios e alinhamento dos gastos na nuvem com as metas da unidade de negócios. Por exemplo, as seguintes tags identificam claramente uma equipe de gastos, a região dela e o produto em que ela trabalha: team=banking_appdev, region=emea, product=frontend.
  • Automação: para alcançar um alto nível de conformidade com a inclusão de tag, aplique a inclusão de tag por automação. A inclusão manual de tags é propensa a erros e inconsistências, o que é inaceitável em ambientes de serviços financeiros, em que a capacidade de auditoria e a precisão financeira são fundamentais. A inclusão de tags automática garante que os recursos sejam categorizados corretamente quando são criados.
  • Simplicidade: meça fatores simples e não correlacionados. Os ambientes de FSI são complexos. Para garantir que as regras de alocação de custos em um ambiente desse tipo sejam fáceis de entender e aplicar, elas precisam ser o mais simples possível. Evite criar regras complexas demais para casos muito específicos (marginais). Regras complexas podem causar confusão e resistência das equipes operacionais.

Depois de definir uma estratégia de alocação usando tags, você precisa decidir o nível de granularidade em que ela será implementada. A granularidade necessária depende das necessidades da sua empresa. Por exemplo, algumas organizações precisam rastrear o custo no nível do produto, outras precisam de dados de custo para cada centro de custo, e outras precisam de dados de custo por ambiente (desenvolvimento, teste e produção).

Considere as seguintes abordagens para alcançar o nível adequado de granularidade de alocação de custos para sua organização:

  • Use a hierarquia de projetos no Google Cloud como ponto de partida natural para a alocação de custos. Os projetos representam pontos de aplicação de políticas no Google Cloud. Por padrão, as permissões do IAM, as políticas de segurança e o custo são atribuídos a projetos e pastas. Ao analisar os dados de custo exportados do Cloud Billing, é possível conferir a hierarquia de pastas e os projetos associados a esses dados. Se a sua hierarquia de recursosGoogle Cloud refletir a estrutura de responsabilidade da organização para gastos, essa será a maneira mais simples de implementar a alocação de custos.
  • Use tags e rótulos para mais detalhes. Elas oferecem maneiras flexíveis de categorizar recursos nas exportações de faturamento. Tags e rótulos facilitam detalhamentos de custos por aplicativo e ambiente.

Muitas vezes, é necessário usar a hierarquia de projetos combinada com inclusão de tags e rótulos para uma alocação de custos eficaz. Independente da abordagem de alocação de custos escolhida, siga as recomendações descritas anteriormente para desenvolver uma estratégia de metadados robusta: validação, automação e simplicidade.

Promova a responsabilidade e motive os engenheiros a agir

A equipe de FinOps da nuvem é responsável por fazer com que uma organização tenha consciência dos custos e do valor. As equipes de produtos e de engenharia precisam tomar as medidas necessárias para otimizar os custos. Essas equipes também são responsáveis pelo comportamento de custo das cargas de trabalho de serviços financeiros e por garantir que elas ofereçam o valor comercial necessário.

Considere as seguintes recomendações para aumentar a responsabilidade e motivar as equipes a otimizar os custos.

Estabelecer uma equipe centralizada de FinOps para governança

As práticas de Cloud FinOps não crescem organicamente. Uma equipe de FinOps dedicada precisa definir e estabelecer práticas de FinOps fazendo o seguinte:

  • Crie os processos, as ferramentas e as orientações necessárias.
  • Crie, comunique e aplique as políticas necessárias, como inclusão de tag obrigatória, revisões de orçamento e processos de otimização.
  • Incentive as equipes de engenharia a serem responsáveis pelos custos.
  • Intervenha quando as equipes de engenharia não assumirem a responsabilidade pelos custos.

Receber patrocínio e mandatos executivos

A liderança sênior, incluindo o CTO, o CFO e o CIO, precisa defender ativamente uma mudança em toda a organização para uma cultura de FinOps. O apoio deles é fundamental para priorizar a responsabilidade pelos custos, alocar recursos para o programa de FinOps, garantir a participação multifuncional e impulsionar a conformidade com os requisitos de FinOps.

Incentivar as equipes a otimizar os custos

Engenheiros e equipes de engenharia podem não ter motivação para se concentrar na otimização de custos. É importante alinhar as metas individuais e da equipe com a eficiência de custos implementando incentivos como:

  • Reinvestir uma parte da economia da otimização de custos nas equipes que a alcançaram.
  • Reconheça e comemore publicamente os esforços e sucessos na otimização de custos.
  • Use técnicas de gamificação para recompensar as equipes que otimizam os custos de forma eficaz.
  • Integre métricas de eficiência às metas de performance.

Implementar técnicas de showback e estorno

Garantir que as equipes tenham visibilidade clara dos recursos e custos da nuvem que possuem. Atribua a responsabilidade financeira às pessoas certas nas equipes. Use mecanismos formais para aplicar inclusão de tags rigorosa e implementar regras transparentes para alocar custos compartilhados.

Foque o valor e o custo total de propriedade, não o custo

Ao avaliar soluções de nuvem, considere o custo total de propriedade (TCO) de longo prazo. Por exemplo, a hospedagem própria de um banco de dados para um aplicativo pode parecer mais barata do que usar um serviço de banco de dados gerenciado como o Cloud SQL. No entanto, para avaliar o valor de longo prazo e o TCO, é preciso considerar os custos ocultos associados aos bancos de dados autohospedados. Esses custos incluem o esforço de engenharia dedicado para aplicação de patches, escalonamento, reforço da segurança e recuperação de desastres, que são requisitos essenciais para cargas de trabalho de instituições financeiras. Os serviços gerenciados oferecem um valor de longo prazo muito maior, o que compensa os custos de infraestrutura. Os serviços gerenciados oferecem recursos de conformidade robustos, têm recursos de confiabilidade integrados e ajudam a reduzir a sobrecarga operacional.

Considere as seguintes recomendações para se concentrar no valor e no TCO.

Usar técnicas e ferramentas específicas do produto para otimizar recursos

Use ferramentas e recursos de otimização de custos fornecidos pelos produtos do Google Cloud, como:

Aproveite os descontos

Para garantir que a taxa de faturamento dos seus recursos de nuvem seja a mais baixa possível, use os descontos oferecidos pelo Google. Normalmente, as equipes individuais de produtos e engenharia gerenciam a otimização de recursos. A equipe central de FinOps é responsável por otimizar as taxas de faturamento porque tem visibilidade dos requisitos de recursos em toda a organização. Portanto, eles podem agregar os requisitos e maximizar os descontos com base no compromisso.

Você pode aproveitar os seguintes tipos de descontos para recursos do Google Cloud :

  • Os descontos empresariais são negociados com base no compromisso da sua organização com um gasto total mínimo no Google Cloud a uma taxa de faturamento reduzida.
  • Os CUDs com base em recursos são oferecidos em troca do compromisso de usar uma quantidade mínima de recursos do Compute Engine por um período de um ou três anos. Os CUDs baseados em recursos são aplicáveis aos recursos que estão em um projeto e uma região específicos. Para compartilhar CUDs em vários projetos, ative o compartilhamento de descontos.
  • Os CUDs com base em gastos são oferecidos em troca de um compromisso de gastar um valor mínimo em um produto específico durante um período de um ou três anos. Os descontos baseados em gastos são aplicáveis no nível da conta de faturamento. Os descontos são aplicados regionalmente ou globalmente, dependendo do produto.

É possível economizar muito usando CUDs além dos descontos empresariais.

Além dos CUDs, use as seguintes abordagens para reduzir as taxas de faturamento:

  • Use VMs do Spot para cargas de trabalho tolerantes a falhas e flexíveis. As VMs do Spot são mais de 80% mais baratas do que as VMs comuns.
  • O BigQuery oferece vários modelos de preços, incluindo preços sob demanda e preços com base na edição, que se baseiam em compromissos e requisitos de escalonamento automático. Se você usa um volume significativo de recursos do BigQuery, escolha uma edição adequada para reduzir o custo por slot das cargas de trabalho de análise.
  • Avalie com cuidado as Google Cloud regiões disponíveis para os serviços que você precisa usar. Escolha regiões que estejam alinhadas aos seus objetivos de custo e fatores como requisitos de latência e conformidade. Para entender as compensações entre custo, sustentabilidade e latência, use o Google Cloud Seletor de região.

Perspectiva de FSI: otimização de performance

Este documento do Google Cloud Framework bem arquitetado: perspectiva do setor de serviços financeiros (FSI, na sigla em inglês) fornece uma visão geral dos princípios e recomendações para otimizar o desempenho das cargas de trabalho do setor de serviços financeiros (FSI) no Google Cloud. As recomendações neste documento estão alinhadas ao pilar de otimização de performance do framework bem arquitetado.

A otimização de performance tem uma longa história nos serviços financeiros. Ele ajudou as organizações de serviços financeiros a superar desafios técnicos e quase sempre foi um facilitador ou acelerador para a criação de novos modelos de negócios. Por exemplo, os caixas eletrônicos (introduzidos em 1967) automatizaram o processo de dispensação de dinheiro e ajudaram os bancos a diminuir o custo da atividade principal. Técnicas como ignorar o kernel do SO e fixar threads de aplicativos em núcleos de computação ajudaram a alcançar baixa latência e determinismo para aplicativos de negociação. A redução na latência facilitou uma liquidez maior e mais firme com spreads mais apertados nos mercados financeiros.

A nuvem cria novas oportunidades de otimização de performance. Ele também questiona alguns dos padrões de otimização aceitos historicamente. Especificamente, as seguintes compensações são mais transparentes e controláveis na nuvem:

  • Tempo de lançamento x custo.
  • Performance de ponta a ponta no nível do sistema x performance no nível do nó.
  • Disponibilidade de talentos x agilidade na tomada de decisões relacionadas à tecnologia.

Por exemplo, adaptar hardware e recursos de TI a requisitos de habilidades específicas é uma tarefa trivial na nuvem. Para oferecer suporte à programação de GPU, é fácil criar VMs baseadas em GPU. É possível escalonar a capacidade na nuvem para acomodar picos de demanda sem provisionar recursos em excesso. Isso ajuda a garantir que suas cargas de trabalho possam lidar com picos, como nos dias de folha de pagamento não agrícola e quando os volumes de negociação são significativamente maiores do que os níveis históricos. Em vez de gastar tempo escrevendo código altamente otimizado no nível de servidores individuais (como código altamente ajustado na linguagem C) ou escrevendo código para ambientes convencionais de computação de alto desempenho (HPC), você pode escalonar horizontalmente de maneira ideal usando um sistema distribuído baseado em Kubernetes bem arquitetado.

As recomendações de otimização de performance neste documento são mapeadas para os seguintes princípios fundamentais:

Alinhar as métricas de performance de tecnologia aos principais indicadores de negócios

É possível mapear a otimização de performance para resultados de valor comercial de várias maneiras. Por exemplo, em uma mesa de pesquisa compradora, um objetivo de negócios pode ser otimizar a produção por hora de pesquisa ou priorizar experimentos de equipes com um histórico comprovado, como índices de Sharpe mais altos. No lado da venda, você pode usar a análise para acompanhar o interesse do cliente e, assim, priorizar a capacidade de processamento para modelos de IA que oferecem suporte à pesquisa mais interessante.

Conectar metas de performance aos indicadores principais de desempenho (KPIs) também é importante para financiar melhorias de performance. As iniciativas de inovação e transformação de negócios (às vezes chamadas de esforços de mudança do banco) têm orçamentos diferentes e podem ter graus de acesso a recursos potencialmente diferentes em comparação com as operações normais (BAU, na sigla em inglês) ou de execução do banco. Por exemplo, o Google Cloud ajudou as equipes de gerenciamento de riscos e tecnologia de um G-SIFI a colaborar com os analistas quantitativos da área de atendimento ao cliente em uma solução para realizar cálculos de análise de risco (como XVA) em minutos, em vez de horas ou dias. Essa solução ajudou a organização a atender aos requisitos de compliance relevantes. Também permitiu que os traders tivessem conversas de maior qualidade com os clientes, oferecendo spreads mais apertados, liquidez mais firme e hedge mais econômico.

Ao alinhar suas métricas de performance com indicadores de negócios, considere as seguintes recomendações:

  • Conecte cada iniciativa de tecnologia aos objetivos e resultados-chave (OKRs) relevantes da empresa, como aumentar a receita ou o lucro, reduzir custos e mitigar riscos de maneira mais eficiente ou abrangente.
  • Foco na otimização da performance no nível do sistema. Vá além da separação convencional entre mudança e execução do banco e dos silos de front-office e back-office.

Priorize a segurança sem sacrificar o desempenho por riscos não comprovados

A segurança e a conformidade regulatória em organizações de serviços financeiros precisam ser de um padrão inequivocamente alto. Manter um alto padrão é essencial para evitar a perda de clientes e danos irreparáveis à marca de uma organização. Muitas vezes, o maior valor é derivado de inovações tecnológicas, como a IA generativa e serviços gerenciados exclusivos, como o Spanner. Não descarte automaticamente essas opções de tecnologia devido a uma concepção equivocada geral sobre risco operacional proibitivo ou postura inadequada de conformidade regulatória.

Google Cloud trabalhou em estreita colaboração com os G-SIFIs para garantir que uma abordagem baseada em IA para combate à lavagem de dinheiro (AML, na sigla em inglês) possa ser usada em todas as jurisdições em que as instituições atendem clientes. Por exemplo, o HSBC melhorou significativamente a performance da unidade de crimes financeiros (Fincrime) com os seguintes resultados:

  • Cerca de duas a quatro vezes mais atividades suspeitas confirmadas.
  • Reduza os custos operacionais eliminando mais de 60% dos falsos positivos e concentrando o tempo de investigação apenas em alertas acionáveis de alto risco.
  • Saídas auditáveis e explicáveis para apoiar a conformidade regulatória.

Considere as seguintes recomendações:

  • Confirme se os produtos que você pretende usar podem ajudar a atender aos requisitos de segurança, resiliência e compliance das jurisdições em que você opera. Para alcançar esse objetivo, trabalhe com as equipes de contas, de risco e de produtos. Google Cloud
  • Crie modelos mais eficientes e ofereça transparência aos clientes usando a explicabilidade da IA (por exemplo, atribuição de valor de Shapley). Técnicas como a atribuição de valor de Shapley podem atribuir decisões do modelo a recursos específicos no nível de entrada.
  • Para alcançar a transparência das cargas de trabalho de IA generativa, use técnicas como citações de fontes, fundamentação e RAG.

  • Quando a capacidade de explicação não é suficiente, separe as etapas de tomada de decisão nos fluxos de valor e use a IA para automatizar apenas as etapas que não envolvem decisões. Em alguns casos, a IA explicável pode não ser suficiente ou um processo pode exigir intervenção humana devido a questões regulatórias (por exemplo, GDPR, Artigo 22). Nesses casos, apresente todas as informações necessárias para a tomada de decisões em um único painel de controle, mas automatize as tarefas de coleta, ingestão, manipulação e resumo de dados.

Repense sua arquitetura para se adaptar a novas oportunidades e requisitos

Aumentar suas arquiteturas atuais com recursos baseados na nuvem pode trazer um valor significativo. Para alcançar resultados mais transformadores, é necessário repensar periodicamente sua arquitetura usando uma abordagem com foco na nuvem.

Considere as recomendações a seguir para repensar periodicamente a arquitetura das suas cargas de trabalho e otimizar ainda mais a performance.

Usar alternativas baseadas na nuvem para sistemas e programadores de HPC locais

Para aproveitar a maior elasticidade, a postura de segurança aprimorada e os recursos abrangentes de monitoramento e governança, é possível executar cargas de trabalho de HPC na nuvem ou aumentar as cargas de trabalho locais para a nuvem. No entanto, para determinados casos de uso de modelagem numérica, como simulação de estratégias de investimento ou modelagem de XVA, combinar o Kubernetes com o Kueue pode oferecer uma solução mais eficiente.

Mudar para programação baseada em gráficos para simulações

As simulações de Monte Carlo podem ter um desempenho muito melhor em um sistema de execução baseado em gráficos, como o Dataflow. Por exemplo, o HSBC usa o Dataflow para executar cálculos de risco 16 vezes mais rápido do que a abordagem anterior.

Executar plataformas de negociação e bolsas de valores baseadas na nuvem

As conversas com clientes Google Cloud revelam que o princípio de Pareto 80/20 se aplica aos requisitos de performance dos mercados e aplicativos de negociação.

  • Mais de 80% dos aplicativos de negociação não precisam de latência extremamente baixa. No entanto, eles se beneficiam muito da resiliência, da segurança e da elasticidade da nuvem. Por exemplo, a BidFX, uma plataforma de câmbio multidistribuidora, usa a nuvem para lançar novos produtos rapidamente e aumentar significativamente a disponibilidade e a presença deles sem aumentar os recursos.
  • Os aplicativos restantes (menos de 20%) precisam de baixa latência (menos de um milissegundo), determinismo e justiça na entrega de mensagens. Normalmente, esses sistemas são executados em instalações rígidas e caras. Cada vez mais, até mesmo essa categoria de aplicativos está sendo replatformada na nuvem, seja na borda ou como aplicativos com priorização da nuvem.

Prepare sua tecnologia para atender às necessidades comerciais atuais e futuras

Historicamente, muitas instituições financeiras criaram tecnologias próprias para ganhar uma vantagem competitiva. Por exemplo, no início dos anos 2000, bancos de investimento e empresas de negociação bem-sucedidos tinham as próprias implementações de tecnologias fundamentais, como sistemas de publicação e assinatura e corretores de mensagens. Com a evolução das tecnologias de código aberto e da nuvem, essas tecnologias se tornaram commodities e não oferecem valor comercial incremental.

Considere as seguintes recomendações para preparar sua tecnologia para o futuro.

Adote uma abordagem de dados como serviço (DaaS) para reduzir o tempo de lançamento e aumentar a transparência de custos

As organizações de FSI geralmente evoluem por uma combinação de crescimento orgânico e fusões e aquisições (M&A). Como resultado, as organizações precisam integrar tecnologias diferentes. Eles também precisam gerenciar recursos duplicados, como fornecedores de dados, licenças de dados e pontos de integração.O Google Cloud oferece oportunidades para criar valor diferenciado em integrações pós-fusão.

Por exemplo, é possível usar serviços como o compartilhamento do BigQuery para criar uma plataforma de dados como serviço (DaaS, na sigla em inglês) pronta para análise. A plataforma pode fornecer dados de mercado e entradas de fontes alternativas. Essa abordagem elimina a necessidade de criar pipelines de dados redundantes e permite que você se concentre em iniciativas mais valiosas. Além disso, as empresas fundidas ou adquiridas podem racionalizar de forma rápida e eficiente as necessidades de licenciamento de dados e infraestrutura pós-fusão. Em vez de gastar tempo e esforço na adaptação e fusão de operações e patrimônios de dados legados, a empresa combinada pode se concentrar em novas oportunidades de negócios.

Crie uma camada de abstração para isolar os sistemas atuais e abordar modelos de negócios emergentes

Cada vez mais, a vantagem competitiva dos bancos não é o sistema bancário principal, mas a camada de experiência do cliente. No entanto, os sistemas bancários legados costumam usar aplicativos monolíticos desenvolvidos em linguagens como Cobol e integrados em toda a cadeia de valor bancária. Essa integração dificultava a separação das camadas da cadeia de valor, tornando quase impossível fazer upgrade e modernizar esses sistemas.

Uma solução para enfrentar esse desafio é usar uma camada de isolamento, como um sistema de gerenciamento de API ou uma camada de staging como o Spanner, que duplica o livro de registros e facilita a modernização dos serviços com análises avançadas e IA. Por exemplo, o Deutsche Bank usou o Spanner para isolar o sistema bancário principal legado e iniciar a jornada de inovação.