Iniziativa BeyondProd

Questi contenuti sono stati aggiornati a maggio 2024 e rappresentano lo status quo al momento della loro redazione. I criteri e i sistemi di sicurezza di Google potranno variare in futuro, in virtù del costante miglioramento della protezione per i nostri clienti.

Questo documento descrive come Google implementa la sicurezza nella propria infrastruttura utilizzando un'architettura cloud-native chiamata BeyondProd. BeyondProd si riferisce ai servizi e ai controlli della nostra infrastruttura che collaborano per contribuire a proteggere i carichi di lavoro. I carichi di lavoro sono le attività uniche completate da un'applicazione. BeyondProd contribuisce a proteggere i microservizi che eseguiamo nel nostro ambiente, incluso il modo in cui modifichiamo il codice e accediamo ai dati utente.

Questo documento fa parte di una serie di documenti tecnici che descrivono le tecnologie, come Chrome Enterprise Premium, che abbiamo sviluppato per contribuire a difendere le piattaforme Google da minacce sofisticate. Chrome Enterprise Premium implementa un'architettura zero trust progettata per fornire accesso sicuro alle piattaforme Google e ai servizi in esecuzione al loro interno. Come Chrome Enterprise Premium, BeyondProd non si basa sulle protezioni tradizionali del perimetro della rete come i firewall. BeyondProd contribuisce invece a creare fiducia tra i microservizi utilizzando caratteristiche come la provenienza del codice, le identità dei servizi e l'hardware attendibile. Questa attendibilità si estende al software eseguito in Google Cloud e a quello di cui i clienti di Google Cloud eseguono il deployment e accedono.

Questo documento descrive i vantaggi di BeyondProd, i suoi servizi e le sue procedure, nonché la modalità di migrazione a questa architettura. Per una panoramica della sicurezza della nostra infrastruttura, consulta la panoramica sulla progettazione della sicurezza dell'infrastruttura Google.

Introduzione

Le moderne architetture di sicurezza si sono allontanate dal modello di sicurezza tradizionale basato sul perimetro, in cui un firewall protegge il perimetro e tutti gli utenti o i servizi all'interno del perimetro sono considerati attendibili.

Oggi gli utenti sono mobili e lavorano comunemente all'esterno del tradizionale perimetro di sicurezza aziendale, ad esempio da casa, da una caffetteria o da un aereo. Con Chrome Enterprise Premium, concediamo l'accesso alle risorse aziendali utilizzando più fattori, tra cui l'identità dell'utente, l'identità del dispositivo utilizzato per accedere alla risorsa, l'integrità del dispositivo, indicatori di attendibilità come il comportamento dell'utente e gli elenchi di controllo dell'accesso.

BeyondProd risolve lo stesso problema per i servizi di produzione che Chrome Enterprise Premium risolve per gli utenti. In un'architettura cloud-native, non possiamo semplicemente affidarci a un firewall per proteggere la rete di produzione. I microservizi si spostano e vengono eseguiti in ambienti diversi, su host eterogenei e operano a diversi livelli di attendibilità e sensibilità. Mentre Chrome Enterprise Premium afferma che l'attendibilità dell'utente deve dipendere da caratteristiche come lo stato sensibile al contesto dei dispositivi e non dalla capacità di connettersi alla rete aziendale, BeyondProd afferma che l'attendibilità del servizio deve dipendere da caratteristiche come la provenienza del codice, l'affidabilità dell'hardware e l'identità del servizio, piuttosto che dalla posizione nella rete di produzione, ad esempio l'indirizzo IP o il nome host.

Infrastruttura containerizzata

La nostra infrastruttura esegue il deployment dei carichi di lavoro come microservizi singoli in container. I microservizi separano le singole attività che un'applicazione deve eseguire in servizi diversi. Ogni servizio può essere sviluppato e gestito in modo indipendente con API, implementazione, scalabilità e gestione delle quote proprie. I microservizi sono indipendenti, modulari, dinamici e temporanei. Possono essere distribuiti su diversi host, cluster o anche cloud. In un'architettura di microservizi, il carico di lavoro può comprendere uno o più microservizi.

In un'infrastruttura containerizzata, il deployment di ogni microservizio viene eseguito come proprio set di container mobili e programmabili. Per gestire internamente questi container, abbiamo sviluppato un sistema di orchestrazione dei container chiamato Borg, che esegue il deployment di diversi miliardi di container a settimana. Borg è il sistema di gestione dei container unificato di Google e l'ispirazione per Kubernetes.

I container semplificano e rendono più efficiente la pianificazione dei carichi di lavoro tra le macchine. Il packaging dei microservizi in container consente di suddividere i carichi di lavoro in unità più piccole e più gestibili per la manutenzione e l'individuazione. Questa architettura scala i carichi di lavoro in base alle esigenze: se la domanda per un determinato carico di lavoro è elevata, più macchine potrebbero eseguire copie dello stesso container per gestire la scala richiesta del carico di lavoro.

Per Google, la sicurezza svolge un ruolo fondamentale in ogni evoluzione della nostra architettura. Il nostro obiettivo per questa architettura di microservizi e il processo di sviluppo è risolvere i problemi relativi alla sicurezza il prima possibile in fase di sviluppo e deployment, quando affrontarli è meno costoso, e farlo in maniera standardizzata e coerente. Il risultato finale consente agli sviluppatori di dedicare meno tempo alla sicurezza, ottenendo al contempo risultati più sicuri.

Vantaggi di BeyondProd

BeyondProd offre numerosi vantaggi in termini di automazione e sicurezza all'infrastruttura di Google. I vantaggi includono:

  • Protezione perimetrale della rete:i carichi di lavoro sono isolati dagli attacchi alla rete e dal traffico non autorizzato proveniente da internet. Sebbene un approccio di perimetro non sia un concetto nuovo, rimane una best practice per la sicurezza delle architetture cloud. Un approccio perimetrale consente di proteggere il maggior numero possibile di infrastrutture da traffico non autorizzato e attacchi potenziali provenienti da internet, come gli attacchi DoS basati sui volumi.
  • Nessuna attendibilità reciproca intrinseca tra i servizi:solo chiamanti o servizi autenticati, attendibili e specificamente autorizzati possono accedere a qualsiasi altro servizio. In questo modo un utente malintenzionato non può utilizzare codice non attendibile per accedere a un servizio. Se un servizio viene compromesso, questo vantaggio contribuisce a impedire all'aggressore di eseguire azioni che gli consentano di espandere la propria copertura. Questa sfiducia reciproca, combinata con controllo dell'accesso granulare, consente di limitare la portata dell'attacco.
  • Macchine attendibili che eseguono codice di provenienza nota: le identità dei servizi sono costrette a utilizzare solo configurazioni e codice autorizzati e a eseguire solo in ambienti verificati e autorizzati.
  • Applicazione coerente dei criteri tra i servizi:l'applicazione coerente dei criteri contribuisce a garantire che le decisioni di accesso siano affidabili tra i servizi. Ad esempio, puoi creare un'applicazione dei criteri che verifichi le richieste di accesso ai dati utente. Per accedere al servizio, un utente finale autorizzato deve presentare una richiesta convalidata e un amministratore deve fornire una motivazione di business.
  • Implementazione semplice, automatica e standardizzata delle modifiche:le modifiche dell'infrastruttura possono essere facilmente esaminate per valutarne l'impatto sulla sicurezza e le patch di sicurezza possono essere implementate con un impatto minimo sulla produzione.
  • Isolamento dei carichi di lavoro con sistema operativo condiviso:se un servizio viene compromesso, non può influire sulla sicurezza di un altro carico di lavoro in esecuzione sullo stesso host. Questo isolamento contribuisce a limitare la portata dell'attacco.
  • Hardware attendibile e attestazione: un radice di attendibilità hardware contribuisce a garantire che sull'host venga eseguito solo codice noto e autorizzato (dal firmware alla modalità utente) prima che vengano pianificati carichi di lavoro.

Grazie a questi vantaggi, i container e i microservizi che vengono eseguiti all'interno della nostra architettura cloud possono essere implementati, comunicare tra loro ed essere eseguiti uno accanto all'altro senza indebolire la sicurezza della nostra infrastruttura. Inoltre, i singoli sviluppatori di microservizi non sono gravati dai dettagli di sicurezza e implementazione dell'infrastruttura sottostante.

Servizi di sicurezza BeyondProd

Abbiamo progettato e sviluppato diversi servizi di sicurezza BeyondProd per creare i vantaggi descritti nella sezione Vantaggi di BeyondProd. Le sezioni seguenti descrivono questi servizi di sicurezza.

Google Front End (GFE) per la protezione perimetrale della rete

Google Front End (GFE) fornisce protezione all'edge della rete. GFE termina la connessione dall'utente finale e offre un punto centrale per applicare le best practice TLS.

Anche se la nostra attenzione non è più incentrata sulla sicurezza perimetrale, GFE è ancora una parte importante della nostra strategia di protezione dei servizi interni contro gli attacchi DoS. GFE è il primo punto di accesso per un utente che si connette all'infrastruttura di Google. Dopo che un utente si connette alla nostra infrastruttura, GFE è anche responsabile del bilanciamento del carico e del reindirizzamento del traffico tra le regioni in base alle esigenze. GFE è il proxy perimetrale che indirizza il traffico al microservizio corretto.

Le VM dei clienti su Google Cloud non si registrano a GFE. Al contrario, si registrano con Cloud Front End, una configurazione speciale di GFE che utilizza lo stack di rete di Compute Engine. Cloud Front End consente alle VM dei clienti di accedere direttamente a un servizio Google utilizzando il proprio indirizzo IP pubblico o privato. Gli indirizzi IP privati sono disponibili solo se è attivato Accesso privato Google.

Application Layer Transport Security per la fiducia tra i servizi

Application Layer Transport Security (ALTS) contribuisce a garantire che non esista fiducia reciproca intrinseca tra i servizi. ALTS viene utilizzato per l'autenticazione delle chiamata di procedura remota (RPC), l'integrità, la crittografia del traffico e le identità dei servizi. ALTS è un sistema di autenticazione reciproca e crittografia di trasporto per i servizi nell'infrastruttura di Google. In generale, le identità sono associate a servizi anziché a un nome server o a un host specifico. Questa associazione favorisce la replica perfetta dei microservizi, il bilanciamento del carico e la ripianificazione tra host.

Ciascuna macchina dispone di credenziali ALTS per cui viene eseguito il provisioning utilizzando il sistema di integrità dell'host e che possono essere decriptate solo se il sistema di integrità dell'host ha verificato che l'avvio protetto è andato a buon fine. La maggior parte dei servizi Google viene eseguita come microservizi su Borg e ognuno di questi microservizi ha la propria identità ALTS. Borg Prime, il controller centralizzato di Borg, concede queste credenziali dei microservizi ALTS ai carichi di lavoro in base all'identità del microservizio. Le credenziali ALTS di livello macchina costituiscono il canale sicuro per il provisioning delle credenziali dei microservizi, in modo che solo le macchine che hanno superato correttamente l'avvio verificato dell'integrità dell'host possano ospitare i carichi di lavoro dei microservizi. Per ulteriori informazioni sulle credenziali ALTS, consulta Certificati dei carichi di lavoro.

Autorizzazione binaria per Borg per la provenienza del codice

Autorizzazione binaria per Borg (BAB) fornisce la verifica della provenienza del codice. BAB è un controllo dell'applicazione forzata in fase di deployment che contribuisce a garantire che il codice soddisfi i requisiti di sicurezza interni prima del deployment. Ad esempio, il controllo dell'applicazione forzata BAB include l'assicurazione che le modifiche vengano esaminate da un secondo tecnico prima che il codice venga inviato al nostro repository di codice sorgente e che i programmi binari vengano compilati in modo verificabile su un'infrastruttura dedicata. Nella nostra infrastruttura, BAB limita il deployment di microservizi non autorizzati.

Integrità dell'host per l'attendibilità della macchina

L'integrità dell'host verifica l'integrità del software del sistema host tramite una procedura di avvio protetto ed è supportata da un chip di sicurezza hardware radice di attendibilità (chiamato Titan) se supportato. I controlli di integrità dell'host includono la verifica delle firme digitali su BIOS, baseboard management controller (BMC), bootloader e kernel del sistema operativo. Se supportati, i controlli di integrità dell'host possono includere codice in modalità utente e firmware delle periferiche (ad esempio le NIC). Oltre alla verifica della firma digitale, l'integrità host contribuisce ad assicurare che ogni host esegua la versione prevista di questi componenti software.

Gestione dell'accesso ai servizi e ticket di contesto utente finale per l'applicazione dei criteri

La gestione dell'accesso ai servizi e ticket di contesto utente finale contribuiscono a garantire l'applicazione coerente dei criteri nei vari servizi.

La gestione dell'accesso ai servizi limita la modalità di accesso ai dati tra i servizi. Quando una RPC viene inviata da un servizio a un altro, la gestione dell'accesso ai servizi definisce i criteri di autorizzazione e controllo richiesti dai servizi per accedere ai dati del servizio di destinazione. Si limita così la modalità di accesso ai dati, viene garantito il livello minimo di accesso necessario e viene specificata la modalità di controllo dell'accesso. Nell'infrastruttura Google, la gestione dell'accesso ai servizi limita l'accesso di un microservizio ai dati di un altro microservizio e consente analisi globali dei controlli di accesso.

I ticket contesto utente finale vengono emessi da un servizio di autenticazione dell'utente finale e forniscono ai servizi un'identità utente separata dall'identità servizio. Questi ticket sono credenziali con integrità protetta, emesse a livello centrale e inoltrabili che attestano l'identità di un utente finale che ha richiesto il servizio. Questi ticket riducono la necessità di relazioni trust tra i servizi, poiché le identità peer che utilizzano ALTS possono essere insufficienti per concedere l'accesso, quando queste decisioni sull'accesso si basano solitamente anche sull'identità dell'utente finale.

Strumenti Borg per l'implementazione automatica delle modifiche e la scalabilità

Gli strumenti Borg per i deployment blue-green consentono di implementare le modifiche in modo semplice, automatico e standardizzato. Un deployment blu/verde è un modo per implementare una modifica a un carico di lavoro senza influire sul traffico in entrata, per cui gli utenti finali non rilevano alcun tempo di inattività nell'accesso all'applicazione.

Un job Borg è una singola istanza di un microservizio che esegue una parte di un'applicazione. I job vengono scalati per gestire il carico, viene eseguito il deployment di nuovi job all'aumentare del carico e i job esistenti vengono terminati quando il carico diminuisce.

Gli strumenti Borg sono responsabili della migrazione dei carichi di lavoro in esecuzione durante le attività di manutenzione. Quando viene eseguito il deployment di un nuovo job Borg, un bilanciatore del carico sposta gradualmente il traffico da un job esistente a quello nuovo. Ciò consente di aggiornare un microservizio senza tempi di inattività e senza che l'utente se ne accorga.

Utilizziamo questo strumento anche per applicare upgrade dei servizi quando aggiungiamo nuove funzionalità e per applicare aggiornamenti critici della sicurezza senza tempi di inattività. Per le modifiche che interessano la nostra infrastruttura, utilizziamo la migrazione live delle VM dei clienti per garantire che i carichi di lavoro non siano interessati.

Per ulteriori informazioni, consulta Autorizzazione binaria per Borg.

Kernel gVisor per l'isolamento dei carichi di lavoro

Il kernel gVisor consente l'isolamento tra i carichi di lavoro che condividono un sistema operativo. gVisor utilizza un kernel dello spazio utente per intercettare e gestire le chiamate di sistema, riducendo l' interazione con l'host e la potenziale superficie di attacco. Questo kernel offre la maggior parte delle funzionalità necessarie per eseguire un'applicazione e limita la superficie del kernel dell'host accessibile all'applicazione. gVisor è uno dei vari strumenti che utilizziamo per isolare i carichi di lavoro interni e quelli dei clienti Google Cloud in esecuzione sullo stesso host. Per ulteriori informazioni su altri strumenti di sandboxing, consulta Sandboxing del codice.

Protezione dei dati utente con BeyondProd

Questa sezione descrive il modo in cui i servizi BeyondProd collaborano per contribuire a proteggere i dati utente nella nostra infrastruttura. Le sezioni seguenti descrivono due esempi:

  • Accesso alle richieste di dati utente dalla loro creazione alla consegna a destinazione.
  • Una modifica al codice dallo sviluppo alla produzione.

Non tutte le tecnologie elencate vengono utilizzate in tutte le parti della nostra infrastruttura; dipende dai servizi e dai carichi di lavoro.

Accesso ai dati utente

Il diagramma seguente mostra la procedura utilizzata dalla nostra infrastruttura per verificare che un utente abbia l'autorizzazione ad accedere ai dati utente.

I controlli di sicurezza cloud-native di Google per l'accesso ai dati utente.

I passaggi per accedere agli account utente sono i seguenti:

  1. Un utente invia una richiesta al GFE.
  2. GFE termina la connessione TLS e inoltra la richiesta al frontend del servizio appropriato utilizzando ALTS.
  3. Il frontend dell'applicazione autentica la richiesta dell'utente utilizzando un servizio di autenticazione dell'utente finale (EUA) centrale e, in caso di esito positivo, riceve un breve ticket di contesto utente finale crittografato.
  4. Il frontend dell'applicazione invia una RPC tramite ALTS a un servizio di backend di archiviazione, inoltrando il ticket nella richiesta al backend.
  5. Il servizio di backend utilizza la gestione dell'accesso ai servizi per garantire che i seguenti criteri siano veri:
    • Il frontend viene autenticato utilizzando un certificato valido e non revocato. Questo controllo implica che sia in esecuzione su un host attendibile e che i controlli BAB siano riusciti.
    • L'identità ALTS del servizio frontend sia autorizzata a inviare richieste al servizio di backend e presenti un ticket EUC.
    • Il ticket contesto utente finale sia valido.
    • L'utente nel ticket EUC è autorizzato ad accedere ai dati richiesti.

Se uno di questi controlli ha esito negativo, la richiesta viene rifiutata.

Se questi controlli vengono superati, i dati vengono restituiti al frontend applicazione autorizzato e forniti all'utente autorizzato.

In molti casi, esiste una catena di chiamate backend e ogni servizio intermedio esegue un controllo di accesso ai servizi sulle RPC in entrata e il ticket viene forward sulle RPC in uscita.

Per ulteriori informazioni su come viene indirizzato il traffico all'interno della nostra infrastruttura, consulta la sezione Modalità di routing del traffico.

Esecuzione di una modifica al codice

Il diagramma seguente mostra come viene implementata una modifica del codice.

Come vengono apportate le modifiche al codice.

I passaggi per apportare una modifica al codice sono i seguenti:

  1. Uno sviluppatore apporta una modifica a un microservizio protetto da BAB. La modifica viene inviata al nostro repository di codice centrale, che applica la revisione del codice. Dopo l'approvazione, la modifica viene inviata al sistema di compilazione centrale attendibile che produce un pacchetto con un certificato firmato del file manifest della build verificabile.

  2. Al momento del deployment, BAB verifica che il processo sia stato seguito convalidando il certificato firmato dalla pipeline di compilazione.

  3. Borg gestisce tutti gli aggiornamenti dei carichi di lavoro utilizzando un modello di affidabilità che garantisce un'interruzione minima dei servizi, che si tratti di un'implementazione di routine o di una patch di sicurezza di emergenza.

  4. GFE sposta il traffico nel nuovo deployment utilizzando il bilanciamento del carico per contribuire a garantire la continuità delle operazioni.

Per ulteriori informazioni su questa procedura, consulta la sezione La nostra procedura di sviluppo e produzione.

Tutti i carichi di lavoro devono essere isolati. Se il carico di lavoro ha un'affidabilità inferiore perché il codice sorgente ha origine all'esterno di Google, il deployment può essere eseguito in un ambiente protetto da gVisor o utilizzare altri livelli di isolamento. Questo isolamento contribuisce a contenere un avversario che riesce a compromettere un'applicazione.

Implicazioni della sicurezza cloud-native

Le sezioni seguenti mettono a confronto gli aspetti della sicurezza dell'infrastruttura tradizionale e i relativi contrappunti in un'architettura cloud-native.

Architettura dell'applicazione

Un modello di sicurezza più tradizionale, incentrato sulla sicurezza del perimetro, non è in grado di proteggere da solo un'architettura cloud-native. Tradizionalmente, le applicazioni monolitiche utilizzavano un'architettura a tre livelli e venivano implementate in data center aziendali privati con una capacità sufficiente a gestire i picchi di carico per gli eventi critici. Le applicazioni con requisiti di rete o hardware specifici venivano appositamente implementate su macchine specifiche, che di solito mantengono indirizzi IP fissi. Le implementazioni erano poco frequenti, voluminose e difficili da coordinare poiché le modifiche che ne conseguono si riflettevano contemporaneamente su molte parti dell'applicazione. Ciò ha portato a applicazioni dalla durata estremamente lunga con aggiornamenti e applicazioni delle patch di sicurezza meno frequenti.

Tuttavia, in un modello cloud-native, le applicazioni devono essere portabili tra diversi ambienti, perché possono essere eseguite in cloud pubblici, data center privati o servizi ospitati da terze parti. Pertanto, anziché un'applicazione monolitica, un'applicazione containerizzata suddivisa in microservizi diventa ideale per gli ambienti cloud. I container disaccoppiano i programmi binari necessari per l'applicazione dal sistema operativo host sottostante e rendono le applicazioni più portabili. I nostri container sono immutabili, ovvero non cambiano dopo il deployment. ma vengono ricostruiti e di nuovo implementati spesso.

Con i container riavviati, arrestati o riprogrammati spesso, il riutilizzo e la condivisione di hardware e networking è più frequente. Grazie a un processo di creazione e distribuzione comune standardizzato, il processo di sviluppo è più coerente e uniforme tra i team, anche se i team gestiscono lo sviluppo dei propri microservizi in maniera indipendente. Di conseguenza, le considerazioni relative alla sicurezza (ad esempio le revisioni della sicurezza, la scansione del codice e la gestione delle vulnerabilità) possono essere affrontate nelle prime fasi dei cicli di sviluppo.

Mesh di servizi

Creando un'infrastruttura condivisa e progettata in modo sicuro che tutti gli sviluppatori utilizzano, il carico per gli sviluppatori di conoscere e implementare i requisiti di sicurezza comuni viene ridotto al minimo. La funzionalità di sicurezza dovrebbe richiedere un'integrazione minima o nulla in ogni applicazione e agire piuttosto da rete che avvolge e connette tutti i microservizi. Questo è comunemente chiamato mesh di servizi. Ciò significa, inoltre, che la sicurezza può essere gestita e implementata separatamente rispetto alle normali attività di sviluppo o deployment.

Un mesh di servizi è un'infrastruttura condivisa a livello di infrastruttura che avvolge e collega tutti i microservizi. Un mesh di servizi consente la comunicazione tra servizi, che può controllare il traffico, applicare criteri e monitorare a livello centralizzato le chiamate ai servizi.

Sicurezza Zero Trust

In un modello di sicurezza tradizionale che utilizza data center privati, le applicazioni di un'organizzazione dipendono da un firewall per contribuire a proteggere i workload dalle minacce esterne basate sulla rete.

Con un modello di sicurezza Zero Trust, le decisioni di autorizzazione non dipendono dai firewall. Altri controlli, come l'identità del carico di lavoro, l'autenticazione e l'autorizzazione, contribuiscono invece a proteggere i microservizi garantendo la convalida delle connessioni interne o esterne prima che possano effettuare transazioni. Quando elimini la dipendenza da firewall o controlli basati sulla rete, puoi implementare la segmentazione a livello di microservizi senza attendibilità intrinseca tra i servizi. Con la segmentazione a livello di microservizio, il traffico può avere diversi livelli di attendibilità con controlli diversi e non confronti più solo il traffico interno con quello esterno.

Requisiti di sicurezza condivisi integrati negli stack dei servizi

In un modello di sicurezza tradizionale, le singole applicazioni sono responsabili della conformità ai propri requisiti di sicurezza, indipendentemente dagli altri servizi. Tali requisiti includono la gestione dell'identità, la terminazione TLS e la gestione dell'accesso ai dati. Questo può portare a implementazioni incoerenti o a problemi di sicurezza non risolti, in quanto questi problemi devono essere corretti in molti punti, il che rende più difficile l'applicazione delle correzioni.

In un'architettura cloud-native, i componenti vengono riutilizzati tra i servizi con maggiore frequenza. I punti di passaggio obbligato consentono di applicare i criteri in modo coerente tra i diversi servizi. Possono essere applicati criteri differenti utilizzando diversi servizi di sicurezza. Invece di richiedere che ogni applicazione implementi i servizi di sicurezza critici separatamente, puoi suddividere i diversi criteri in microservizi separati. Ad esempio, puoi creare un criterio per garantire l'accesso autorizzato ai dati utente e un altro per garantire l'uso di suite di crittografia TLS aggiornate.

Processi standardizzati con implementazioni più frequenti

In un modello di sicurezza tradizionale, i servizi condivisi sono limitati e il codice viene spesso duplicato e accoppiato allo sviluppo locale. La condivisione limitata rende più difficile determinare l'impatto di una modifica e in che modo questa potrebbe influire su molte parti di un'applicazione. Di conseguenza, le implementazioni sono poco frequenti e difficili da coordinare. Per apportare una modifica, gli sviluppatori potevano aver bisogno di aggiornare direttamente ciascun componente (ad esempio, aprendo connessioni SSH a ogni macchina virtuale per aggiornare una configurazione). Nel complesso, questo può portare a applicazioni estremamente longeve.

Dal punto di vista della sicurezza, poiché il codice è spesso duplicato, è più difficile esaminarlo e ancora più arduo garantire che la correzione di una vulnerabilità venga applicata ovunque.

In un'architettura cloud-native, le implementazioni sono frequenti e standardizzate. Questo procedura consente di spostare la sicurezza nelle fasi iniziali del ciclo di vita di sviluppo del software. Il termine inglese "shifting left" si riferisce all'anticipazione di fasi nel ciclo di vita di sviluppo del software come creazione del codice, compilazione, test, convalida e deployment. Lo spostamento verso sinistra consente un'applicazione più coerente e semplice della sicurezza, inclusa la regolare applicazione delle patch di sicurezza.

Eseguire il passaggio a BeyondProd

Il passaggio di Google a BeyondProd ha richiesto modifiche in due aree principali: nella nostra infrastruttura e nel nostro processo di sviluppo. Abbiamo affrontato queste modifiche contemporaneamente, ma puoi gestirle in modo indipendente se vuoi configurare qualcosa di simile nel tuo ambiente.

Modifica della nostra infrastruttura

Il nostro obiettivo è automatizzare la sicurezza in tutta la nostra infrastruttura perché riteniamo che la sicurezza debba essere scalata allo stesso modo in cui vengono scalati i servizi. I servizi devono essere sicuri per impostazione predefinita e non sicuri solo dopo che è stata presa una decisione esplicita di accettare i rischi. L'intervento umano diretto nella nostra infrastruttura deve essere un'eccezione e non la regola e gli interventi devono essere verificabili quando si verificano. Possiamo quindi autenticare un servizio in base al codice e alla configurazione di deployment del servizio stesso, invece che alle persone che ne hanno eseguito il deployment.

Abbiamo iniziato dalla costruzione di solide fondamenta di identificazione, autenticazione e autorizzazione dei servizi. Un microservizio utilizza un'identità del servizio per autenticarsi ad altri servizi in esecuzione nell'infrastruttura. Una solida base di identità di servizio attendibili ci ha consentito di implementare funzioni di sicurezza di massimo livello dipendenti dalla convalida di queste identità, quali la gestione dell'accesso ai servizi e i ticket contesto utente finale. Per semplificare il passaggio per i servizi nuovi ed esistenti, per prima cosa abbiamo fornito ALTS sotto forma di una libreria con un singolo daemon helper. Questo daemon veniva eseguito sull'host chiamato da ogni servizio e, nel corso del tempo, si è evoluto in una libreria che utilizza le credenziali di servizio. La libreria ALTS è stata integrata perfettamente nella libreria RPC principale. Questa integrazione ha semplificato l'ampia adozione, senza un onere significativo per i singoli team di sviluppo. Il lancio del sistema ALTS è stato un prerequisito per l'implementazione della gestione dell'accesso ai servizi e dei ticket di contesto utente finale.

Modifica dei nostri processi di sviluppo

Per Google, è stato fondamentale stabilire un robusto processo di compilazione e revisione del codice per garantire l'integrità dei servizi in esecuzione. Abbiamo creato un processo di compilazione centrale dove abbiamo potuto iniziare ad applicare requisiti quali la revisione del codice da parte di due persone e la verifica automatica nelle fasi di compilazione e deployment. (Consulta Autorizzazione binaria per Borg per maggiori dettagli sul deployment.)

Una volta organizzate le basi, abbiamo iniziato a occuparci dei requisiti per eseguire codice esterno non attendibile nei nostri ambienti. Per raggiungere questo obiettivo, abbiamo avviato la limitazione tramite sandbox, prima con ptrace, poi utilizzando gVisor. Analogamente, i deployment blu-verdi hanno offerto importanti vantaggi in termini di sicurezza (ad esempio nell'applicazione di patch) e affidabilità.

Abbiamo presto scoperto che era più semplice se un servizio cominciava registrando le violazioni delle norme invece di bloccarle. Il vantaggio di questo approccio è stato duplice:

  • Offriva ai proprietari dei servizi un'opportunità di testare le modifiche e valutare l'eventuale impatto sul loro servizio del passaggio a un ambiente cloud-native.
  • Ci ha permesso di correggere eventuali bug e di identificare le funzionalità aggiuntive che potremmo dover fornire ai team di assistenza.

Ad esempio, durante l'onboarding di un servizio in BAB, i proprietari del servizio abilitano la modalità di solo controllo. Tale modalità consente di identificare codice o carichi di lavoro che non soddisfano i requisiti. Una volta risolti i problemi segnalati dalla modalità di solo controllo, i proprietari dei servizi passano alla modalità di applicazione forzata. In gVisor, questa operazione è stata eseguita partendo dalla limitazione tramite sandbox dei carichi di lavoro, anche in presenza di problemi di compatibilità con le funzioni sandbox, procedendo quindi a risolvere sistematicamente questi problemi per migliorare la capacità di limitazione.

Passaggi successivi