Iniziativa BeyondProd

Questi contenuti sono stati aggiornati a maggio 2024 e rappresentano lo status quo. al momento in cui è stata scritta. I criteri e i sistemi di sicurezza di Google potranno variare in futuro, in virtù del costante miglioramento della protezione per i nostri clienti.

Questo documento descrive come Google implementa la sicurezza nella propria infrastruttura utilizzando un'architettura cloud-native chiamata BeyondProd. BeyondProd si riferisce ai servizi e ai controlli della nostra infrastruttura che lavorano insieme per proteggere i carichi di lavoro. I carichi di lavoro sono le attività uniche completato da un'applicazione. BeyondProd contribuisce a proteggere i microservizi che eseguiamo nel nostro ambiente, incluso il modo in cui modifichiamo il codice e accediamo ai dati utente.

Il presente documento fa parte di una serie di articoli tecnici che descrivono i tecnologie come Chrome Enterprise Premium che abbiamo sviluppati per aiutare a difendere le piattaforme Google da minacce sofisticate. Chrome Enterprise Premium implementa un'architettura Zero Trust progettata per fornire un accesso sicuro alle piattaforme Google e ai servizi in esecuzione su di esse. Come Chrome Enterprise Premium, BeyondProd non si basa sul perimetro di rete tradizionale come i firewall. Al contrario, BeyondProd contribuisce a creare fiducia tra i microservizi utilizzando caratteristiche come la provenienza del codice, le identità dei servizi e l'hardware attendibile. Questa fiducia si estende al software viene eseguito in Google Cloud e nel software di cui Google Cloud ha eseguito il deployment e che vi accede. clienti.

Questo documento descrive i vantaggi di BeyondProd, i suoi servizi e processi e come abbiamo eseguito la migrazione a questa architettura. Per una panoramica dei nostri della sicurezza dell'infrastruttura, Panoramica sulla progettazione della sicurezza dell'infrastruttura Google.

Introduzione

Le moderne architetture di sicurezza si sono allontanate dal modello di sicurezza tradizionale basato sul perimetro, in cui un firewall protegge il perimetro e tutti gli utenti o i servizi all'interno del perimetro sono considerati attendibili.

Oggi, gli utenti sono mobili e operano comunemente al di fuori dell'ambito tradizionale, ad esempio da casa, da un bar o da un aereo. Con Chrome Enterprise Premium, concediamo l'accesso alle risorse aziendali utilizzando più fattori, tra cui l'identità dell'utente, l'identità del dispositivo utilizzato per accedere alla risorsa, l'integrità del dispositivo, gli indicatori di attendibilità come comportamento degli utenti ed elenchi di controllo dell'accesso.

BeyondProd affronta la stessa preoccupazione per i servizi di produzione Chrome Enterprise Premium è pensato per gli utenti, In un'architettura cloud-native, non possiamo semplicemente affidarci a un firewall per proteggere la rete di produzione. I microservizi si spostano e vengono eseguiti in ambienti diversi, su host eterogenei e operano a diversi livelli di attendibilità e sensibilità. Mentre Chrome Enterprise Premium afferma che l'attendibilità dell'utente deve dipendere da caratteristiche come lo stato sensibile al contesto dei dispositivi e non dalla capacità di connettersi alla rete aziendale, BeyondProd afferma che l'attendibilità del servizio deve dipendere da caratteristiche come la provenienza del codice, l'affidabilità dell'hardware e l'identità del servizio, piuttosto che dalla posizione nella rete di produzione, ad esempio l'indirizzo IP o il nome host.

Infrastruttura containerizzata

La nostra infrastruttura esegue il deployment dei carichi di lavoro come microservizi singoli in container. I microservizi separano le singole attività che un'applicazione deve eseguire in servizi diversi. Ogni servizio può essere sviluppato e gestito in modo indipendente con API, implementazione, scalabilità e gestione delle quote proprie. I microservizi sono indipendenti, modulari, dinamici e temporanei. Possono essere distribuiti su diversi host, cluster o anche cloud. In un microservizio , un carico di lavoro può essere costituito da uno o più microservizi.

In un'infrastruttura containerizzata, il deployment di ogni microservizio viene eseguito come proprio set di container mobili e programmabili. Per gestire internamente questi container, abbiamo sviluppato un sistema di orchestrazione dei container chiamato Borg, che esegue il deployment di diversi miliardi di container a settimana. Borg è la soluzione unificata un sistema di gestione dei container, e abbiamo trovato ispirazione Kubernetes

I container rendono i carichi di lavoro più semplici ed efficienti da pianificare tra più macchine. La pacchettizzazione di microservizi in container consente di suddividere i carichi di lavoro in a unità più gestibili per la manutenzione e il rilevamento. Questa architettura scala i carichi di lavoro in base alle esigenze: se la domanda per un determinato carico di lavoro è elevata, più macchine potrebbero eseguire copie dello stesso contenitore per gestire la scala richiesta del carico di lavoro.

Per Google la sicurezza svolge un ruolo fondamentale in ogni evoluzione della nostra architettura. Il nostro obiettivo con questa architettura e sviluppo di microservizi il processo con cui è necessario risolvere i problemi di sicurezza sin dalle fasi di sviluppo e implementazione il ciclo di vita del cliente (quando affrontare i problemi è meno costoso) e farlo in un standardizzato e coerente. Il risultato finale consente agli sviluppatori di dedicare meno tempo alla sicurezza, ottenendo al contempo risultati più sicuri.

Vantaggi di BeyondProd

BeyondProd offre numerosi vantaggi in termini di automazione e sicurezza dell'infrastruttura di Google. I vantaggi includono:

  • Protezione perimetrale della rete: i carichi di lavoro sono isolati dalla rete attacchi e traffico non autorizzato da internet. Sebbene un perimetro non è un concetto nuovo, ma rimane una best practice per la sicurezza architetture cloud. Un approccio perimetrale consente di proteggere il maggior numero possibile di infrastrutture da traffico non autorizzato e attacchi potenziali provenienti da internet, ad esempio attacchi DoS basati sui volumi.
  • Nessuna attendibilità reciproca intrinseca tra i servizi: solo chiamanti o servizi autenticati, attendibili e specificamente autorizzati possono accedere a qualsiasi altro servizio. In questo modo un utente malintenzionato non può utilizzare codice non attendibile per accedere a un servizio. Se un servizio viene compromesso, questo vantaggio aiuta a evitare che l'aggressore non compia azioni che gli consentano di ampliare il proprio raggio d'azione. Questa sfiducia reciproca, combinata con un controllo granulare dell'accesso, contribuisce a limitare la portata dell'attacco.
  • Macchine attendibili che eseguono codice di provenienza nota: le identità dei servizi sono costrette a utilizzare solo configurazioni e codice autorizzati e a eseguire solo in ambienti verificati e autorizzati.
  • Applicazione coerente dei criteri tra i servizi: l'applicazione coerente dei criteri contribuisce a garantire che le decisioni di accesso siano affidabili tra i servizi. Ad esempio, puoi creare un'applicazione dei criteri che verifichi le richieste di accesso ai dati utente. Per accedere al servizio, un utente l'utente deve presentare una richiesta convalidata e un amministratore deve fornire una giustificazione aziendale.
  • Implementazione semplice, automatica e standardizzata delle modifiche: infrastruttura le modifiche possono essere facilmente esaminate per verificare il loro impatto sulla sicurezza Le patch possono essere implementate con un impatto minimo sulla produzione.
  • Isolamento dei carichi di lavoro con sistema operativo condiviso: se un servizio viene compromesso, non può influire sulla sicurezza di un altro carico di lavoro in esecuzione sullo stesso host. Questo isolamento aiuta a limitare la portata dell'attacco di una compromissione.
  • Hardware attendibile e attestazione: un root of trust hardware contribuisce a garantire che sull'host venga eseguito solo codice noto e autorizzato (dal firmware alla modalità utente) prima che vengano pianificati carichi di lavoro.

Grazie a questi vantaggi, i container e i microservizi che vengono eseguiti all'interno della nostra architettura cloud possono essere implementati, comunicare tra loro ed essere eseguiti uno accanto all'altro senza indebolire la sicurezza della nostra infrastruttura. Inoltre, i singoli sviluppatori di microservizi non sono gravati dai dettagli di sicurezza e implementazione dell'infrastruttura sottostante.

Servizi di sicurezza BeyondProd

Abbiamo progettato e sviluppato diversi servizi di sicurezza BeyondProd per creare i vantaggi descritti nella sezione Vantaggi di BeyondProd. Le sezioni seguenti descrivono questi servizi di sicurezza.

Front-end di Google per la protezione perimetrale della rete

Google Front End (GFE) per garantire protezione perimetrale della rete. Il GFE termina la connessione dalla fine dall'utente e fornisce un punto centrale per l'applicazione delle best practice TLS.

Anche se la nostra enfasi non è più sulla sicurezza perimetrale, GFE è rappresentano ancora una parte importante della nostra strategia di protezione dei servizi interni Attacchi DoS. GFE è il primo punto di accesso per un utente che si connette a Google dell'infrastruttura. Dopo che un utente si connette alla nostra infrastruttura, GFE è anche responsabile del bilanciamento del carico e del reindirizzamento del traffico tra le regioni in base alle esigenze. GFE è il proxy perimetrale che instrada il traffico al microservizio corretto.

Le VM dei clienti su Google Cloud non si registrano a GFE. Invece, registrarsi con Cloud Front End, una configurazione speciale di GFE utilizza lo stack di networking di Compute Engine. Cloud Front End consente alle VM dei clienti di accedere direttamente a un servizio Google utilizzando il proprio indirizzo IP pubblico o privato. Gli indirizzi IP privati sono disponibili solo quando Accesso privato Google sia abilitata).

Application Layer Transport Security per la fiducia tra i servizi

Application Layer Transport Security (ALTS) garantisce l'assenza di attendibilità reciproca intrinseca tra i servizi. ALTS viene utilizzato per l'autenticazione delle chiamate di procedura remota (RPC), l'integrità, la crittografia del traffico e le identità dei servizi. ALTS è un sistema di autenticazione reciproca e crittografia di trasporto per i servizi nell'infrastruttura di Google. In generale, le identità sono associate ai servizi invece che un nome server o un host specifico. Questa associazione favorisce la replica perfetta dei microservizi, il bilanciamento del carico e la ripianificazione tra host.

Ogni macchina ha una credenziale ALTS che viene sottoposta a provisioning mediante sistema di integrità dell'host, e possono essere decriptati solo se il sistema di integrità dell'host ha verificato che è stato eseguito correttamente. La maggior parte dei servizi Google viene eseguita come microservizi su Borg e ognuno di questi microservizi ha la propria identità ALTS. Borg Prime, il controller centralizzato di Borg, concede queste credenziali dei microservizi ALTS ai carichi di lavoro in base all'identità del microservizio. Il ALTS a livello di macchina le credenziali costituiscono il canale sicuro per il provisioning delle credenziali dei microservizi. in modo che solo le macchine che hanno superato la verifica dell'integrità dell'host l'avvio può ospitare carichi di lavoro basati su microservizi. Per ulteriori informazioni su ALTS le credenziali, consulta Certificati per il carico di lavoro.

Autorizzazione binaria per Borg per la provenienza del codice

Autorizzazione binaria per Borg (BAB) fornisce la verifica della provenienza del codice. BAB è un controllo dell'applicazione forzata in fase di deployment che contribuisce a garantire che il codice soddisfi i requisiti di sicurezza interni prima del deployment. Ad esempio, il controllo di applicazione di BAB include la garanzia che vengono esaminate da un secondo tecnico prima di inviare il codice al nostro codice sorgente repository di codice e i file binari sono basati in modo verificabile su un'infrastruttura dedicata. Nella nostra infrastruttura, BAB limita il deployment di di microservizi.

Integrità dell'host per l'attendibilità delle macchine

L'integrità dell'host verifica l'integrità del software del sistema host tramite una procedura di avvio protetto ed è supportata da un chip di sicurezza hardware radice di attendibilità (chiamato Titan) se supportato. I controlli di integrità dell'host includono la verifica delle firme digitali su il BIOS, il controller di gestione battiscopa (BMC), bootloader e kernel del sistema operativo. Se supportati, i controlli dell'integrità dell'host possono includere codice in modalità utente e firmware delle periferiche (come le NIC). Oltre alla verifica della firma digitale, l'integrità host contribuisce ad assicurare che ogni host esegua la versione prevista di questi componenti software.

Gestione dell'accesso ai servizi e ticket contestuali per l'utente finale per l'applicazione dei criteri

La gestione dell'accesso ai servizi e ticket di contesto utente finale contribuiscono a garantire l'applicazione coerente dei criteri nei vari servizi.

La gestione dell'accesso ai servizi limita la modalità di accesso ai dati tra i servizi. Quando RPC viene inviato da un servizio all'altro, la gestione dell'accesso ai servizi definisce i criteri di autorizzazione e controllo richiesti dai servizi per accedere al servizio del servizio. Si limita così la modalità di accesso ai dati, viene garantito il livello minimo di accesso necessario e viene specificata la modalità di controllo dell'accesso. Su Google a livello di infrastruttura, Service Access Management limita l'accesso di un microservizio i dati di un altro microservizio e consente l'analisi globale dei controlli dell'accesso.

I ticket di contesto dell'utente finale vengono emessi da un servizio di autenticazione dell'utente finale e Fornire servizi con un'identità utente separata dai loro servizi e identità di base. Questi ticket sono protetti dall'integrità, emessi centralmente e possono essere inoltrati credenziali che attestano l'identità dell'utente finale che ha effettuato la richiesta completamente gestito di Google Cloud. Questi ticket riducono la necessità di relazioni trust tra i servizi, poiché le identità peer che utilizzano ALTS possono essere insufficienti per concedere l'accesso, quando queste decisioni sull'accesso si basano solitamente anche sull'identità dell'utente finale.

Strumenti Borg per l'implementazione automatica delle modifiche e la scalabilità

Gli strumenti Borg per i deployment blue-green consentono di implementare le modifiche in modo semplice, automatico e standardizzato. Un deployment blu/verde è un modo per implementare una modifica a un carico di lavoro senza influire sul traffico in entrata, per cui gli utenti finali non rilevano alcun tempo di inattività nell'accesso all'applicazione.

Un job Borg è una singola istanza di un microservizio che esegue una parte di un'applicazione. I job vengono scalati per gestire il carico, viene eseguito il deployment di nuovi job all'aumentare del carico e i job esistenti vengono terminati quando il carico diminuisce.

Gli strumenti Borg sono responsabili della migrazione dei carichi di lavoro in esecuzione attività di manutenzione. Quando viene eseguito il deployment di un nuovo job Borg, un bilanciatore del carico sposta gradualmente il traffico da un job esistente a quello nuovo. Questo permette a un microservizio possono essere aggiornate senza tempi di inattività e senza che l'utente se ne accorga.

Usiamo questo strumento anche per applicare upgrade del servizio quando aggiungiamo nuove funzionalità e per e applicare aggiornamenti critici della sicurezza senza tempi di inattività. Per le modifiche che interessano la nostra infrastruttura, utilizziamo la migrazione live delle VM dei clienti per garantire che i carichi di lavoro non siano interessati.

Per ulteriori informazioni, vedi Autorizzazione binaria per Borg.

Kernel gVisor per l'isolamento dei carichi di lavoro

La Kinel gVisor consente l'isolamento tra carichi di lavoro che condividono lo stesso sistema operativo. gVisor utilizza un kernel dello spazio utente per intercettare e gestire le chiamate di sistema, riducendo l'interazione con l'host e la potenziale superficie di attacco. Questo kernel fornisce la maggior parte delle funzionalità necessarie per eseguire un'applicazione e limita una superficie del kernel accessibile all'applicazione. gVisor è uno dei tanti strumenti che utilizziamo per isolare i carichi di lavoro interni e i clienti Google Cloud carichi di lavoro in esecuzione sullo stesso host. Per ulteriori informazioni su altri strumenti di sandboxing, consulta Sandboxing del codice.

Protezione dei dati utente con BeyondProd

Questa sezione descrive il modo in cui i servizi BeyondProd collaborano per contribuire a proteggere i dati utente nella nostra infrastruttura. Le sezioni seguenti descrivono due esempi:

  • Accesso alle richieste di dati utente dalla loro creazione alla consegna a destinazione.
  • Una modifica al codice dallo sviluppo alla produzione.

Non tutte le tecnologie elencate vengono utilizzate in tutte le parti della nostra infrastruttura; dipende dai servizi e dai carichi di lavoro.

Accesso ai dati utente

Il diagramma seguente mostra la procedura utilizzata dalla nostra infrastruttura per verificare che un utente abbia l'autorizzazione ad accedere ai dati utente.

Controlli di sicurezza cloud-native di Google che accedono ai dati utente.

Per accedere agli account utente:

  1. Un utente invia una richiesta al GFE.
  2. GFE termina la connessione TLS e inoltra la richiesta al frontend del servizio appropriato utilizzando ALTS.
  3. Il frontend dell'applicazione autentica la richiesta dell'utente utilizzando un servizio di autenticazione dell'utente finale (EUA) centrale e, in caso di esito positivo, riceve un breve ticket di contesto utente finale crittografato.
  4. Il frontend dell'applicazione invia una RPC tramite ALTS a un servizio di backend di archiviazione, inoltrando il ticket nella richiesta al backend.
  5. Il servizio di backend utilizza la gestione degli accessi ai servizi per garantire i seguenti criteri sono veri:
    • Il frontend viene autenticato utilizzando un metodo valido, non revocato certificato. Questo controllo implica che è in esecuzione su un host attendibile e su BAB controlli riusciti.
    • L'identità ALTS del servizio frontend è autorizzata a effettuare al servizio di backend e presentare un ticket EUC.
    • Il ticket contestuale dell'utente finale è valido.
    • L'utente nel ticket EUC è autorizzato ad accedere ai dati richiesti.

Se uno di questi controlli ha esito negativo, la richiesta viene rifiutata.

Se questi controlli vengono superati, i dati vengono restituiti al frontend applicazione autorizzato e forniti all'utente autorizzato.

In molti casi, esiste una catena di chiamate backend e ogni servizio intermedio esegue un controllo di accesso ai servizi sulle RPC in entrata e il ticket viene forward sulle RPC in uscita.

Per ulteriori informazioni su come il traffico viene instradato all'interno della nostra infrastruttura, vedi Modalità di routing del traffico.

Esecuzione di una modifica al codice

Il diagramma seguente mostra come viene implementata una modifica del codice.

Come vengono apportate le modifiche al codice.

Per apportare una modifica al codice, procedi nel seguente modo:

  1. Uno sviluppatore apporta una modifica a un microservizio protetto da BAB. La modifica viene inviata al nostro repository di codice centrale, che applica la revisione del codice. Dopo l'approvazione, la modifica viene inviata al sistema di compilazione centrale affidabile che produce un pacchetto con un certificato firmato del file manifest della build verificabile.

  2. Al momento del deployment, BAB verifica che il processo sia stato seguito convalidando il certificato firmato dalla pipeline di build.

  3. Borg gestisce tutti gli aggiornamenti dei carichi di lavoro utilizzando un modello di affidabilità che garantisce e un'interruzione minima dei servizi, che si tratti di un'implementazione di routine o patch di sicurezza di emergenza.

  4. GFE trasferisce il traffico al nuovo deployment utilizzando il bilanciamento del carico per garantire la continuità delle operazioni.

Per ulteriori informazioni su questo processo, consulta Il nostro processo di sviluppo e produzione.

Tutti i carichi di lavoro devono essere isolati. Se il carico di lavoro ha un'affidabilità inferiore perché il codice sorgente ha origine all'esterno di Google, il deployment può essere eseguito in un ambiente protetto da gVisor o utilizzare altri livelli di isolamento. Questo isolamento aiuta a contenere un avversario che riesce a compromettere un’applicazione.

Implicazioni per la sicurezza cloud-native

Le sezioni seguenti mettono a confronto gli aspetti della sicurezza dell'infrastruttura tradizionale e i relativi contrappunti in un'architettura cloud-native.

Architettura dell'applicazione

Un modello di sicurezza più tradizionale, incentrato sulla sicurezza perimetrale, non può di proteggere autonomamente un'architettura cloud-native. Tradizionalmente, le applicazioni monolithic utilizzavano un'architettura a tre livelli e venivano implementate in data center aziendali privati con una capacità sufficiente a gestire i picchi di carico per gli eventi critici. Applicazioni con requisiti di rete o hardware specifici sono stati intenzionalmente distribuiti su macchine specifiche che in genere mantengono e gli indirizzi IP esterni. Le implementazioni erano poco frequenti, grandi e difficili da coordinare come le modifiche risultanti hanno interessato contemporaneamente molte parti dell'applicazione. Ciò ha portato alle applicazioni a lunghissima durata che vengono aggiornate con minore frequenza le patch di sicurezza vengono in genere applicate con minore frequenza.

Tuttavia, in un modello cloud-native, le applicazioni devono essere portabili ambienti diversi, perché possono essere eseguite in cloud pubblici, dati privati center o servizi in hosting di terze parti. Pertanto, anziché un'applicazione monolitica, un'applicazione containerizzata suddivisa in microservizi diventa ideale per gli ambienti cloud. I container disaccoppiano i programmi binari necessari per l'applicazione dal sistema operativo host sottostante e rendono le applicazioni più portabili. I nostri container sono immutabili, ovvero non cambiano dopo il deployment. Vengono invece ricompilati e sottoposti nuovamente a deployment spesso.

Con i container riavviati, arrestati o riprogrammati spesso, il riutilizzo e la condivisione di hardware e networking è più frequente. Grazie a un processo di creazione e distribuzione comune standardizzato, il processo di sviluppo è più coerente e uniforme tra i team, anche se i team gestiscono lo sviluppo dei propri microservizi in maniera indipendente. Di conseguenza, le considerazioni sulla sicurezza (come come revisioni della sicurezza, scansione del codice e gestione delle vulnerabilità), possono essere affrontati nelle prime fasi dei cicli di sviluppo.

Mesh di servizi

Creando un'infrastruttura condivisa e progettata in modo sicuro che tutti gli sviluppatori l'onere per gli sviluppatori di conoscere e implementare requisiti di sicurezza comuni ridotto al minimo. Le funzionalità di sicurezza dovrebbero richiedere un'integrazione minima o nulla in ogni applicazione ed è invece fornita come un tessuto che avvolge e e la connessione di tutti i microservizi. Viene comunemente chiamato mesh di servizi. Ciò significa, inoltre, che la sicurezza può essere gestita e implementata separatamente rispetto alle normali attività di sviluppo o deployment.

Un mesh di servizi è una struttura condivisa a livello dell'infrastruttura che avvolge e connette tutti i microservizi. Un mesh di servizi consente la comunicazione tra servizi, che può controllare il traffico, applicare criteri e monitorare a livello centralizzato le chiamate ai servizi.

Sicurezza Zero Trust

In un modello di sicurezza tradizionale che utilizza data center privati, delle applicazioni dipendono da un firewall per contribuire a proteggere i carichi di lavoro minacce esterne basate sulla rete.

Con un modello di sicurezza Zero Trust, le decisioni di autorizzazione non dipendono dai firewall. Invece, altri di controllo, come Workload Identity, l'autenticazione e l'autorizzazione, proteggere i microservizi assicurando che le connessioni interne o esterne siano convalidate prima di poter effettuare transazioni. Quando rimuovi la dipendenza dai firewall basati sulla rete, puoi implementare la segmentazione a livello di microservizi, nessuna attendibilità intrinseca tra i servizi. Con la segmentazione a livello di microservizi, traffico può avere diversi livelli di attendibilità con controlli diversi e tu non solo confrontando il traffico interno con quello esterno.

Requisiti di sicurezza condivisi integrati negli stack di servizi

In un modello di sicurezza tradizionale, le singole applicazioni sono responsabili della conformità ai propri requisiti di sicurezza, indipendentemente dagli altri servizi. Tali requisiti includono la gestione dell'identità, la terminazione TLS e la gestione dell'accesso ai dati. Ciò può portare a implementazioni incoerenti o problemi di sicurezza, poiché devono essere risolti in molti punti, il che rende correzioni più difficili da applicare.

In un'architettura cloud-native, i componenti vengono riutilizzati con maggiore frequenza tra i servizi. I punti di passaggio obbligato consentono di applicare i criteri in modo coerente tra i diversi servizi. È possibile applicare criteri diversi utilizzando sistemi di sicurezza diversi. i servizi di machine learning. Invece di richiedere che ogni applicazione implementi i servizi di sicurezza critici separatamente, puoi suddividere i diversi criteri in microservizi separati. Ad esempio, puoi creare un criterio per garantire l'accesso autorizzato ai dati utente e un altro per garantire l'uso di suite di crittografia TLS aggiornate.

Processi standardizzati con implementazioni più frequenti

In un modello di sicurezza tradizionale, i servizi condivisi sono limitati e il codice spesso duplicati e abbinati allo sviluppo locale. Grazie alla condivisione limitata, più difficile determinare l'impatto di una modifica e in che modo interessano molte parti di un'applicazione. Di conseguenza, le implementazioni sono poco frequenti e difficili da coordinare. Per apportare una modifica, gli sviluppatori potrebbero dover aggiornare direttamente il componente (ad esempio, l'apertura di connessioni SSH a ogni macchina virtuale per aggiornare una configurazione). Nel complesso, questo può portare a applicazioni estremamente longeve.

Dal punto di vista della sicurezza, poiché il codice è spesso duplicato, è più difficile e ancora più difficile garantire che quando una vulnerabilità venga fisso, è corretto ovunque.

In un'architettura cloud-native, le implementazioni sono frequenti e standardizzate. Questo procedura consente di spostare la sicurezza nelle fasi iniziali del ciclo di vita di sviluppo del software. Il termine inglese "shifting left" si riferisce all'anticipazione di fasi nel ciclo di vita di sviluppo del software come creazione del codice, compilazione, test, convalida e deployment. Lo spostamento verso sinistra consente un'applicazione più coerente e semplice della sicurezza, inclusa la regolare applicazione delle patch di sicurezza.

Il passaggio a BeyondProd

Il passaggio di Google a BeyondProd ha richiesto modifiche in due aree principali: nella nostra infrastruttura e nel nostro processo di sviluppo. Abbiamo affrontato questi problemi modifiche contemporaneamente, ma puoi intervenire in modo indipendente se desideri configurare qualcosa di simile nel tuo ambiente.

Modifica della nostra infrastruttura

Il nostro obiettivo è automatizzare la sicurezza nell’intera infrastruttura perché ritiene che la sicurezza debba adattarsi allo stesso modo in cui vengono scalati i servizi. I servizi devono essere sicuri per impostazione predefinita e non sicuri solo dopo che è stata presa una decisione esplicita di accettare i rischi. L'intervento umano diretto nella nostra infrastruttura deve essere un'eccezione e non la regola e, quando avviene, deve essere verificabile. Possiamo quindi autenticare un servizio in base al codice e alla configurazione di deployment del servizio stesso, invece che alle persone che ne hanno eseguito il deployment.

Abbiamo iniziato dalla costruzione di solide fondamenta di identificazione, autenticazione e autorizzazione dei servizi. Un microservizio utilizza un'identità del servizio per autenticarsi ad altri servizi in esecuzione nell'infrastruttura. Avere una base di identità di servizio attendibili ci ha permesso di implementare funzionalità di sicurezza che dipendono dalla convalida di queste identità di servizio, gestione dell'accesso ai servizi e ticket di contesto per l'utente finale. Per semplificare il passaggio per i servizi nuovi ed esistenti, per prima cosa abbiamo fornito ALTS come libreria con un singolo daemon helper. Questo daemon correva sull'host chiamato da ogni di servizio, per poi evolversi nel tempo in una libreria che utilizza le credenziali di servizio. La libreria ALTS è stata integrata perfettamente nella libreria RPC principale. Questo integrazione ne ha facilitato l'ampia adozione, senza oneri significativi singoli team di sviluppo. L'implementazione di ALTS è stata un prerequisito per l'implementazione gestione dell'accesso ai servizi e ticket di contesto per l'utente finale.

Modifica dei nostri processi di sviluppo

Per Google, è stato fondamentale stabilire un robusto processo di compilazione e revisione del codice per garantire l'integrità dei servizi in esecuzione. Abbiamo creato un processo di compilazione centrale dove abbiamo potuto iniziare ad applicare requisiti quali la revisione del codice da parte di due persone e la verifica automatica nelle fasi di compilazione e deployment. (Consulta Autorizzazione binaria per Borg per maggiori dettagli sul deployment.)

Una volta definite le basi, abbiamo iniziato a occuparci della necessità di eseguire codice esterno non attendibile nei nostri ambienti. Per raggiungere questo obiettivo, abbiamo iniziato la sandbox, prima con ptrace, e successivamente utilizzando gVisor. Analogamente, i deployment blu-verdi hanno offerto importanti vantaggi in termini di sicurezza (ad esempio nell'applicazione di patch) e affidabilità.

Abbiamo presto scoperto che era più semplice se un servizio cominciava registrando le violazioni delle norme invece di bloccarle. Il vantaggio di questo approccio è stato duplice:

  • Offriva ai proprietari dei servizi un'opportunità di testare le modifiche e valutare l'eventuale impatto sul loro servizio del passaggio a un ambiente cloud-native.
  • Ci ha permesso di correggere eventuali bug e identificare eventuali funzionalità aggiuntive. che potremmo dover fornire ai team di assistenza.

Ad esempio, durante l'onboarding di un servizio in BAB, i proprietari del servizio abilitano la modalità di solo controllo. Tale modalità consente di identificare codice o carichi di lavoro che non soddisfano i requisiti. Una volta risolti i problemi segnalati dalla modalità di solo controllo, i proprietari dei servizi passano alla modalità di applicazione forzata. In gVisor, questa operazione è stata eseguita partendo dalla limitazione tramite sandbox dei carichi di lavoro, anche in presenza di problemi di compatibilità con le funzioni sandbox, procedendo quindi a risolvere sistematicamente questi problemi per migliorare la capacità di limitazione.

Passaggi successivi