Iniziativa BeyondProd

Questi contenuti sono stati aggiornati a maggio 2024 e rappresentano lo status quo al momento della loro redazione. I criteri e i sistemi di sicurezza di Google potranno variare in futuro, in virtù del costante miglioramento della protezione per i nostri clienti.

Questo documento descrive come Google implementa la sicurezza nella propria infrastruttura utilizzando un'architettura cloud-native chiamata BeyondProd. BeyondProd si riferisce ai servizi e ai controlli della nostra infrastruttura che collaborano per contribuire a proteggere i carichi di lavoro. I carichi di lavoro sono le attività uniche completate da un'applicazione. BeyondProd contribuisce a proteggere i microservizi che eseguiamo nel nostro ambiente, incluso il modo in cui modifichiamo il codice e accediamo ai dati utente.

Il presente documento fa parte di una serie di articoli tecnici che descrivono i tecnologie come Chrome Enterprise Premium che abbiamo sviluppati per aiutare a difendere le piattaforme Google da minacce sofisticate. Chrome Enterprise Premium implementa un'architettura Zero Trust progettata per fornire un accesso sicuro alle piattaforme Google e ai servizi in esecuzione su di esse. Come Chrome Enterprise Premium, BeyondProd non si basa sulle protezioni tradizionali del perimetro della rete come i firewall. Al contrario, BeyondProd contribuisce a creare la fiducia tra i microservizi utilizzando caratteristiche come la provenienza del codice, le identità dei servizi e l'hardware attendibile. Questa attendibilità si estende al software eseguito in Google Cloud e a quello di cui viene eseguito il deployment e a cui accedono i clienti di Google Cloud.

Questo documento descrive i vantaggi di BeyondProd, i suoi servizi e processi e come abbiamo eseguito la migrazione a questa architettura. Per una panoramica della sicurezza della nostra infrastruttura, consulta la panoramica sulla progettazione della sicurezza dell'infrastruttura Google.

Introduzione

Le moderne architetture di sicurezza si sono allontanate dal modello di sicurezza tradizionale basato sul perimetro, in cui un firewall protegge il perimetro e tutti gli utenti o i servizi all'interno del perimetro sono considerati attendibili.

Oggi, gli utenti sono mobili e operano comunemente al di fuori dell'ambito tradizionale, ad esempio da casa, da un bar o da un aereo. Con Chrome Enterprise Premium, concediamo l'accesso alle risorse aziendali utilizzando più fattori, tra cui l'identità dell'utente, l'identità del dispositivo utilizzato per accedere alla risorsa, l'integrità del dispositivo, indicatori di attendibilità come il comportamento dell'utente e gli elenchi di controllo dell'accesso.

BeyondProd risolve lo stesso problema per i servizi di produzione che Chrome Enterprise Premium risolve per gli utenti. In un'architettura cloud-native, non possiamo semplicemente su un firewall per proteggere la rete di produzione. I microservizi si spostano distribuiti in ambienti diversi, in host eterogenei e operano in diversi livelli di attendibilità e sensibilità. Mentre Chrome Enterprise Premium afferma che l'attendibilità dell'utente deve dipendere da caratteristiche come lo stato sensibile al contesto dei dispositivi e non dalla capacità di connettersi alla rete aziendale, BeyondProd afferma che l'attendibilità del servizio deve dipendere da caratteristiche come la provenienza del codice, l'affidabilità dell'hardware e l'identità del servizio, piuttosto che dalla posizione nella rete di produzione, ad esempio l'indirizzo IP o il nome host.

Infrastruttura containerizzata

La nostra infrastruttura esegue il deployment dei carichi di lavoro come microservizi singoli in container. I microservizi separano le singole attività che un'applicazione deve eseguire in diversi servizi. Ogni servizio può essere sviluppato e gestito in modo indipendente con API, implementazione, scalabilità e gestione delle quote proprie. I microservizi sono indipendenti, modulari, dinamici e temporanei. Possono essere distribuiti su diversi host, cluster o anche cloud. In un microservizio , un carico di lavoro può essere costituito da uno o più microservizi.

In un'infrastruttura containerizzata, il deployment di ogni microservizio viene eseguito come proprio set di container mobili e programmabili. Per gestire questi container internamente, abbiamo sviluppato sistema di orchestrazione dei container chiamata Borg che esegue il deployment di diversi miliardi di container a settimana. Borg è il sistema di gestione dei container unificato di Google e l'ispirazione per Kubernetes.

I container semplificano e rendono più efficiente la pianificazione dei carichi di lavoro tra le macchine. La pacchettizzazione di microservizi in container consente di suddividere i carichi di lavoro in a unità più gestibili per la manutenzione e il rilevamento. Questa architettura consente di scalare carichi di lavoro in base alle esigenze: se c'è una domanda elevata per un particolare carico di lavoro, possono essere più macchine che eseguono copie dello stesso container per gestire del carico di lavoro.

In Google, la sicurezza svolge un ruolo fondamentale in ogni evoluzione dei nostri dell'architettura. Il nostro obiettivo per questa architettura di microservizi e il processo di sviluppo è risolvere i problemi relativi alla sicurezza il prima possibile in fase di sviluppo e deployment, quando affrontarli è meno costoso, e farlo in maniera standardizzata e coerente. Il risultato finale consente agli sviluppatori di dedicare meno tempo alla sicurezza, ottenendo al contempo risultati più sicuri.

Vantaggi di BeyondProd

BeyondProd offre numerosi vantaggi in termini di automazione e sicurezza dell'infrastruttura di Google. I vantaggi includono:

  • Protezione perimetrale della rete: i carichi di lavoro sono isolati dagli attacchi alla rete e dal traffico non autorizzato proveniente da internet. Sebbene un approccio di perimetro non sia un concetto nuovo, rimane una best practice per la sicurezza delle architetture cloud. Un approccio perimetrale consente di proteggere il maggior numero possibile di infrastrutture da traffico non autorizzato e attacchi potenziali provenienti da internet, ad esempio attacchi DoS basati sui volumi.
  • Nessuna attendibilità reciproca intrinseca tra i servizi:solo autenticati, i chiamanti o i servizi fidati e specificamente autorizzati possono accedere a qualsiasi altro servizio. In questo modo i malintenzionati non possono usare codice non attendibile per accedere a un completamente gestito di Google Cloud. Se un servizio viene compromesso, questo vantaggio contribuisce a impedire all'aggressore di eseguire azioni che gli consentano di espandere la propria copertura. Questa sfiducia reciproca, combinata con il controllo degli accessi granulare, consente di limitare la portata dell'attacco.
  • Macchine attendibili che eseguono codice di provenienza nota: le identità dei servizi sono costrette a utilizzare solo configurazioni e codice autorizzati e a eseguire solo in ambienti verificati e autorizzati.
  • Applicazione coerente delle norme a tutti i servizi: norme coerenti aiuta a garantire che le decisioni di accesso siano affidabili i servizi di machine learning. Ad esempio, puoi creare un'applicazione dei criteri che verifichi le richieste di accesso ai dati utente. Per accedere al servizio, un utente l'utente deve presentare una richiesta convalidata e un amministratore deve fornire una giustificazione aziendale.
  • Implementazione semplice, automatica e standardizzata delle modifiche: infrastruttura le modifiche possono essere facilmente esaminate per verificare il loro impatto sulla sicurezza Le patch possono essere implementate con un impatto minimo sulla produzione.
  • Isolamento tra carichi di lavoro che condividono un sistema operativo: se un se un servizio è compromesso, non ciò può influire sulla sicurezza di un altro carico di lavoro in esecuzione sullo stesso host. Questo isolamento contribuisce a limitare la portata dell'attacco.
  • Hardware e attestazione attendibili:una radice di attendibilità hardware consente garantire che solo il codice noto e autorizzato (dal firmware alla modalità utente) in esecuzione sull'host prima che sia pianificata l'esecuzione di qualsiasi carico di lavoro.

Grazie a questi vantaggi, i container e i microservizi che vengono eseguiti all'interno della nostra architettura cloud possono essere implementati, comunicare tra loro ed essere eseguiti uno accanto all'altro senza indebolire la sicurezza della nostra infrastruttura. Inoltre, i singoli sviluppatori di microservizi non sono gravati dai dettagli di sicurezza e implementazione dell'infrastruttura sottostante.

Servizi di sicurezza BeyondProd

Abbiamo progettato e sviluppato diversi servizi di sicurezza BeyondProd per creare i vantaggi descritti nella sezione Vantaggi di BeyondProd. Nelle sezioni seguenti vengono descritti questi servizi di sicurezza.

Front-end di Google per la protezione perimetrale della rete

Google Front End (GFE) fornisce protezione all'edge della rete. GFE termina la connessione dall'utente finale e offre un punto centrale per applicare le best practice TLS.

Anche se la nostra enfasi non è più sulla sicurezza perimetrale, GFE è rappresentano ancora una parte importante della nostra strategia di protezione dei servizi interni Attacchi DoS. GFE è il primo punto di accesso per un utente che si connette a Google dell'infrastruttura. Dopo che un utente si connette alla nostra infrastruttura, GFE viene responsabile del bilanciamento del carico e del reindirizzamento del traffico tra le regioni in base alle esigenze. GFE è il proxy perimetrale che instrada il traffico al microservizio corretto.

Le VM dei clienti su Google Cloud non si registrano a GFE. Al contrario, si registrano con Cloud Front End, una configurazione speciale di GFE che utilizza lo stack di rete di Compute Engine. Cloud Front End consente alle VM dei clienti accedere direttamente a un servizio Google utilizzando il proprio indirizzo IP pubblico o privato. Gli indirizzi IP privati sono disponibili solo se è attivato Accesso privato Google.

Application Layer Transport Security per la fiducia tra i servizi

Application Layer Transport Security (ALTS) garantisce l'assenza di attendibilità reciproca intrinseca tra i servizi. ALTS è utilizzata per l'autenticazione RPC, l'integrità, la crittografia del traffico e le identità dei servizi. si tratta di un framework sistema di crittografia di autenticazione e crittografia del trasporto per i servizi di Google dell'infrastruttura. In generale, le identità sono associate a servizi anziché a un nome server o a un host specifico. Questa associazione consente un microservizio senza interruzioni la replica, il bilanciamento del carico e la ripianificazione tra host.

Ciascuna macchina dispone di credenziali ALTS per cui viene eseguito il provisioning utilizzando il sistema di integrità dell'host e che possono essere decriptate solo se il sistema di integrità dell'host ha verificato che l'avvio protetto è andato a buon fine. La maggior parte dei servizi Google viene eseguita come microservizi su Borg, e ognuno di questi microservizi ha la propria identità Identity. Borg Prime, il controller centralizzato di Borg, concede queste credenziali dei microservizi ALTS ai carichi di lavoro in base all'identità del microservizio. Il ALTS a livello di macchina le credenziali costituiscono il canale sicuro per il provisioning delle credenziali dei microservizi. in modo che solo le macchine che hanno superato la verifica dell'integrità dell'host l'avvio può ospitare carichi di lavoro basati su microservizi. Per ulteriori informazioni su ALTS le credenziali, consulta Certificati per il carico di lavoro.

Autorizzazione binaria per Borg per la provenienza del codice

Autorizzazione binaria per Borg (BAB) fornisce la verifica della provenienza del codice. BAB è un controllo dell'applicazione forzata in fase di deployment che contribuisce a garantire che il codice soddisfi i requisiti di sicurezza interni prima del deployment. Ad esempio, il controllo dell'applicazione forzata BAB include l'assicurazione che le modifiche vengano esaminate da un secondo tecnico prima che il codice venga inviato al nostro repository di codice sorgente e che i programmi binari vengano compilati in modo verificabile su un'infrastruttura dedicata. Nella nostra infrastruttura, BAB limita il deployment di microservizi non autorizzati.

Integrità dell'host per l'attendibilità della macchina

L'integrità dell'host verifica l'integrità del software del sistema host tramite una procedura di avvio protetto ed è supportata da un chip di sicurezza hardware radice di attendibilità (chiamato Titan) ove supportato. I controlli di integrità dell'host includono la verifica delle firme digitali su il BIOS, il controller di gestione della scheda di base (BMC), bootloader e kernel del sistema operativo. Se supportati, i controlli dell'integrità dell'host possono includere codice in modalità utente e firmware delle periferiche (come le NIC). Oltre che per il digitale verifica della firma, l'integrità dell'host aiuta ad assicurare che ogni host sia in esecuzione la versione prevista di questi componenti software.

Gestione dell'accesso ai servizi e ticket contestuali per l'utente finale per l'applicazione dei criteri

La gestione dell'accesso ai servizi e ticket di contesto utente finale contribuiscono a garantire l'applicazione coerente dei criteri nei vari servizi.

La gestione dell'accesso ai servizi limita la modalità di accesso ai dati tra i servizi. Quando una RPC viene inviata da un servizio a un altro, la gestione dell'accesso ai servizi definisce i criteri di autorizzazione e controllo richiesti dai servizi per accedere ai dati del servizio di destinazione. Si limita così la modalità di accesso ai dati, viene garantito il livello minimo di accesso necessario e viene specificata la modalità di controllo dell'accesso. Su Google a livello di infrastruttura, Service Access Management limita l'accesso di un microservizio i dati di un altro microservizio e consente l'analisi globale dei controlli dell'accesso.

I ticket contesto utente finale vengono emessi da un servizio di autenticazione dell'utente finale e forniscono ai servizi un'identità utente separata dall'identità servizio. Questi ticket sono credenziali con integrità protetta, emesse a livello centrale e inoltrabili che attestano l'identità di un utente finale che ha richiesto il servizio. Questi ticket riducono la necessità di considerare attendibilità tra i servizi, in quanto peer che le identità che utilizzano ALTS possono essere insufficienti per concedere l'accesso, le decisioni si basano in genere anche sull'identità dell'utente finale.

Strumenti Borg per l'implementazione automatica delle modifiche e la scalabilità

Gli strumenti Borg per i deployment blue-green consentono di implementare le modifiche in modo semplice, automatico e standardizzato. Un deployment blu/verde è un modo per implementare una modifica a un carico di lavoro senza influire sul traffico in entrata, per cui gli utenti finali non rilevano alcun tempo di inattività nell'accesso all'applicazione.

Un job Borg è una singola istanza di un microservizio che esegue una parte di un'applicazione. I job vengono scalati per gestire il carico e ne viene eseguito il deployment all'aumentare del carico. e i job esistenti sono stati terminati quando il carico diminuisce.

Gli strumenti Borg sono responsabili della migrazione dei carichi di lavoro in esecuzione attività di manutenzione. Quando viene eseguito il deployment di un nuovo job Borg, un bilanciatore del carico sposta gradualmente il traffico da un job esistente a quello nuovo. Ciò consente di aggiornare un microservizio senza tempi di inattività e senza che l'utente se ne accorga.

Utilizziamo questo strumento anche per applicare upgrade dei servizi quando aggiungiamo nuove funzionalità e per applicare aggiornamenti critici della sicurezza senza tempi di inattività. Per le modifiche che interessano la nostra infrastruttura, utilizziamo migrazione live delle VM dei clienti, per garantire che non ci siano conseguenze sui carichi di lavoro.

Per ulteriori informazioni, consulta Autorizzazione binaria per Borg.

Kernel gVisor per l'isolamento dei carichi di lavoro

Il kernel gVisor consente l'isolamento tra i carichi di lavoro che condividono un sistema operativo. gVisor utilizza un kernel dello spazio utente per intercettare e gestire le chiamate di sistema, riducendo l' interazione con l'host e la potenziale superficie di attacco. Questo kernel offre la maggior parte delle funzionalità necessarie per eseguire un'applicazione e limita la superficie del kernel dell'host accessibile all'applicazione. gVisor è uno dei vari strumenti che utilizziamo per isolare i carichi di lavoro interni e quelli dei clienti Google Cloud in esecuzione sullo stesso host. Per ulteriori informazioni su altri strumenti di sandboxing, consulta Sandboxing del codice.

Protezione dei dati utente con BeyondProd

Questa sezione descrive il modo in cui i servizi BeyondProd collaborano per contribuire a proteggere i dati utente nella nostra infrastruttura. Le sezioni seguenti descrivono due esempi:

  • Accesso alle richieste di dati degli utenti dalla loro creazione alla consegna presso destinazione.
  • Una modifica del codice dallo sviluppo alla produzione.

Non tutte le tecnologie elencate vengono utilizzate in tutte le parti della nostra infrastruttura; dipende dai servizi e dai carichi di lavoro.

Accesso ai dati utente

Il diagramma seguente mostra il processo utilizzato dalla nostra infrastruttura per verificare un utente è autorizzato ad accedere ai dati utente.

I controlli di sicurezza cloud-native di Google per l'accesso ai dati utente.

I passaggi per accedere agli account utente sono i seguenti:

  1. Un utente invia una richiesta al GFE.
  2. GFE termina la connessione TLS e inoltra la richiesta al frontend del servizio appropriato utilizzando ALTS.
  3. Il frontend dell'applicazione autentica la richiesta dell'utente utilizzando un servizio di autenticazione dell'utente finale (EUA) centrale e, in caso di esito positivo, riceve un breve ticket di contesto utente finale crittografato.
  4. Il frontend dell'applicazione invia una RPC a un backend di archiviazione inoltrando il ticket nella richiesta di backend.
  5. Il servizio di backend utilizza la gestione dell'accesso ai servizi per garantire che i seguenti criteri siano veri:
    • Il frontend viene autenticato utilizzando un metodo valido, non revocato certificato. Questo controllo implica che sia in esecuzione su un host attendibile e che i controlli BAB siano riusciti.
    • L'identità ALTS del servizio frontend sia autorizzata a inviare richieste al servizio di backend e presenti un ticket EUC.
    • Il ticket contestuale dell'utente finale è valido.
    • L'utente nel ticket EUC è autorizzato ad accedere ai dati richiesti.

Se uno di questi controlli ha esito negativo, la richiesta viene rifiutata.

Se questi controlli vengono superati, i dati vengono restituiti al frontend applicazione autorizzato e forniti all'utente autorizzato.

In molti casi, esiste una catena di chiamate backend e ogni servizio intermedio esegue un controllo di accesso al servizio sulle RPC in entrata e il ticket viene inoltrato e gli RPC in uscita.

Per ulteriori informazioni su come il traffico viene instradato all'interno della nostra infrastruttura, vedi Modalità di routing del traffico.

Esecuzione di una modifica al codice

Il diagramma seguente mostra come viene eseguito il deployment di una modifica al codice.

Come vengono apportate le modifiche al codice.

I passaggi per apportare una modifica al codice sono i seguenti:

  1. Uno sviluppatore apporta una modifica a un microservizio protetto da BAB. La una modifica viene inviata al nostro repository centrale di codice, che applica la revisione del codice. Dopo l'approvazione, la modifica viene inviata alla build centrale attendibile sistema che produce un pacchetto con un manifest di build verificabile firmato certificato.

  2. Al momento del deployment, BAB verifica che il processo sia stato seguito convalidando il certificato firmato dalla pipeline di compilazione.

  3. Borg gestisce tutti gli aggiornamenti dei carichi di lavoro utilizzando un modello di affidabilità che garantisce un'interruzione minima dei servizi, che si tratti di un'implementazione di routine o di una patch di sicurezza di emergenza.

  4. GFE sposta il traffico nel nuovo deployment utilizzando il bilanciamento del carico per contribuire a garantire la continuità delle operazioni.

Per ulteriori informazioni su questo processo, consulta Il nostro processo di sviluppo e produzione.

Tutti i carichi di lavoro devono essere isolati. Se il carico di lavoro ha un'affidabilità inferiore perché il codice sorgente ha origine all'esterno di Google, il deployment può essere eseguito in un ambiente protetto da gVisor o utilizzare altri livelli di isolamento. Questo isolamento contribuisce a contenere un avversario che riesce a compromettere un'applicazione.

Implicazioni della sicurezza cloud-native

Le sezioni seguenti mettono a confronto gli aspetti della sicurezza dell'infrastruttura tradizionale e i relativi contrappunti in un'architettura cloud-native.

Architettura dell'applicazione

Un modello di sicurezza più tradizionale, incentrato sulla sicurezza del perimetro, non è in grado di proteggere da solo un'architettura cloud-native. Tradizionalmente, le applicazioni monolitiche utilizzavano un'architettura a tre livelli e il deployment delle applicazioni è stato eseguito di data center aziendali dotati di capacità sufficiente per gestire i picchi di carico a eventi critici. Le applicazioni con requisiti di rete o hardware specifici venivano appositamente implementate su macchine specifiche, che di solito mantengono indirizzi IP fissi. Le implementazioni erano poco frequenti, voluminose e difficili da coordinare poiché le modifiche che ne conseguono si riflettevano contemporaneamente su molte parti dell'applicazione. Ciò ha portato a applicazioni dalla durata estremamente lunga con aggiornamenti e applicazioni delle patch di sicurezza meno frequenti.

Tuttavia, in un modello cloud-native, le applicazioni devono essere portabili ambienti diversi, perché possono essere eseguite in cloud pubblici, dati privati center o servizi in hosting di terze parti. Di conseguenza, invece di un modello un'applicazione containerizzata, suddivisa in microservizi diventa ideale per gli ambienti cloud. I container disaccoppiano i file binari le esigenze delle applicazioni dal sistema operativo host sottostante e la portabilità delle applicazioni. I nostri container sono immutabili, ovvero non cambiano dopo il deployment. Vengono invece ricompilati e sottoposti nuovamente a deployment spesso.

Con i container che vengono riavviati, arrestati o ripianificati spesso, c'è di riutilizzo e condivisione frequenti di hardware e networking. Con un comune di creazione e distribuzione standardizzati, il processo di sviluppo è coerente e uniforme tra i team, anche se i team gestiscono in modo indipendente lo sviluppo dei propri microservizi. Di conseguenza, le considerazioni relative alla sicurezza (ad esempio le revisioni della sicurezza, la scansione del codice e la gestione delle vulnerabilità) possono essere affrontate nelle prime fasi dei cicli di sviluppo.

Mesh di servizi

Creando un'infrastruttura condivisa e progettata in modo sicuro che tutti gli sviluppatori l'onere per gli sviluppatori di conoscere e implementare requisiti di sicurezza comuni ridotto al minimo. Le funzionalità di sicurezza dovrebbero richiedere un'integrazione minima o nulla in ogni applicazione ed è invece fornita come un tessuto che avvolge e e la connessione di tutti i microservizi. Viene comunemente chiamato mesh di servizi. Questo significa anche che la sicurezza può essere gestita e implementata separatamente rispetto alle normali attività di sviluppo e deployment.

Un mesh di servizi è un'infrastruttura condivisa a livello di infrastruttura che avvolge e collega tutti i microservizi. Un mesh di servizi consente la comunicazione tra servizi, che può controllare il traffico, applicare criteri e monitorare a livello centralizzato le chiamate ai servizi.

Sicurezza Zero Trust

In un modello di sicurezza tradizionale che utilizza data center privati, le applicazioni di un'organizzazione dipendono da un firewall per contribuire a proteggere i carichi di lavoro dalle minacce esterne basate sulla rete.

Con un modello di sicurezza Zero Trust, le decisioni di autorizzazione non dipendono dai firewall. Invece, altri di controllo, come Workload Identity, l'autenticazione e l'autorizzazione, proteggere i microservizi assicurando che le connessioni interne o esterne siano convalidate prima di poter effettuare transazioni. Quando rimuovi la dipendenza dai firewall basati sulla rete, puoi implementare la segmentazione a livello di microservizi, nessuna attendibilità intrinseca tra i servizi. Con la segmentazione a livello di microservizio, il traffico può avere diversi livelli di attendibilità con controlli diversi e non confronti più solo il traffico interno con quello esterno.

Requisiti di sicurezza condivisi integrati negli stack dei servizi

In un modello di sicurezza tradizionale, le singole applicazioni sono responsabili della conformità ai propri requisiti di sicurezza, indipendentemente dagli altri servizi. Tale I requisiti includono la gestione delle identità, la terminazione TLS e l'accesso ai dati. gestione dei dispositivi. Ciò può portare a implementazioni incoerenti o problemi di sicurezza, poiché devono essere risolti in molti punti, il che rende correzioni più difficili da applicare.

In un'architettura cloud-native, i componenti vengono riutilizzati con maggiore frequenza tra i servizi. I punti di passaggio obbligato consentono di applicare i criteri in modo coerente tra i diversi servizi. Possono essere applicati criteri differenti utilizzando diversi servizi di sicurezza. Invece di richiedere che ogni applicazione implementi i servizi di sicurezza critici separatamente, puoi suddividere i diversi criteri in microservizi separati. Ad esempio, puoi creare un unico criterio per garantire l'accesso ai dati utente e creare un altro criterio per garantire l'uso di suite di crittografia TLS.

Processi standardizzati con implementazioni più frequenti

In un modello di sicurezza tradizionale, i servizi condivisi sono limitati e il codice spesso duplicati e abbinati allo sviluppo locale. La condivisione limitata rende più difficile determinare l'impatto di una modifica e in che modo questa potrebbe influire su molte parti di un'applicazione. Di conseguenza, le implementazioni sono poco frequenti e difficili da coordinare. Per apportare una modifica, gli sviluppatori potevano aver bisogno di aggiornare direttamente ciascun componente (ad esempio, aprendo connessioni SSH a ogni macchina virtuale per aggiornare una configurazione). Nel complesso, questo può portare a applicazioni estremamente longeve.

Dal punto di vista della sicurezza, dato che il codice è spesso duplicato, è più difficile e ancora più difficile garantire che quando una vulnerabilità venga fisso, è corretto ovunque.

In un'architettura cloud-native, le implementazioni sono frequenti e standardizzate. Questo procedura consente di spostare la sicurezza nelle fasi iniziali del ciclo di vita di sviluppo del software. Il termine inglese "shifting left" si riferisce all'anticipazione di fasi nel ciclo di vita di sviluppo del software come creazione del codice, compilazione, test, convalida e deployment. Il passaggio a sinistra consente un'applicazione più semplice e coerente della sicurezza, inclusa la regolare applicazione delle patch di sicurezza.

Il passaggio a BeyondProd

La transizione di Google a BeyondProd ha richiesto modifiche in due nella nostra infrastruttura e nel nostro processo di sviluppo. Abbiamo affrontato queste modifiche contemporaneamente, ma puoi gestirle in modo indipendente se vuoi configurare qualcosa di simile nel tuo ambiente.

Modifica della nostra infrastruttura

Il nostro obiettivo è automatizzare la sicurezza nell’intera infrastruttura perché ritiene che la sicurezza debba adattarsi allo stesso modo in cui vengono scalati i servizi. I servizi devono essere sicuri per definizione e non sicuri solo dopo che è stata presa una decisione esplicita di accettare i rischi. L'intervento umano diretto nella nostra infrastruttura deve essere un'eccezione e non la regola e, quando avviene, deve essere verificabile. Possiamo quindi autenticare un servizio in base il codice e la configurazione di cui viene eseguito il deployment per il servizio, invece che in base chi ha eseguito il deployment del servizio.

Abbiamo iniziato dalla costruzione di solide fondamenta di identificazione, autenticazione e autorizzazione dei servizi. Un microservizio utilizza un'identità del servizio per autenticarsi ad altri servizi in esecuzione nell'infrastruttura. Una solida base di identità di servizio attendibili ci ha consentito di implementare funzioni di sicurezza di massimo livello dipendenti dalla convalida di queste identità, quali la gestione dell'accesso ai servizi e i ticket contesto utente finale. Per semplificare il passaggio per i servizi nuovi ed esistenti, per prima cosa abbiamo fornito ALTS come libreria con un singolo daemon helper. Questo daemon veniva eseguito sull'host chiamato da ogni servizio e, nel corso del tempo, si è evoluto in una libreria che utilizza le credenziali di servizio. La libreria ALTS è stata integrata perfettamente nella libreria RPC principale. Questo integrazione ne ha facilitato l'ampia adozione, senza oneri significativi singoli team di sviluppo. L'implementazione di ALTS è stata un prerequisito per l'implementazione gestione dell'accesso ai servizi e ticket di contesto per l'utente finale.

Modifica dei nostri processi di sviluppo

Per Google, è stato fondamentale stabilire un robusto processo di compilazione e revisione del codice per garantire l'integrità dei servizi in esecuzione. Abbiamo creato una build centrale un processo in cui possiamo iniziare ad applicare requisiti quali un codice per due persone la revisione e i test automatizzati in fase di creazione e deployment. (Vedi Autorizzazione binaria per Borg per maggiori dettagli sul deployment).

Una volta organizzate le basi, abbiamo iniziato a occuparci dei requisiti per eseguire codice esterno non attendibile nei nostri ambienti. Per raggiungere questo obiettivo, abbiamo iniziato la sandbox, prima con ptrace, e successivamente utilizzando gVisor. Analogamente, i deployment blu-verdi hanno offerto importanti vantaggi in termini di sicurezza (ad esempio nell'applicazione di patch) e affidabilità.

Abbiamo presto scoperto che era più semplice se un servizio cominciava registrando le violazioni delle norme invece di bloccarle. Il vantaggio di questo approccio è stato duplice:

  • Ha fornito ai proprietari dei servizi la possibilità di testare la modifica e l'eventuale impatto che il passaggio a un ambiente cloud-native avrebbe il loro servizio.
  • Ci ha permesso di correggere eventuali bug e di identificare le funzionalità aggiuntive che potremmo dover fornire ai team di assistenza.

Ad esempio, durante l'onboarding di un servizio in BAB, i proprietari del servizio abilitano la modalità di solo controllo. Tale modalità consente di identificare codice o carichi di lavoro che non soddisfano i requisiti. Una volta risolti i problemi segnalati dalla modalità di solo controllo, se i proprietari del servizio passano alla modalità di applicazione forzata. In gVisor, questa operazione è stata eseguita partendo dalla limitazione tramite sandbox dei carichi di lavoro, anche in presenza di problemi di compatibilità con le funzioni sandbox, procedendo quindi a risolvere sistematicamente questi problemi per migliorare la capacità di limitazione.

Passaggi successivi