In che modo Google protegge lo spazio fisico-logico in un data center

Questi contenuti sono stati aggiornati a maggio 2024 e rappresentano lo status quo al momento della loro stesura. Le norme e i sistemi di sicurezza di Google possono variare in futuro, grazie al costante miglioramento della protezione per i nostri clienti.

Ogni data center di Google è un ambiente ampio e diversificato composto da macchine, dispositivi di networking e sistemi di controllo. I data center sono progettati come complessi industriali che richiedono un'ampia gamma di ruoli e competenze per gestire, mantenere e operare.

In questi ambienti complessi, la sicurezza dei tuoi dati è la nostra priorità assoluta. Google implementa sei livelli di controlli fisici (video) e molti controlli logici sulle macchine stesse. Inoltre, modelliamo continuamente scenari di minacce in cui alcuni controlli non vengono superati o non vengono applicati.

Alcuni scenari di minacce modellano i rischi legati agli addetti ai lavori e presuppongono che un utente malintenzionato abbia già accesso legittimo al piano del data center. Questi scenari rivelano uno spazio tra controlli fisici e logici che richiede anche una difesa in profondità. Questo spazio, definito come arms-length da una macchina in un rack all'ambiente di runtime della macchina, è noto come spazio fisico-logico.

Lo spazio fisico-logico è simile all'ambiente fisico attorno al tuo cellulare. Anche se lo smartphone è bloccato, concedi l'accesso fisico solo alle persone che hanno un motivo valido per l'accesso. Google adotta lo stesso approccio per le macchine che contengono i tuoi dati.

Riepilogo dei controlli da fisico a logico

All'interno dello spazio fisico-logico, Google utilizza tre controlli che interagiscono tra loro:

  • Rafforzamento dell'hardware: riduci i percorsi di accesso fisico di ogni macchina, noti come superficie di attacco, nei seguenti modi:
    • Riduci al minimo i vettori di accesso fisico, come le porte.
    • Blocca i percorsi rimanenti a livello di firmware, tra cui il sistema di input/output di base (BIOS), eventuali controller di gestione e dispositivi periferici.
  • Rilevamento di eventi anomali: genera avvisi quando i controlli da fisico a logico rilevano eventi anomali.
  • Autodifesa del sistema: riconosci un cambiamento nell'ambiente fisico e rispondi alle minacce con azioni difensive.

Insieme, questi controlli forniscono una risposta di difesa in profondità agli eventi di sicurezza che si verificano nell'ambito fisico-logico. Il seguente diagramma mostra tutti e tre i controlli attivi su un alloggiamento sicuro in un rack.

I tre controlli attivi su un alloggiamento sicuro in un rack.

Rafforzamento dell'hardware

La protezione dell'hardware aiuta a ridurre la superficie di attacco fisica per ridurre al minimo i rischi residui.

Un data center aziendale convenzionale ha una pianta aperta e file di rack senza barriere tra il pannello frontale e le persone al piano del data center. In un data center di questo tipo potrebbero essere presenti macchine con molte porte esterne, ad esempio USB-A, Micro-USB o RJ-45, che aumentano il rischio di un attacco. Chiunque abbia accesso fisico al pavimento del data center può accedere in modo facile e veloce allo spazio di archiviazione rimovibile o collegare una chiavetta USB contenente malware a una porta del pannello frontale esposta. I data center di Google utilizzano la protezione dell'hardware come controllo di base per contribuire a mitigare questi rischi.

Il rafforzamento dell'hardware è una serie di misure preventive sul rack e sulle sue macchine che aiutano a ridurre il più possibile la superficie di attacco fisica. I sistemi di protezione avanzata sulle macchine includono:

  • Rimuovi o disabilita le porte esposte e blocca le porte rimanenti a livello di firmware.
  • Monitora i supporti di archiviazione con segnali di rilevamento delle manomissioni ad alta precisione.
  • Cripta i dati at-rest.
  • Se supportata dall'hardware, utilizza l'attestazione del dispositivo per impedire il deployment nell'ambiente di runtime di dispositivi non autorizzati.

In alcuni scenari, per garantire che nessun personale abbia accesso fisico alle macchine, Google installa anche alloggiamenti rack sicuri che contribuiscono a prevenire o scoraggiare le manomissioni. Gli alloggiamenti a rack sicuri costituiscono una barriera fisica immediata per i passanti e possono anche attivare allarmi e notifiche per il personale addetto alla sicurezza. Gli armadi, insieme alle correzioni delle macchine discusse in precedenza, forniscono un potente livello di protezione per lo spazio fisico-logico.

Le seguenti immagini mostrano l'avanzamento da rack completamente aperti a alloggiamenti rack protetti con protezione hardware completa.

  • Nell'immagine seguente viene mostrato un rack senza protezione hardware:

    Un rack senza protezione hardware.

  • Nell'immagine seguente viene mostrato un rack con alcuni requisiti di protezione hardware:

    Un rack con un po' di protezione hardware.

  • L'immagine seguente mostra la parte anteriore e il retro di un rack con protezione hardware completa:

    Fronte e retro di un rack con protezione hardware completa.

Rilevamento di eventi anomali

Il rilevamento di eventi anomali consente al personale di sicurezza di sapere quando le macchine riscontrano eventi imprevisti.

In tutto il settore, le organizzazioni possono impiegare mesi o anni per scoprire violazioni della sicurezza, e spesso solo dopo che si sono verificati danni o perdite significative. L'indicatore critico di compromissione (IoC) potrebbe andare perso in un volume elevato di dati di logging e telemetria provenienti da milioni di macchine di produzione. Google, tuttavia, utilizza più stream di dati per identificare in tempo reale potenziali eventi di sicurezza da fisica a logica. Questo controllo è chiamato rilevamento di eventi anomali.

Le macchine moderne monitorano e registrano il loro stato fisico, oltre agli eventi che si verificano nello spazio fisico-logico. Le macchine ricevono queste informazioni tramite software di sistemi automatizzati sempre presenti. Il software può essere eseguito su computer in miniatura all'interno della macchina, chiamati controller di gestione di base (BMC) o come parte di un daemon del sistema operativo. Questo software segnala eventi importanti come tentativi di accesso, inserimento di dispositivi fisici e allarmi dei sensori, come i sensori di manomissione di un alloggiamento.

Per le macchine con radice di attendibilità hardware, i segnali di rilevamento di eventi anomali diventano ancora più potenti. La radice di attendibilità hardware consente al software di sistema, come il firmware BMC, di attestare che si è avviato in modo sicuro. Pertanto, i sistemi di rilevamento di Google hanno un grado ancora maggiore di affidabilità della validità degli eventi segnalati. Per ulteriori informazioni sulle root di attendibilità indipendenti, consulta Attestazione remota di macchine disaggregate.

Autodifesa del sistema

L'autodifesa del sistema consente ai sistemi di rispondere a potenziali compromissioni con un'azione difensiva immediata.

Alcuni scenari di minaccia presuppongono che un utente malintenzionato nello spazio fisico-logico possa annullare le misure di accesso fisico discusse nella sezione Rafforzamento dell'hardware. Un utente malintenzionato di questo tipo potrebbe prendere di mira i dati utente o un processo sensibile in esecuzione su una macchina.

Per mitigare questo rischio, Google implementa l'autodifesa del sistema, un controllo che fornisce una risposta immediata e decisiva a qualsiasi potenziale compromissione. Questo controllo utilizza la telemetria dell'ambiente fisico per agire nell'ambiente logico.

La maggior parte degli ambienti di produzione su larga scala dispone di più macchine fisiche in un rack. Ogni macchina fisica esegue più carichi di lavoro, ad esempio macchine virtuali (VM) o container Kubernetes. Ogni VM esegue il proprio sistema operativo utilizzando memoria e spazio di archiviazione dedicati.

Per determinare quali carichi di lavoro sono esposti a eventi di sicurezza, Google aggrega i dati di telemetria dai controlli di protezione dell'hardware e dal rilevamento di eventi anomali. Successivamente, mettiamo in relazione i dati per generare un piccolo insieme di eventi ad alto rischio che richiedono un'azione immediata. Ad esempio, la combinazione di un allarme sicuro per lo sportello del rack e di un segnale di apertura del telaio di una macchina potrebbe costituire un evento ad alto rischio.

Quando Google rileva questi eventi, i sistemi possono intervenire immediatamente:

  • I carichi di lavoro esposti possono terminare immediatamente i servizi sensibili e cancellare tutti i dati sensibili.
  • La struttura di networking può isolare il rack interessato.
  • I carichi di lavoro interessati possono essere ripianificati su altre macchine o anche data center, a seconda della situazione.

Grazie al controllo dell'autodifesa del sistema, anche se un utente malintenzionato riesce a ottenere l'accesso fisico a un computer, non può estrarre alcun dato e non può spostarsi nell'ambiente.

Passaggi successivi


Di: Paul Pescitelli, Kevin Plybon