In che modo Google protegge lo spazio fisico-logico in un data center

Questi contenuti sono stati aggiornati a maggio 2024 e rappresentano lo status quo al momento della loro redazione. I criteri e i sistemi di sicurezza di Google potranno variare in futuro, in virtù del costante miglioramento della protezione per i nostri clienti.

Ogni data center di Google è un ambiente ampio e diversificato di macchine, dispositivi di rete e sistemi di controllo. I data center sono progettati come complessi industriali che richiedono un'ampia gamma di ruoli e competenze per la gestione, la manutenzione e il funzionamento.

In questi ambienti complessi, la sicurezza dei tuoi dati è la nostra massima priorità. Google implementa sei livelli di controlli fisici (video) e molti controlli logici sulle macchine stesse. Inoltre, modelliamo continuamente scenari di minacce in cui alcuni controlli non funzionano o non vengono applicati.

Alcuni scenari di minaccia modellano i rischi provenienti da personale interno e presuppongono che un utente malintenzionato abbia già accesso legittimo al data center. Questi scenari rivelano un vuoto tra i controlli fisici e logici che richiede anche una difesa in profondità. Questo spazio, definito come distanza da una macchina in un rack all'ambiente di runtime della macchina,è noto come spazio fisico-logico.

Lo spazio fisico-logico è simile all'ambiente fisico intorno al tuo cellulare. Anche se lo smartphone è bloccato, concedi l'accesso fisico solo alle persone che hanno un motivo valido per farlo. Google adotta lo stesso approccio per le macchine che contengono i tuoi dati.

Riepilogo dei controlli da fisico a logico

Nello spazio fisico-logico, Google utilizza tre controlli che lavorano insieme:

  • Ottimizzazione hardware:riduci i percorsi di accesso fisico di ogni macchina, noti come superficie di attacco, nei seguenti modi:
    • Riduci al minimo i vettori di accesso fisico, come le porte.
    • Blocca i percorsi rimanenti a livello di firmware, tra cui il sistema di input/output di base (BIOS), eventuali controller di gestione e dispositivi periferici.
  • Rilevamento di eventi anomali: genera avvisi quando i controlli da fisico a logico rilevano eventi anomali.
  • Difesa del sistema:rileva un cambiamento nell'ambiente fisico e rispondi alle minacce con azioni difensive.

Insieme, questi controlli forniscono una risposta di difesa in profondità agli eventi di sicurezza che si verificano nello spazio fisico-logico. Il seguente diagramma mostra tutti i tre i controlli attivi in un'apparecchiatura in rack sicura.

I tre controlli attivi in un rack sicuro.

Rafforzamento hardware

L'hardening hardware contribuisce a ridurre la superficie di attacco fisica per minimizzare i rischi residui.

Un data center aziendale convenzionale ha un layout aperto e file di rack senza barriere tra il pannello frontale e le persone al piano del data center. Un data center di questo tipo potrebbe avere macchine con molte porte esterne, ad esempio USB-A, micro-USB o RJ-45, che aumentano il rischio di un attacco. Chiunque abbia accesso fisico al data center può accedere rapidamente e facilmente allo spazio di archiviazione rimovibile o collegare una chiavetta USB con malware a una porta del pannello frontale esposta. I data center di Google utilizzano l'hardening hardware come controllo di base per contribuire a mitigare questi rischi.

L'hardening hardware è una suite di misure preventive sul rack e sulle sue macchine che contribuisce a ridurre al massimo la superficie di attacco fisica. Le misure di hardening sulle macchine includono:

  • Rimuovi o disabilita le porte esposte e blocca le porte rimanenti a livello di firmware.
  • Monitora i supporti di archiviazione con indicatori di rilevamento di manomissioni ad alta fedeltà.
  • Crittografa i dati at-rest.
  • Se supportato dall'hardware, utilizza l'attestazione del dispositivo per contribuire a impedire il deployment di dispositivi non autorizzati nell'ambiente di runtime.

In alcuni casi, per garantire che il personale non abbia accesso fisico alle macchine, Google installa anche armadi di sicurezza che aiutano a prevenire o scoraggiare le manomissioni. Le custodie dei rack sicure rappresentano una barriera fisica immediata per i passanti e possono anche attivare allarmi e notifiche per il personale di sicurezza. Le custodie, insieme alle correzioni delle macchine discusse in precedenza, forniscono un potente livello di protezione per lo spazio fisico-logico.

Le immagini seguenti illustrano la progressione dai rack completamente aperti alle chiusure di rack sicure con il rafforzamento hardware completo.

  • L'immagine seguente mostra un rack senza hardening hardware:

    Un rack senza hardening hardware.

  • L'immagine seguente mostra un rack con alcune misure di hardening hardware:

    Un rack con alcune misure di hardening hardware.

  • L'immagine seguente mostra la parte anteriore e posteriore di un rack con hardening hardware completo:

    La parte anteriore e posteriore di un rack con hardening hardware completo.

Rilevamento di eventi anomali

Il rilevamento di eventi anomali consente al personale di sicurezza di sapere quando le macchine si verificano eventi imprevisti.

A livello di settore, le organizzazioni possono impiegare mesi o anni per scoprire violazioni della sicurezza e spesso solo dopo che si sono verificati danni o perdite significativi. L'indicatore di compromissione critico (IoC) potrebbe andare perso in un volume elevato di dati di logging e telemetria di milioni di macchine di produzione. Google, tuttavia, utilizza più flussi di dati per contribuire a identificare in tempo reale potenziali eventi di sicurezza da fisico a logico. Questo controllo è chiamato rilevamento di eventi anomali.

Le macchine moderne monitorano e registrano il loro stato fisico, nonché gli eventi che si verificano nello spazio fisico-logico. Le macchine ricevono queste informazioni tramite il software di sistema automatico sempre presente. Questo software può essere eseguito su computer miniaturizzati all'interno della macchina, chiamati controller di gestione della base di supporto (BMC), o all'interno di un demone del sistema operativo. Questo software segnala eventi importanti come tentativi di accesso, inserimento di dispositivi fisici e allarmi dei sensori, ad esempio un sensore di manomissione della cassa.

Per le macchine con root of trust hardware, gli indicatori di rilevamento di eventi anomali diventano ancora più forti. La radice di attendibilità hardware consente al software di sistema, ad esempio il firmware BMC, di attestare che l'avvio è avvenuto in sicurezza. Pertanto, i sistemi di rilevamento di Google hanno un grado di certezza ancora maggiore che gli eventi segnalati siano validi. Per maggiori informazioni sulle radici di attendibilità indipendenti, consulta Attestazione remota delle macchine disaggregate.

Autodifesa del sistema

L'autodifesa del sistema consente ai sistemi di rispondere a potenziali compromessi con un'azione difensiva immediata.

Alcuni scenari di minacce presuppongono che un utente malintenzionato nello spazio fisico-logico possa aggirare le misure di accesso fisico discusse in Ottimizzazione hardware. Un utente malintenzionato potrebbe avere come target i dati utente o un processo sensibile in esecuzione su una macchina.

Per mitigare questo rischio, Google implementa la difesa del sistema: un controllo che fornisce una risposta immediata e decisiva a qualsiasi potenziale compromissione. Questo controllo utilizza la telemetria dell'ambiente fisico per agire nell'ambiente logico.

La maggior parte degli ambienti di produzione su larga scala ha più macchine fisiche in un singolo rack. Ogni macchina fisica esegue più carichi di lavoro, come macchine virtuali (VM) o container Kubernetes. Ogni VM esegue il proprio sistema operativo utilizzando memoria e spazio di archiviazione dedicati.

Per determinare quali carichi di lavoro sono esposti a eventi di sicurezza, Google aggrega i dati telemetrici dei controlli di rafforzamento hardware e del rilevamento di eventi anomali. Poi correlamo i dati per generare un piccolo insieme di eventi ad alto rischio che richiedono un'azione immediata. Ad esempio, la combinazione di un avviso sulla porta del rack protetta e un segnale di apertura del telaio della macchina potrebbe costituire un evento ad alto rischio.

Quando Google rileva questi eventi, i sistemi possono intervenire immediatamente:

  • I carichi di lavoro esposti possono interrompere immediatamente i servizi sensibili e cancellare qualsiasi dato sensibile.
  • La struttura di rete può isolare il rack interessato.
  • I carichi di lavoro interessati possono essere riprogrammati su altre macchine o persino su altri data center, a seconda della situazione.

Grazie al controllo di autodifesa del sistema, anche se un malintenzionato riesce ad accedere fisicamente a una macchina, non può estrarre dati e non può spostarsi lateralmente nell'ambiente.

Passaggi successivi


Autori: Paul Pescitelli, Kevin Plybon