In che modo Google protegge lo spazio fisico-logico in un data center

Questi contenuti sono stati aggiornati l'ultima volta a maggio 2023 e rappresentano lo status quo del momento in cui sono stati redatti. Criteri e sistemi di sicurezza di Google possono variare in futuro, grazie al costante miglioramento della protezione per i nostri clienti.

Ogni data center Google è un ambiente ampio e diversificato di macchine, dispositivi di networking e sistemi di controllo. I data center sono progettati come complessi industriali che richiedono un'ampia gamma di ruoli e competenze per la gestione, la manutenzione e l'utilizzo.

In questi ambienti complessi, la sicurezza dei tuoi dati è la nostra priorità. Google implementa sei livelli di controlli fisici (video) e molti controlli logici sulle macchine stesse. Inoltre, modelliamo continuamente scenari di minacce in cui determinati controlli non riescono o non vengono applicati.

Alcuni scenari di minacce modellano i rischi provenienti da personale interno e presuppongono che un utente malintenzionato disponga già di un accesso legittimo al data center. Questi scenari rivelano uno spazio tra controlli fisici e logici che richiede una difesa approfondita. Questo spazio, definito come lunghezza delle braccia da una macchina in un rack all'ambiente di runtime della macchina, è noto come spazio fisico-logico.

Lo spazio fisico-logico è simile all'ambiente fisico attorno al tuo smartphone. Anche se il telefono è bloccato, concedi l'accesso fisico solo alle persone che hanno un motivo valido per l'accesso. Google adotta lo stesso approccio con i computer in cui vengono archiviati i dati.

Riepilogo dei controlli fisico-logici

Nell'ambito fisico-logico, Google utilizza quattro controlli che funzionano insieme:

  • Protezione hardware: riduci i percorsi di accesso fisici di ogni macchina, noti come superficie di attacco, nei seguenti modi:
    • Riduci al minimo i vettori di accesso fisici, come le porte.
    • Blocca i percorsi rimanenti a livello di firmware, inclusi il sistema di I/O di base (BIOS), eventuali controller di gestione e dispositivi periferici.
  • Controllo controllo dell'accesso basato sulle attività: fornisci l'accesso ad alloggiamenti rack sicuri solo al personale in possesso di una giustificazione aziendale valida vincolata al tempo.
  • Rilevamento di eventi anomali: genera avvisi quando i controlli fisico-logico rilevano eventi anomali.
  • Autodifesa del sistema: riconosce un cambiamento nell'ambiente fisico e rispondi alle minacce con azioni difensive.

Insieme, questi controlli forniscono una risposta di difesa in profondità agli eventi di sicurezza che si verificano nello spazio fisico-logico. Il seguente diagramma mostra tutti e quattro i controlli attivi su un alloggiamento rack sicuro.

I quattro controlli attivi su un alloggiamento rack sicuro.

Protezione hardware

La protezione dell'hardware contribuisce a ridurre la superficie di attacco fisica per ridurre al minimo i rischi residui.

Un data center aziendale convenzionale ha una pianta aperta e file di rack senza barriere tra il pannello frontale e le persone al piano del data center. Un data center di questo tipo potrebbe disporre di macchine dotate di molte porte esterne, ad esempio USB-A, Micro USB o RJ-45, che aumentano il rischio di un attacco. Chiunque abbia accesso fisico al piano del data center può accedere in modo facile e veloce allo spazio di archiviazione rimovibile o collegare una chiavetta USB contenente malware a una porta del pannello frontale esposta. I data center di Google utilizzano la protezione dell'hardware come controllo di base per mitigare questi rischi.

La protezione dell'hardware è una suite di misure preventive sul rack e sulle sue macchine che consente di ridurre il più possibile la superficie di attacco fisica. La protezione avanzata delle macchine include quanto segue:

  • Rimuovi o disabilita le porte esposte e blocca le porte rimanenti a livello di firmware.
  • Monitora i supporti di archiviazione con indicatori di manomissione ad alta precisione.
  • Criptare i dati at-rest.
  • Se supportata dall'hardware, utilizza l'attestazione dei dispositivi per impedire il deployment dei dispositivi non autorizzati nell'ambiente di runtime.

In alcuni scenari, per garantire che nessun personale abbia accesso fisico alle macchine, Google installa anche alloggiamenti rack sicuri che aiutano a prevenire o scoraggiare le manomissioni. Gli alloggiamenti sicuri dei rack rappresentano una barriera fisica immediata per i passanti e possono anche attivare allarmi e notifiche per il personale di sicurezza. Gli alloggiamenti, combinati con le correzioni delle macchine illustrate in precedenza, forniscono un potente livello di protezione per lo spazio da fisico a logico.

Le immagini seguenti mostrano il passaggio dai rack completamente aperti agli alloggiamenti rack con protezione completa dell'hardware.

  • La seguente immagine mostra un rack senza protezione dell'hardware:

    Un rack senza protezione hardware.

  • Nell'immagine seguente viene mostrato un rack con protezione hardware:

    Un rack con un po' di protezione hardware.

  • L'immagine seguente mostra il fronte e il retro di un rack con protezione hardware completa:

    Fronte e retro di un rack con protezione hardware completa.

Controllo dell'accesso basato sulle attività

I controlli dell'accesso basati sulle attività (TBAC) contribuiscono a garantire che solo il personale con un'esigenza aziendale valida possa accedere alle macchine sensibili.

Gli alloggiamenti di rack sicuri devono bilanciare la sicurezza fisica e l'accesso per motivi validi. Per mantenere la complessa infrastruttura per i clienti, Google deve essere in grado di garantire un accesso rapido e affidabile per esigenze aziendali valide, come le riparazioni delle macchine. Inoltre, i tentativi di accesso non autorizzati devono essere registrati e segnalati per l'indagine.

TBAC abilita entrambe le funzionalità. Il personale dei data center riceve l'accesso vincolato al tempo a un singolo box rack sicuro in base ad attività aziendali specifiche, e i sistemi TBAC applicano tale accesso. TBAC registra tutti i tentativi di accesso e avvisa il personale di sicurezza quando vengono rilevati potenziali eventi di sicurezza.

Ad esempio: dopo aver ricevuto una richiesta di lavoro, un supervisore può generare un'attività per una macchina ospitata in un rack denominato Secure Rack Enclosure 123. Il supervisore quindi stabilisce un periodo di tempo per il lavoro (ad esempio, due ore). Quando un tecnico rivendica il ticket di lavoro, TBAC consente l'accesso al Secure Rak Enclosure 123 per quella persona e avvia un timer di due ore all'apertura della porta. TBAC revoca l'accesso al Secure Rack Enclosure 123 quando sono trascorse due ore o quando il tecnico chiude l'attività, contrassegnando così il lavoro come completato.

Gli alloggiamenti per rack sicuri hanno vari meccanismi di autenticazione e autorizzazione. Il contenitore più di base utilizza una chiave fisica che garantisce autenticazione e autorizzazione insieme, fornendo pertanto solo un controllo di sicurezza più granulare. Per una maggiore sicurezza, alcuni contenitori utilizzano tastiere con PIN assegnati singolarmente e a rotazione.

In alcuni casi, Google utilizza l'autenticazione a due fattori abbinata a un meccanismo di autorizzazione separato. L'autenticazione inizia con lo scorrimento del badge assegnato da un singolo utente e il secondo fattore può essere un PIN assegnato dall'utente o un fattore più sofisticato, come la biometria.

Rilevamento di eventi anomali

Il rilevamento anomalo degli eventi consente al personale di sicurezza di sapere quando si verificano eventi imprevisti nelle macchine.

A livello di settore, le organizzazioni possono impiegare mesi o anni per scoprire le violazioni della sicurezza, e spesso solo dopo che si sono verificati danni o perdite significativi. L'indicatore critico di compromissione (IoC) potrebbe andare perso in un volume elevato di dati di logging e telemetria provenienti da milioni di macchine di produzione. Google, tuttavia, utilizza TBAC e più flussi di dati per identificare in tempo reale potenziali eventi di sicurezza fisico-logico. Questo controllo è chiamato rilevamento di eventi anomali.

Le macchine moderne monitorano e registrano il loro stato fisico, così come gli eventi che si verificano nello spazio fisico-logico. Le macchine ricevono queste informazioni tramite un software di sistema automatizzato sempre presente. Questo software può essere eseguito su computer in miniatura all'interno della macchina, chiamati BMC (controller di gestione del battiscopa) o come parte di un daemon del sistema operativo. Questo software segnala eventi importanti come i tentativi di accesso, l'inserimento di dispositivi fisici e gli allarmi dei sensori, ad esempio un sensore di manomissione dell'alloggiamento.

Con il rilevamento di eventi anomali, Google combina il contesto degli eventi segnalati dal sistema con il monitoraggio del lavoro di TBAC per rilevare attività insolite. Ad esempio, se una macchina nell'alloggiamento rack sicuro 123 segnala che un disco rigido è stato rimosso, i nostri sistemi verificano se quella macchina è stata recentemente autorizzata per uno scambio di dischi rigidi. Se non esiste alcuna autorizzazione, l'evento segnalato, combinato con i dati di autorizzazione basati sulle attività, attiva un avviso per consentire al personale di sicurezza di effettuare ulteriori indagini.

Per le macchine con radice di attendibilità hardware, i segnali di rilevamento di eventi anomali diventano ancora più efficaci. La radice di attendibilità hardware consente al software di sistema, come il firmware BMC, di attestare che si è avviato in modo sicuro. I sistemi di rilevamento di Google, quindi, hanno un grado ancora maggiore di certezza che gli eventi segnalati siano validi. Per ulteriori informazioni sui certificati radice di attendibilità indipendenti, consulta Attestazione remota di macchine disaggregate.

Autodifesa del sistema

L'autodifesa del sistema consente ai sistemi di rispondere a potenziali compromissioni con un'azione difensiva immediata.

Alcuni scenari di minacce presuppongono che un utente malintenzionato nello spazio fisico-logico sia in grado di aggirare le misure di accesso fisico descritte nella sezione Protezione hardware. Un utente malintenzionato potrebbe prendere di mira i dati utente o un processo sensibile in esecuzione su una macchina.

Per mitigare questo rischio, Google implementa l'autodifesa del sistema: un controllo che fornisce una risposta immediata e decisiva a qualsiasi potenziale compromissione. Questo controllo utilizza la telemetria dell'ambiente fisico per agire nell'ambiente logico.

La maggior parte degli ambienti di produzione su larga scala ha più macchine fisiche in un rack. Ogni macchina fisica esegue più carichi di lavoro, come macchine virtuali (VM) o container Kubernetes. Ogni VM esegue il proprio sistema operativo usando memoria e spazio di archiviazione dedicati.

Per determinare quali carichi di lavoro sono esposti agli eventi di sicurezza, Google aggrega i dati telemetrici provenienti dai controlli per la protezione dell'hardware, dalla TBAC e dal rilevamento di eventi anomali. Mettiamo quindi in relazione i dati per generare un piccolo insieme di eventi ad alto rischio e che richiedono un'azione immediata. Ad esempio, la combinazione di un allarme sicuro per la porta del rack, un segnale di apertura del telaio della macchina e la mancanza di un'autorizzazione di lavoro valida potrebbe costituire un evento ad alto rischio.

Quando Google rileva questi eventi, i sistemi possono intervenire immediatamente:

  • I carichi di lavoro esposti possono terminare immediatamente i servizi sensibili e cancellare tutti i dati sensibili.
  • Il fabric di networking può isolare il rack interessato.
  • I carichi di lavoro interessati possono essere ripianificati su altre macchine o anche su data center, a seconda della situazione.

Grazie al controllo di autodifesa del sistema, anche se un utente malintenzionato riesce a ottenere l'accesso fisico a una macchina, non può estrarre dati e non può spostarsi lateralmente nell'ambiente.

Passaggi successivi


Autori: Thomas Koh e Kevin Plybon