Panoramica della garbage collection
Questa pagina descrive il funzionamento della garbage collection in Bigtable e tratta i seguenti argomenti:
- Tipi di garbage collection
- Impostazioni predefinite di garbage collection
- Quando i dati vengono eliminati
- Modifiche alle norme di garbage collection per le tabelle replicate
Panoramica della garbage collection
La garbage collection è il processo automatico e continuo di rimozione dei dati scaduti e obsoleti dalle tabelle Bigtable. Un criterio di garbage collection è un insieme di regole che crei per indicare quando i dati in una specifica famiglia di colonne non sono più necessari.
La garbage collection è un processo in background asincrono integrato. Potrebbe essere necessaria fino a una settimana prima che i dati idonei per la garbage collection vengano effettivamente eliminati. La garbage collection viene eseguita in base a una pianificazione fissa che non varia in base alla quantità di dati da eliminare. Fino all'eliminazione, i dati vengono visualizzati nei risultati di lettura. Puoi filtrare le letture per escludere questi dati.
I vantaggi delle policy di garbage collection includono:
- Riduci al minimo le dimensioni delle righe: vuoi sempre impedire che le righe aumentino indefinitamente. Le righe di grandi dimensioni influiscono negativamente sulle prestazioni. Idealmente, non dovresti mai consentire a una riga di superare le dimensioni di 100 MB e il limite è 256 MB. Se non devi conservare i dati precedenti o le versioni precedenti dei dati attuali, l'utilizzo della garbage collection può aiutarti a ridurre al minimo le dimensioni di ogni riga.
- Riduzione dei costi: la garbage collection garantisce che non paghi per archiviare dati non più necessari o utilizzati. Ti vengono addebitati i costi per l'archiviazione dei dati scaduti o obsoleti fino a quando non viene eseguita la compattazione e non vengono eliminati i dati idonei per la garbage collection. In genere questo processo richiede alcuni giorni, ma potrebbe richiedere fino a una settimana.
Puoi impostare i criteri di garbage collection in modo programmatico o con la
CLI cbt
. Le policy di garbage collection vengono impostate a livello di famiglia di colonne.
Ogni famiglia di colonne di una tabella ha il proprio criterio di garbage collection. Il processo di garbage collection cerca le norme di garbage collection correnti per ogni famiglia di colonne, quindi elimina i dati in base alle regole delle norme.
Timestamp
In Bigtable, l'intersezione di una riga e una colonna può avere
più celle, che contengono versioni con timestamp del valore per quell'intersezione.
Ogni cella ha un timestamp. Un timestamp è il numero di microsecondi trascorsi dal
tempo Unix, 1970-01-01 00:00:00 UTC
. Puoi
utilizzare i timestamp predefiniti o impostarli quando invii richieste di scrittura.
Un timestamp che invii a Bigtable deve essere espresso con un valore in microsecondi e una precisione massima di un millisecondo. Un timestamp con precisione in microsecondi, ad esempio
3023483279876543
, viene rifiutato. In questo esempio, il valore accettabile per il timestamp è
3023483279876000
.
La proprietà timestamp di una cella può essere un timestamp "reale", che riflette l'ora effettiva in cui viene scritto il valore della cella, oppure un timestamp "artificiale". I timestamp artificiali includono numeri sequenziali, zeri o valori formattati come timestamp che non corrispondono all'ora effettiva in cui è stata scritta la cella. Prima di utilizzare i timestamp artificiali, esamina i casi d'uso, inclusi i rischi:
Assicurati di impostare un timestamp predefinito quando invii richieste di scrittura, a meno che tu non debba supportare un caso d'uso con timestamp artificiali.
Tipi di garbage collection
Questa sezione descrive i tipi di garbage collection disponibili in Bigtable. Gli esempi di codice per ogni tipo di garbage collection sono disponibili in Configurazione di garbage collection.
Valori in scadenza (basati sull'età)
Puoi impostare una regola di garbage collection in base al timestamp di ogni cella. Ad esempio, potresti non voler conservare le celle con timestamp più di 30 giorni prima della data e dell'ora attuali. Con questo tipo di regola di garbage collection, imposti la durata (TTL) dei dati. Bigtable esamina ogni famiglia di colonne durante la garbage collection ed elimina le celle scadute.
Numero di versioni
Puoi impostare una regola di garbage collection che indichi esplicitamente il numero massimo di celle da conservare per tutte le colonne di una famiglia di colonne.
Ad esempio, se vuoi conservare solo l'ultimo nome utente e indirizzo email di un cliente, puoi creare una famiglia di colonne contenente queste due colonne e impostare il numero massimo di valori su 1
per questa famiglia di colonne.
In un altro caso, potresti voler conservare le ultime cinque versioni dell'hash della password di un utente per assicurarti che non la riutilizzi, quindi imposteresti il numero massimo di versioni per la famiglia di colonne contenente la colonna della password su 5
. Quando Bigtable esamina la famiglia di colonne durante la garbage collection, se è stata scritta una sesta cella nella colonna della password, la cella meno recente viene eliminata per mantenere il numero di celle a cinque.
Combinazioni di regole di scadenza e numero di versione
Puoi utilizzare una combinazione di regole di scadenza e numero di versione per la garbage collection. I tipi di combinazioni sono intersezione, unione e nidificata. Per esempi di configurazione, vedi Garbage collection basata su più criteri.
Incrocio
Una norma di garbage collection di intersezione contrassegna i dati per l'eliminazione quando soddisfano tutti i criteri di un determinato insieme di regole. Ad esempio, potresti voler eliminare i profili più vecchi di 30 giorni, ma conservarne sempre almeno uno per ogni utente. In questo caso, la policy di intersezione per la famiglia di colonne contenente la colonna del profilo sarebbe costituita da una regola per un valore in scadenza e una regola per il numero di versioni.
Union
Un criterio di garbage collection unione contrassegna i dati per l'eliminazione quando soddisfano qualsiasi elemento di un determinato insieme di regole. Ad esempio, potresti voler assicurarti di conservare un massimo di due record di visualizzazione di pagina per utente, ma solo se risalgono a meno di 30 giorni prima della data corrente. In questo caso, la norma di unione è impostata per un valore in scadenza o un numero di versioni.
Nidificati
Un criterio di garbage collection nidificato ha una combinazione di regole di unione e intersezione.
Impostazioni predefinite per garbage collection
Non esiste un TTL predefinito per una famiglia di colonne. Il numero di celle conservate per una colonna dipende da come crei la famiglia di colonne in cui si trova la colonna, come spiegato nelle sezioni seguenti.
Norme HBase
Se crei la famiglia di colonne con il client HBase per Java, la shell HBase o un altro strumento che utilizza il client HBase per Java, Bigtable conserva solo la cella più recente in ogni colonna della famiglia di colonne, a meno che tu non modifichi la regola. Questa impostazione predefinita è coerente con HBase.
Tutte le altre librerie client o strumenti
Se crei la famiglia di colonne con un'altra libreria client o un altro strumento,
Bigtable conserva un numero infinito di celle in ogni colonna della famiglia di colonne. Sono incluse le famiglie di colonne create con gcloud
e l'interfaccia a riga di comando cbt
. Devi modificare la policy di garbage collection per la famiglia di colonne se vuoi limitare il numero di versioni.
Quando i dati vengono eliminati
La garbage collection è un processo continuo in cui Bigtable controlla le regole per ogni famiglia di colonne ed elimina i dati scaduti e obsoleti di conseguenza. In generale, possono essere necessari fino a una settimana dal momento in cui i dati corrispondono ai criteri delle regole prima che vengano effettivamente eliminati. Non puoi modificare la tempistica della garbage collection.
Poiché l'eliminazione dei dati scaduti può richiedere fino a una settimana, non devi mai fare affidamento esclusivamente sulle norme di Garbage Collection per assicurarti che le richieste di lettura restituiscano i dati selezionati. Applica sempre un filtro alle richieste di lettura che escluda gli stessi valori delle regole di Garbage Collection. Puoi filtrare limitando il numero di celle per colonna o specificando un intervallo di timestamp.
Ad esempio, supponiamo che la regola di garbage collection di una famiglia di colonne sia impostata in modo da conservare solo le cinque versioni più recenti di un profilo e che siano già memorizzate cinque versioni. Dopo aver scritto una nuova versione del profilo, potrebbe essere necessaria fino a una settimana prima che la cella meno recente venga eliminata. Pertanto, per evitare di leggere il sesto valore, devi sempre filtrare tutto tranne le cinque versioni più recenti.
Ti viene addebitato il costo dell'archiviazione dei dati scaduti fino a quando non viene eseguita la compattazione e i dati vengono eliminati.
La garbage collection è retroattiva: quando viene impostata una nuova norma di garbage collection, nei giorni successivi viene applicata a tutti i dati della tabella. Se la nuova norma è più restrittiva di quella precedente, i dati precedenti vengono eliminati durante l'elaborazione in background, inclusi i dati scritti prima della modifica della norma.
Se vuoi assicurarti che i dati contrassegnati per la garbage collection vengano eliminati, puoi eseguire una query sulla tabella e confrontare i dati con i risultati previsti. Puoi anche monitorare le dimensioni della tabella nella console Google Cloud . Una tabella che non si riduce mai potrebbe riflettere un criterio di garbage collection che non funziona come previsto, ma ricorda che la garbage collection viene eseguita con un ritardo.
Replica e garbage collection
La replica può influire sulla garbage collection in diversi modi.
Garbage collection basata sulla versione e utilizzo della CPU
In un'istanza che utilizza la replica, le eliminazioni dalla raccolta dei rifiuti basata sulla versione vengono replicate in tutti i cluster dell'istanza nello stesso modo in cui vengono replicate le richieste dell'applicazione. Se scrivi rapidamente nuove celle che causano la marcatura per l'eliminazione delle celle precedenti, potresti notare un aumento dell'utilizzo della CPU quando Bigtable elimina le celle obsolete e replica queste eliminazioni in altri cluster dell'istanza. Preparati a questo aumento dell'utilizzo della CPU se aggiungi un cluster a un'istanza contenente tabelle che utilizzano la garbage collection basata sulla versione.
La raccolta dei rifiuti basata sull'età, invece, non aumenta l'utilizzo della CPU nelle istanze replicate.
Modifica delle policy di garbage collection basate sulla versione
Puoi modificare il numero massimo di versioni di una famiglia di colonne in una tabella replicata. Tuttavia, se riduci il numero di versioni per una famiglia di colonne, potrebbero essere necessari fino a una settimana prima che tutti i cluster replicati riflettano il nuovo numero inferiore. Pertanto, devi sempre utilizzare i filtri durante la lettura dei dati.
Modifica delle policy di garbage collection basate sull'età
Puoi aumentare o diminuire il periodo di conservazione specificato nelle norme di garbage collection indipendentemente dal fatto che l'istanza utilizzi la replica. Se l'istanza non utilizza la replica, puoi anche eliminare una policy di garbage collection basata sull'età.
Riduzione del periodo di conservazione
Se riduci il periodo di conservazione in un criterio basato sull'età, potrebbero essere necessari fino a una settimana prima che tutti i cluster si sincronizzino e utilizzino il nuovo criterio.
Aumentare il tempo di conservazione
In una tabella replicata, puoi aumentare il periodo di conservazione di un criterio di garbage collection di un massimo di 90 giorni.
Se aumenti il periodo di conservazione per una famiglia di colonne, tieni presente che i cluster potrebbero non essere sincronizzati per più di una settimana. Per capire il motivo, considera un caso ipotetico in cui hai una tabella in un'istanza a due cluster e modifiche il periodo di conservazione di una famiglia di colonne da 30 a 50 giorni:
- Al cluster A viene inviata una richiesta di scrittura per la chiave di riga
ip#685
con un valore di2023-01-02
per la colonnaclick-through
nella famiglia di colonneprofile
. I dati vengono replicati nel cluster B. - Trentuno giorni dopo, viene eseguita la garbage collection sul cluster A e il valore
nella colonna
click-through
viene riconosciuto come scaduto ed eliminato. - Modifica la policy di garbage collection per la famiglia di colonne
profile
, aumentando il TTL da 30 a 50 giorni. - Un giorno dopo, la garbage collection viene eseguita sul cluster B. Poiché il TTL è di 50
giorni, il valore
2023-01-02
viene conservato. - I cluster non sono più sincronizzati e rimarranno tali per quasi 20 giorni finché il valore presente nel cluster B ma non nel cluster A non verrà eliminato.
Passaggi successivi
- Esplora le strategie per simulare il TTL a livello di cella.
- Scopri in che modo i timestamp che sono numeri sequenziali influiscono sulla garbage collection.
- Scopri di più sui prezzi dello spazio di archiviazione.
- Consulta gli esempi di codice di Garbage Collection nel tuo linguaggio di programmazione preferito.