Panoramica della garbage collection

Questa pagina descrive il funzionamento del garbage collection in Bigtable e tratta i seguenti argomenti:

  • Tipi di garbage collection
  • Impostazioni predefinite per garbage collection
  • Quando i dati vengono eliminati
  • Modifiche ai criteri di garbage collection per le tabelle replicate

Panoramica della garbage collection

La garbage collection è il processo automatico e continuo di rimozione dei dati scaduti e obsoleti dalle tabelle Bigtable. Un criterio di raccolta del garbage è un insieme di regole che specificano quando i dati di una famiglia di colonne specifica non sono più necessari.

La garbage collection è un processo in background asincrono integrato. Potrebbero essere necessarie fino a una settimana prima che i dati idonei per il garbage collection vengano effettivamente eliminati. Il garbage collection avviene in base a una pianificazione fissa che non varia in base alla quantità di dati da eliminare. Fino a quando non vengono eliminati, i dati vengono visualizzati nei risultati di lettura. Puoi filtrare le letture per escludere questi dati.

I vantaggi dei criteri di garbage collection includono:

  • Riduci al minimo le dimensioni delle righe: è sempre consigliabile impedire alle righe di crescere indefinitamente. Le righe di grandi dimensioni influiscono negativamente sulle prestazioni. Idealmente, non dovresti mai consentire a una riga di superare le dimensioni di 100 MB e il limite è 256 MB. Se non hai bisogno di conservare i vecchi dati o le vecchie versioni dei dati attuali, l'utilizzo della garbage collection può aiutarti a ridurre al minimo le dimensioni di ogni riga.
  • Riduzione dei costi: la raccolta dei rifiuti ti consente di non pagare per archiviare i dati che non sono più richiesti o utilizzati. Ti vengono addebitati i costi per l'archiviazione dei dati scaduti o obsoleti fino a quando non viene eseguita la compattazione e i dati idonei per garbage collection vengono eliminati. In genere questa procedura richiede alcuni giorni, ma potrebbe essere necessaria anche una settimana.

Puoi impostare i criteri di garbage collection in modo programmatico o con l' cbt CLI . I criteri di garbage collection vengono impostati a livello di famiglia di colonne.

Ogni famiglia di colonne in una tabella ha il proprio criterio di garbage collection. Il processo di garbage collection cerca il criterio di garbage collection corrente per ogni famiglia di colonne, quindi elimina i dati in base alle regole del criterio.

Timestamp

In Bigtable, l'intersezione di una riga e una colonna può avere più celle, che contengono versioni con timestamp del valore per quell'intersezione. Ogni cella ha un timestamp. Un timestamp è il numero di microsecondi dal formato epoca Unix, 1970-01-01 00:00:00 UTC. Puoi utilizzare i timestamp predefiniti o impostarli quando invii richieste di scrittura.

Un timestamp inviato a Bigtable deve essere espresso con un valore in microsecondi e una precisione massima di un millisecondo. Un timestamp con precisione in microsecondi, ad esempio3023483279876543, viene rifiutato. In questo esempio, il valore accettabile per il timestamp è 3023483279876000.

La proprietà timestamp di una cella può essere un timestamp "reale", che riflette l'ora effettiva in cui viene scritto il valore della cella, oppure un timestamp "artificiale". I timestamp artificiali includono numeri sequenziali, zeri o valori con formato timestamp che non corrispondono all'ora effettiva in cui è stata scritta la cella. Prima di utilizzare i timestamp artificiali, esamina i casi d'uso, inclusi i rischi legati al loro utilizzo:

Assicurati di impostare un timestamp predefinito quando invii richieste di scrittura, a meno che tu non debba supportare un caso d'uso con timestamp artificiali.

Tipi di garbage collection

Questa sezione descrive i tipi di garbage collection disponibili in Bigtable. Gli esempi di codice per ogni tipo di garbage collection sono disponibili in Configurazione della garbage collection.

Valori con scadenza (in base all'età)

Puoi impostare una regola di garbage collection in base al timestamp di ogni cella. Ad esempio, potresti non voler conservare le celle con i timestamp precedenti a più di 30 giorni dalla data e dall'ora correnti. Con questo tipo di regola di garbage collection, puoi impostare la durata (TTL) dei dati. Bigtable esamina ogni famiglia di colonne durante il garbage collection ed elimina le celle scadute.

Numero di versioni

Puoi impostare una regola di garbage collection che indichi esplicitamente il numero massimo di celle da conservare per tutte le colonne di una famiglia di colonne.

Ad esempio, se vuoi conservare solo l'username e l'indirizzo email più recenti per un cliente, puoi creare una famiglia di colonne contenente queste due colonne e impostare il numero massimo di valori su 1 per la famiglia di colonne.

In un altro caso, potresti voler conservare le ultime cinque versioni dell'hash della password di un utente per assicurarti che non riutilizzi la password, quindi imposterai il numero massimo di versioni per la famiglia di colonne contenente la colonna della password su 5. Quando Bigtable esamina la famiglia di colonne durante la raccolta del garbage, se è stata scritta una sesta cella nella colonna della password, la cella più vecchia viene eliminata per mantenere il numero di celle a cinque.

Combinazioni di regole di scadenza e numero di versione

Puoi utilizzare una combinazione di regole di scadenza e numero di versione per la raccolta del garbage. I tipi di combinazioni sono intersezione, unione e nidificate. Per esempi di configurazione, consulta Raccolta dei rifiuti in base a più criteri.

Incrocio

Un criterio di garbage collection di intersezione contrassegna i dati per l'eliminazione quandosoddisfa tutti i criteri di un determinato insieme di regole. Ad esempio, potresti voler eliminare i profili più vecchi di 30 giorni, ma conservarne sempre almeno uno per ogni utente. In questo caso, il criterio di intersezione per la famiglia di colonne contenente la colonna del profilo sarà costituito da una regola per un valore con scadenza e una regola per il numero di versioni.

Union

Un criterio di garbage collection unione contrassegni i dati per l'eliminazione quando soddisfa qualsiasi elemento in un determinato insieme di regole. Ad esempio, potresti voler assicurarti di conservare un massimo di due record di visualizzazioni di pagina per utente, ma solo se risalgono a meno di 30 giorni prima della data corrente. In questo caso, il criterio di unione è impostato su un valore con scadenza o su un numero di versioni.

Nidificati

Un criterio di garbage collection nidificato ha una combinazione di regole di unione e intersezione.

Impostazioni predefinite per garbage collection

Non esiste un TTL predefinito per una famiglia di colonne. Il numero di celle conservate per una colonna dipende da come viene creata la famiglia di colonne a cui appartiene, come spiegato nelle sezioni seguenti.

Norme di HBase

Se crei la famiglia di colonne con il client HBase per Java, lo shell HBase o un altro strumento che utilizza il client HBase per Java, Bigtable conserva solo la cella più recente in ogni colonna della famiglia di colonne, a meno che tu non modifichi la regola. Questa impostazione predefinita è coerente con HBase.

Tutti gli altri strumenti o librerie client

Se crei la famiglia di colonne con qualsiasi altra libreria o strumento client, Bigtable conserva un numero infinito di celle in ogni colonna della famiglia di colonne. Sono incluse le famiglie di colonne create con gcloud e il cbt CLI. Devi modificare il criterio di garbage collection per la famiglia di colonne se vuoi limitare il numero di versioni.

Quando i dati vengono eliminati

La garbage collection è un processo continuo in cui Bigtable controlla le regole per ogni famiglia di colonne ed elimina i dati scaduti e obsoleti di conseguenza. In genere, può essere necessaria fino a una settimana dal momento in cui i dati corrisponderanno ai criteri nelle regole per l'eliminazione effettiva dei dati. Non puoi modificare la tempistica del garbage collection.

Poiché l'eliminazione dei dati scaduti può richiedere fino a una settimana, non dovresti mai fare affidamento esclusivamente sui criteri di garbage collection per assicurarti che le richieste di lettura restituiscano i dati desiderati. Applica sempre alle richieste di lettura un filtro che escluda gli stessi valori delle regole di garbage collection Puoi filtrare limitando il numero di celle per colonna o specificando un intervallo di timestamp.

Ad esempio, supponiamo che la regola di garbage collection di una famiglia di colonne sia impostata per conservare solo le cinque versioni più recenti di un profilo e che siano già archiviate cinque versioni. Dopo aver scritto una nuova versione del profilo, potrebbe essere necessaria fino a una settimana per eliminare la cella più vecchia. Pertanto, per evitare di leggere il sesto valore, devi sempre filtrare tutto tranne le cinque versioni più recenti.

Ti viene addebitato il costo per l'archiviazione dei dati scaduti fino a quando non viene eseguita la compattazione e i dati vengono eliminati.

Il garbage collection è retroattivo: quando viene impostato un nuovo criterio di garbage collection, viene applicato a tutti i dati della tabella nei giorni successivi. Se il nuovo dispositivo è più restrittivo di quello precedente, i vecchi dati vengono eliminati durante il lavoro in background, inclusi i dati scritti prima della variazione del dispositivo.

Se vuoi assicurarti che i dati contrassegnati per la garbage collection vengano eliminati, puoi eseguire una query sulla tabella e confrontare i dati con i risultati previsti. Puoi anche monitorare le dimensioni delle tabelle nella console Google Cloud. Una tabella che non diventa mai più piccola potrebbe riflettere un criterio di garbage collection che non funziona come previsto, ma ricorda che la garbage collection viene eseguita con un ritardo.

Replica e garbage collection

La replica può influire sulla garbage collection in diversi modi.

Garbage collection basata sulla versione e utilizzo della CPU

In un'istanza che utilizza la replica, le eliminazioni dalla raccolta del garbage basata su versione vengono replicate in tutti i cluster dell'istanza nello stesso modo in cui vengono replicate le richieste dell'applicazione. Se scrivi rapidamente nuove celle che causano il contrassegno per l'eliminazione delle celle precedenti, potresti notare un aumento dell'utilizzo della CPU quando Bigtable elimina le celle obsolete e ne esegue la replica in altri cluster dell'istanza. Preparati a questo aumento dell'utilizzo della CPU se aggiungi un cluster a un'istanza contenente tabelle che utilizzano garbage collection basata sulle versioni.

La garbage collection basata sull'età, invece, non aumenta l'utilizzo della CPU nelle istanze replicate.

Modificare i criteri di garbage collection basati sulla versione

Puoi modificare il numero massimo di versioni di una famiglia di colonne in una tabella replicata. Tuttavia, se riduci il numero di versioni per una famiglia di colonne, può essere necessaria fino a una settimana prima che tutti i cluster replicati riflettano il nuovo numero inferiore. Pertanto, devi sempre utilizzare i filtri durante la lettura dei dati.

Modificare i criteri di garbage collection basati sull'età

Puoi aumentare o diminuire il tempo di conservazione specificato nei criteri di garbage collection, indipendentemente dal fatto che l'istanza utilizzi la replica. Puoi anche eliminare un criterio di garbage collection basato sull'età.

Riduzione del tempo di conservazione

Se diminuisci il tempo di conservazione in un criterio basato sull'età, può essere necessaria fino a una settimana per la sincronizzazione e l'utilizzo del nuovo criterio da parte di tutti i cluster.

Aumentare il tempo di conservazione

In una tabella replicata, puoi aumentare il tempo di conservazione di un criterio di garbage collection per un massimo di 90 giorni.

Se aumenti il periodo di conservazione per una famiglia di colonne, tieni presente che i cluster potrebbero non essere sincronizzati per più di una settimana. Per capire il motivo, considera un caso ipotetico in cui hai una tabella in un'istanza con due cluster e modifichi il periodo di conservazione di una famiglia di colonne da 30 a 50 giorni:

  1. Al cluster A viene inviata una richiesta di scrittura per la chiave di riga ip#685 con un valore di 2023-01-02 per la colonna click-through nella famiglia di colonne profile. I dati vengono riproduttivi nel cluster B.
  2. Trentuno giorni dopo, viene eseguita la garbage collection nel cluster A e il valore nella colonna click-through viene riconosciuto come scaduto ed eliminato.
  3. Modifichi il criterio di garbage collection per la famiglia di colonne profile, aumentando il TTL da 30 a 50 giorni.
  4. Un giorno dopo, la garbage collection viene eseguita sul cluster B. Poiché il TTL è di 50 giorni, il valore 2023-01-02 viene mantenuto.
  5. I cluster ora non sono sincronizzati e rimangono tali per quasi 20 giorni fino a quando il valore esistente nel cluster B, ma non nel cluster A, non viene finalmente eliminato.

Passaggi successivi