Panoramica di Bigtable Data Boost

Data Boost è un servizio di computing serverless progettato per eseguire job di lettura a velocità effettiva elevata sui dati Bigtable, senza influire sulle prestazioni dei cluster che gestiscono il traffico delle applicazioni. Consente di inviare job di lettura e query di grandi dimensioni utilizzando il serverless computing mentre l'applicazione principale continua a utilizzare i nodi cluster per il calcolo. Gli SKU per il computing serverless e le tariffe di fatturazione sono separati dagli SKU e dalle tariffe per i nodi di cui è stato eseguito il provisioning. Non puoi inviare richieste di scrittura o eliminazione con Data Boost.

Questo documento descrive Data Boost e quando e come utilizzarlo. Prima di leggere questa pagina, è necessario conoscere istanze, cluster e nodi.

Per cosa è utile

Data Boost è ideale per i carichi di lavoro di analisi ed elaborazione dati. Isolare il traffico di analisi ed elaborazione con Data Boost garantisce che non sia necessario regolare la capacità di un cluster o il conteggio dei nodi per soddisfare i carichi di lavoro di analisi. Puoi eseguire job di analisi a velocità effettiva elevata su un singolo cluster con Data Boost mentre il traffico delle applicazioni in corso viene instradato attraverso i nodi del cluster.

Di seguito sono riportati i casi d'uso ideali per Data Boost:

  • Job della pipeline ETL o di esportazione pianificati o attivati da Bigtable a Cloud Storage per arricchimento, analisi, archiviazione dei dati, addestramento di modelli ML offline o importazione da parte dei partner terzi dei tuoi clienti
  • ETL utilizzando uno strumento come Dataflow per processi di scansione di breve durata o lettura in batch che supportano aggregazioni in loco, trasformazioni basate su regole per MDM o job ML

Cosa non è utile

Letture punti: Data Boost non è l'opzione migliore per le operazioni di lettura punti, ovvero richieste di lettura inviate per singole righe. Sono incluse le letture dei punti in batch. A causa della struttura di fatturazione, molte letture di punti su riga singola sono notevolmente più costose di una scansione lunga.

Lettura dei dati subito dopo la loro scrittura: quando leggi i dati con Data Boost, potresti non leggere tutti i dati scritti nell'ultima mezz'ora. Ciò è particolarmente vero se l'istanza utilizza la replica e leggi dati scritti in un cluster in una regione diversa da quella da cui stai leggendo. Per maggiori informazioni, consulta Coerenza.

Carichi di lavoro sensibili alla latenza: Data Boost è ottimizzato per la velocità effettiva, quindi la latenza di lettura è più lenta quando utilizzi Data Boost rispetto a quando leggi utilizzando cluster e nodi. Per questo motivo, Data Boost non è adatto ai carichi di lavoro di gestione delle applicazioni.

Per ulteriori informazioni su carichi di lavoro, configurazioni e funzionalità non compatibili con Data Boost, consulta Limitazioni.

Profili app Data Boost

Per utilizzare Data Boost, invia le richieste di lettura utilizzando un profilo dell'app Data Boost anziché un profilo app standard.

I profili dell'app standard consentono di specificare il criterio di routing e il livello di priorità per le richieste che utilizzano il profilo dell'app, nonché se sono consentite le transazioni su riga singola. Il traffico inviato utilizzando un profilo dell'app standard viene instradato a un cluster e i nodi del cluster instradano il traffico su disco. Per maggiori informazioni, consulta la panoramica dei profili delle app standard.

Con un profilo app Data Boost, invece, puoi configurare un criterio di routing a cluster singolo per uno dei cluster dell'istanza e il traffico mediante il profilo dell'app utilizza il serverless computing invece dei nodi del cluster.

Puoi creare un nuovo profilo app Data Boost o convertire un profilo app standard per usare Data Boost. Ti consigliamo di utilizzare un profilo dell'app separato per ogni carico di lavoro o applicazione.

Token di coerenza

Dati scritti o replicati nel cluster di destinazione più di 35 minuti prima che la richiesta di lettura sia leggibile da Data Boost.

Prima di avviare un carico di lavoro Data Boost, puoi assicurarti che i dati di un job di scrittura o di un periodo di tempo specifici siano leggibili da Data Boost, creando e utilizzando un token di coerenza. Ecco un flusso di lavoro di esempio:

  1. Scrivere alcuni dati in una tabella.
  2. Crea un token di coerenza.
  3. Invia il token in modalità DataBoostReadLocalWrites per determinare quando le scritture sono leggibili da Data Boost sul cluster di destinazione.

Facoltativamente, puoi verificare la coerenza della replica prima di verificare la coerenza di Data Boost inviando prima un token di coerenza in modalità StandardReadRemoteWrites.

Per maggiori informazioni, consulta la documentazione di riferimento dell'API CheckConsistencyRequest.

Quota e fatturazione

Data Boost utilizza unità di elaborazione serverless (SPU), risorse di calcolo on demand indipendenti, per misurare la potenza di calcolo utilizzata per leggere i dati con Data Boost. A differenza dei nodi, le SPU vengono addebitate solo quando le utilizzi. Ogni richiesta viene fatturata per un minimo di 60 SPU al secondo e ti vengono addebitate almeno 10 SPU al secondo. Per ulteriori informazioni sui prezzi di Data Boost, consulta i prezzi di Bigtable.

Ti viene allocata la quota e ti vengono addebitati i costi per le SPU separatamente dalla quota e dagli addebiti per i nodi.

Metriche di idoneità

Data Boost è progettato per scansioni con velocità effettiva elevata, e i carichi di lavoro devono essere compatibili per poter utilizzare Data Boost. Prima di convertire un profilo app standard per l'utilizzo di Data Boost o di creare un profilo app di Data Boost per un carico di lavoro esistente, visualizza le metriche di idoneità di Data Boost per assicurarti che la configurazione e l'utilizzo soddisfino i criteri richiesti. Devi consultare anche le limitazioni.

Monitoraggio

Per monitorare il traffico di Data Boost, puoi controllare le metriche del profilo dell'app Data Boost nella pagina Monitoraggio di Bigtable nella console Google Cloud. Per un elenco delle metriche disponibili per profilo dell'app, vedi Grafici sul monitoraggio per le risorse Bigtable.

Puoi monitorare l'utilizzo delle unità di elaborazione serverless (SPU), controllando la metrica del conteggio di utilizzo delle SPU (data_boost/spu_usage_count) in Esplora metriche.

Puoi anche continuare a monitorare le metriche di idoneità per il profilo dell'app dopo aver iniziato a utilizzare Data Boost.

Limitazioni

Le seguenti proprietà dei carichi di lavoro e configurazioni delle risorse non sono supportate per Data Boost.

  • Operazioni di scrittura ed eliminazione
  • Traffico costituito principalmente da letture per punti (letture su riga singola)
  • Più di 1000 letture al secondo per cluster
  • Scansioni inverse
  • Flussi di modifiche
  • Priorità delle richieste
  • Routing a cluster multipli
  • Transazioni su riga singola
  • Endpoint regionali
  • Istanze HDD
  • Istanze che utilizzano la crittografia CMEK
  • Librerie client incompatibili. Devi utilizzare il client Bigtable per Java 2.31.0 o versioni successive.
    • Affinché i job Dataflow che utilizzano BigtableIO possano leggere i dati Bigtable, devi utilizzare Apache Beam versione 2.54.0 o successive.
    • Affinché i job Dataflow che utilizzano CloudBigtableIO per leggere i dati Bigtable, devi usare bigtable-hbase-beam versione 2.14.1 o successiva.

Le seguenti funzionalità non sono supportate per l'anteprima.

  • Creazione e configurazione del profilo dell'app Data Boost nella console Google Cloud
  • Lettura dei dati di Bigtable da BigQuery o Spark

Passaggi successivi