Panoramica di Bigtable Data Boost

Data Boost è un servizio di serverless computing progettato per eseguire job di lettura ad alta velocità effettiva sui dati Bigtable senza influire sulle prestazioni dei cluster che gestiscono il traffico delle applicazioni. Consente di inviare job di lettura e query di grandi dimensioni utilizzando il serverless computing, mentre l'applicazione principale continua a utilizzare i nodi cluster per il calcolo. Gli SKU di computing serverless e le tariffe di fatturazione sono separati dagli SKU e dalle tariffe per i nodi di cui è stato eseguito il provisioning. Non puoi inviare richieste di scrittura o eliminazione con Data Boost.

Questo documento descrive Data Boost e quando e come utilizzarlo. Prima di leggere questa pagina, consulta le informazioni su istanze, cluster e nodi.

Per cosa è utile

Data Boost è ideale per carichi di lavoro di analisi ed elaborazione dei dati. Isolare l'analisi e l'elaborazione del traffico con Data Boost garantisce che non sia necessario regolare la capacità o il numero di nodi di un cluster per soddisfare i carichi di lavoro di analisi. Puoi eseguire job di analisi ad alta velocità effettiva su un singolo cluster con Data Boost, mentre il traffico delle applicazioni in corso viene instradato attraverso nodi del cluster.

Di seguito sono riportati i casi d'uso ideali per Data Boost:

  • Job di pipeline ETL o di esportazione pianificati o attivati da Bigtable a Cloud Storage per l'arricchimento dei dati, l'analisi, l'archiviazione, l'addestramento di modelli ML offline o l'importazione da parte di partner terzi dei tuoi clienti
  • utilizzando uno strumento come Dataflow per analisi brevi o processi di lettura in batch che supportano aggregazioni in loco, trasformazioni basate su regole per MDM o job ML

Per cosa non è indicato

Lettura di punti: Data Boost non è l'opzione migliore per le operazioni di lettura in punti, ovvero richieste di lettura inviate per singole righe. Ciò include le letture dei punti in batch. A causa della struttura di fatturazione, molte letture di punti a riga singola sono notevolmente più costose rispetto a una scansione lunga.

Lettura dei dati immediatamente dopo la loro scrittura: quando leggi i dati con Data Boost, potresti non leggere tutti i dati scritti nell'ultima mezz'ora. Ciò è particolarmente vero se l'istanza utilizza la replica e stai leggendo dati scritti in un cluster in una regione diversa da quella da cui stai leggendo. Per scoprire di più, consulta la sezione Coerenza.

Carichi di lavoro sensibili alla latenza: Data Boost è ottimizzato per la velocità effettiva, quindi la latenza di lettura è più lenta quando utilizzi Data Boost rispetto a quando leggi utilizzando cluster e nodi. Per questo motivo, Data Boost non è adatto per carichi di lavoro per la gestione delle applicazioni.

Per ulteriori informazioni su carichi di lavoro, configurazioni e funzionalità non compatibili con Data Boost, consulta Limitazioni.

Profili dell'app Data Boost

Per utilizzare Data Boost, invia le richieste di lettura utilizzando un profilo dell'app Data Boost anziché un profilo di app standard.

I profili di app standard consentono di specificare il criterio di routing e il livello di priorità per le richieste che utilizzano il profilo di app, nonché se sono consentite transazioni su riga singola. Il traffico inviato utilizzando un profilo di app standard viene instradato a un cluster, che i nodi del cluster instradano il traffico al disco. Per ulteriori informazioni, consulta la panoramica dei profili di app standard.

Con un profilo dell'app Data Boost, invece, configuri un criterio di routing a cluster singolo su uno dei cluster della tua istanza e il traffico utilizzando quel profilo di app utilizza il serverless computing anziché i nodi del cluster.

Puoi creare un nuovo profilo dell'app Data Boost o convertire un profilo di app standard per utilizzare Data Boost. Ti consigliamo di utilizzare un profilo dell'app separato per ogni carico di lavoro o applicazione.

Token di coerenza

Dati scritti o replicati nel cluster di destinazione più di 35 minuti prima che la richiesta di lettura sia leggibile da Data Boost.

Prima di avviare un carico di lavoro Data Boost, puoi assicurarti che i dati di un job di scrittura o un periodo di tempo specifici siano leggibili da Data Boost creando e utilizzando un token di coerenza. Di seguito è riportato un esempio di flusso di lavoro:

  1. Scrivere alcuni dati in una tabella.
  2. Creare un token di coerenza.
  3. Invia il token in modalità DataBoostReadLocalWrites per determinare quando le scritture sono leggibili da Data Boost sul cluster di destinazione.

Facoltativamente, puoi controllare la coerenza della replica prima di controllare la coerenza di Data Boost inviando prima un token di coerenza in modalità StandardReadRemoteWrites.

Per maggiori informazioni, consulta la sezione di riferimento dell'API per CheckConsistencyRequest.

Quota e fatturazione

Data Boost utilizza unità di elaborazione serverless (SPU), risorse di calcolo indipendenti e on demand, per misurare la potenza di calcolo utilizzata per leggere i dati con Data Boost. A differenza dei nodi, ti vengono addebitati i costi delle SPU solo quando le utilizzi. Ogni richiesta viene fatturata per un minimo di 60 SPU al secondo e ti vengono addebitati almeno 10 SPU al secondo. Per ulteriori informazioni sui prezzi di Data Boost, consulta i prezzi di Bigtable.

Ti viene allocata una quota e ti viene fatturata la SPU separatamente dalla quota e ti vengono addebitati i costi per i nodi.

Metriche di idoneità

Data Boost è progettato per scansioni ad alta velocità effettiva e i carichi di lavoro devono essere compatibili per poter utilizzare Data Boost. Prima di convertire un profilo di app standard per utilizzare Data Boost o di creare un profilo dell'app Data Boost per un carico di lavoro esistente, visualizza le metriche di idoneità di Data Boost per assicurarti che la configurazione e l'utilizzo soddisfino i criteri richiesti. Dovresti anche esaminare le limitazioni.

Monitoraggio

Per monitorare il traffico di Data Boost, puoi controllare le metriche del profilo dell'app Data Boost nella pagina di Bigtable Monitoring nella console Google Cloud. Per un elenco delle metriche disponibili per profilo app, consulta Monitoraggio dei grafici per le risorse Bigtable.

Puoi monitorare l'utilizzo delle unità di elaborazione serverless (SPU) controllando la metrica del conteggio dell'utilizzo delle SPU (data_boost/spu_usage_count) in Metrics Explorer.

Puoi anche continuare a monitorare le metriche di idoneità per il profilo dell'app dopo aver iniziato a utilizzare Data Boost.

Limitazioni

Le seguenti proprietà dei carichi di lavoro e configurazioni di risorse non sono supportate per Data Boost.

  • Operazioni di scrittura ed eliminazione
  • Traffico costituito principalmente da letture di punti (letture su riga singola)
  • Più di 1000 letture al secondo per cluster
  • Scansioni inverse
  • Flussi di modifiche
  • Priorità delle richieste
  • Routing a cluster multipli
  • Transazioni su riga singola
  • Endpoint regionali
  • Istanze HDD
  • Istanze che utilizzano la crittografia CMEK
  • Librerie client incompatibili. Devi utilizzare il client Bigtable per Java versione 2.31.0 o successive. Per i job Dataflow che leggono i dati di Bigtable, devi utilizzare Apache Beam 2.54.0 o versioni successive.

Per l'anteprima non sono supportati i seguenti tipi di annunci.

  • Creazione e configurazione del profilo dell'app Data Boost nella console Google Cloud
  • Lettura dei dati di Bigtable da BigQuery o Spark

Passaggi successivi