Visão geral do Data Boost do Bigtable

O Data Boost é um serviço de computação sem servidor projetado para executar trabalhos de leitura de alto volume nos dados do Bigtable sem afetar o desempenho dos clusters que processam o tráfego do aplicativo. Ele permite enviar jobs de leitura grandes e consultas usando computação sem servidor, enquanto o aplicativo principal continua usando nós de cluster para computação. As SKUs de computação sem servidor e as taxas de faturamento separado das SKUs e das tarifas dos nós provisionados. Não é possível enviar solicitações de gravação ou exclusão com o Data Boost.

Este documento descreve o Data Boost e quando e como usá-lo. Antes de ler esta página, entenda instâncias, clusters e nós.

Indicações de uso

O Data Boost é ideal para cargas de trabalho de análise e processamento de dados. O isolamento do tráfego de análise e processamento com o Data Boost garante que você não precise ajustar a capacidade ou a contagem de nós de um cluster para acomodar cargas de trabalho de análise. Você pode executar seus jobs de análise de alta capacidade em um cluster único com o Data Boost enquanto o tráfego contínuo do aplicativo é roteadas pelos nós do cluster.

Confira a seguir os casos de uso ideais para o Data Boost:

  • Jobs de pipeline de exportação ou ETL programados ou acionados do Bigtable para o Cloud Storage para enriquecimento, análise, arquivamento, treinamento de modelos de ML off-line ou ingestão por parceiros externos dos clientes.
  • ETL usando uma ferramenta como o Dataflow para verificação curta ou processos de leitura em lote compatíveis com agregações no local, transformações para jobs de MDM ou ML;
  • Aplicativos do Spark que usam o conector do Spark para Bigtable para ler dados do Bigtable

Não é bom para

Leituras de pontos: o Data Boost não é a melhor opção de leitura pontual operações, que são solicitações de leitura enviadas para linhas únicas. Isso inclui leituras de pontos em lote. Devido à estrutura de faturamento, muitas leituras de pontos de linha única são consideravelmente mais caras do que uma verificação longa.

Como ler os dados imediatamente após a gravação: quando você lê dados com no Data Boost, talvez não seja possível ler todos os dados gravados na meia hora. Isso é especialmente verdadeiro se a instância usa replicação e você está lendo dados gravados em um cluster em uma região diferente da que está lendo. Para mais informações, consulte Tokens de consistência.

Cargas de trabalho sensíveis à latência: o Data Boost é otimizado para capacidade de processamento, portanto, a latência de leitura é mais lenta quando você usa o Data Boost clusters e nós. Por isso, o Data Boost não é adequado para cargas de trabalho de disponibilização de aplicativos.

Para mais informações sobre cargas de trabalho, configurações e recursos não for compatível com o Data Boost, consulte Limitações.

Perfis do app Data Boost

Para usar o Data Boost, você envia suas solicitações de leitura por um app Data Boost de aplicativo em vez de um perfil de aplicativo padrão.

Os perfis de aplicativo padrão permitem especificar política de roteamento e nível de prioridade para solicitações que usam o perfil de aplicativo, bem como se a classe são permitidas. O tráfego enviado usando um perfil de app padrão é roteado para um cluster, e os nós desse cluster roteiam o tráfego para o disco. Para mais informações, consulte Visão geral dos perfis de app padrão.

Com um perfil de app do Data Boost, por outro lado, você configura uma política de roteamento de cluster único para um dos clusters da sua instância, e o tráfego que usa esse perfil de app usa computação sem servidor em vez dos nós do cluster.

Você pode criar um novo perfil de app do Data Boost ou converter um perfil de app padrão para usar o Data Boost. Recomendamos o uso de um perfil de app separado para cada carga de trabalho ou aplicativo.

Tokens de consistência

Dados gravados ou replicados no cluster de destino mais de 35 minutos antes da solicitação de leitura ser lida pelo Data Boost.

É possível garantir que os dados de um job ou período de gravação específico sejam legível pelo Data Boost, antes de iniciá-lo; de trabalho, criando e usando token de consistência. Confira abaixo um exemplo de fluxo de trabalho:

  1. Grave alguns dados em uma tabela.
  2. Criar um token de consistência.
  3. Envie o token no modo DataBoostReadLocalWrites para determinar quando as gravações possam ser lidas pelo Data Boost no cluster de destino.

É possível verificar a consistência da replicação antes de verificar o Data Boost a consistência enviando primeiro um token de consistência no modo StandardReadRemoteWrites.

Para mais informações, consulte a referência da API para CheckConsistencyRequest.

Cota e faturamento

O Data Boost usa unidades de processamento sem servidor (SPUs, na sigla em inglês), recursos de computação independentes e sob demanda, para medir a capacidade de computação usada para ler dados com o Data Boost. Diferentemente dos nós, as SPUs são cobradas somente quando ao usá-los. Cada solicitação é faturada por um mínimo de 60 SPU-segundos, e você é cobrado por pelo menos 10 SPUs por segundo. Para mais informações sobre o Data Boost, consulte a documentação do Bigtable preços.

Você recebe uma cota alocada e a cobrança pelas SPUs é separada da cota e cobranças por nós.

Métricas de qualificação

O Data Boost foi projetado para verificações de alto volume, e as cargas de trabalho precisam ser compatíveis para poder usá-lo. Antes de converter um app padrão para usar o Data Boost ou criar um perfil de app dessa ferramenta para uma carga de trabalho atual, confira o Data Boost métricas de qualificação para garantir que seus a configuração e o uso atendam aos critérios necessários. Consulte também limitações.

Monitoramento

Para monitorar seu tráfego do Data Boost, verifique as métricas da sua Perfil do app Data Boost na página de monitoramento do Bigtable no console do Google Cloud. Para uma lista de métricas disponíveis por perfil de app, consulte Gráficos de monitoramento para recursos do Bigtable.

Para monitorar o uso de unidades de processamento sem servidor (SPUs), verifique a métrica de contagem de uso de SPU (data_boost/spu_usage_count) em Metrics Explorer:

Você também pode continuar monitorando as métricas de qualificação do perfil do app depois de começar a usar o Data Boost.

Limitações

As propriedades de carga de trabalho e configurações de recursos a seguir não são compatíveis para o Data Boost.

  • Gravações e exclusões
  • Tráfego principalmente de leituras pontuais (leituras de linha única)
  • Mais de 1.000 leituras por segundo por cluster
  • Reverter verificações
  • Alterar streams
  • Solicitar prioridades
  • Roteamento de vários clusters
  • Transações de linha única
  • Endpoints regionais
  • Instâncias de HDD
  • Instâncias que usam criptografia CMEK
  • Bibliotecas de cliente incompatíveis. Use o cliente do Bigtable para Java versão 2.31.0 ou mais recente.
    • Para jobs do Dataflow que usam BigtableIO para ler dados do Bigtable, é necessário usar o Apache Beam versão 2.54.0 ou mais recente.
    • Para jobs do Dataflow que usam CloudBigtableIO para ler dados do Bigtable, é necessário usar bigtable-hbase-beam versão 2.14.1 ou posterior.

Os seguintes recursos não são compatíveis com a prévia:

  • Criação e configuração de perfil de app do Data Boost no console do Google Cloud
  • Como ler dados do Bigtable do BigQuery

A seguir