Otimizar custo: bancos de dados e análises inteligentes

Last reviewed 2023-06-26 UTC

Este documento no Framework da arquitetura do Google Cloud fornece recomendações para ajudar você a otimizar o custo de seus bancos de dados e cargas de trabalho de análise no Google Cloud.

As orientações nesta seção são destinadas a arquitetos, desenvolvedores e administradores responsáveis por provisionar e gerenciar bancos de dados e cargas de trabalho de análise na nuvem.

Esta seção inclui recomendações de otimização de custos para os seguintes produtos:

Cloud SQL

O Cloud SQL é um banco de dados relacional totalmente gerenciado para MySQL, PostgreSQL e SQL Server.

Monitorar o uso

Revise as métricas no painel de monitoramento e valide se a implantação atende aos requisitos da carga de trabalho.

Otimizar recursos

Veja a seguir recomendações para otimizar seus recursos do Cloud SQL:

Otimizar taxas

Considere comprar descontos por uso contínuo para cargas de trabalho com necessidades previsíveis de recursos. Você pode economizar 25% dos preços sob demanda para um compromisso de um ano e 52% para um de três anos.

Spanner

O Spanner é um banco de dados nativo da nuvem, em escala ilimitada e com consistência forte, que oferece até 99,999% de disponibilidade.

Monitorar o uso

Veja a seguir recomendações para ajudar a rastrear o uso dos recursos do Spanner:

  • Monitore a implantação e configure a contagem de nós com base nas recomendações da CPU.
  • Defina alertas nas suas implantações para otimizar os recursos de armazenamento. Para determinar a configuração apropriada, consulte os limites por nó recomendados.

Otimizar recursos

Veja a seguir recomendações para otimizar seus recursos do Spanner:

  • Execute cargas de trabalho menores no Spanner a um custo muito menor ao provisionar recursos com unidades de processamento (PUs,na sigla em inglês) em comparação com nós. um nó do Spanner é igual a 1.000 PUs.
  • Melhore o desempenho da execução de consultas usando o otimizador de consultas (em inglês).
  • Crie instruções SQL usando práticas recomendadas para criar planos de execução eficientes.
  • Gerencie o uso e o desempenho das implantações do Spanner usando a ferramenta escalonador automático. A ferramenta monitora instâncias, adiciona ou remove nós automaticamente e ajuda a garantir que as instâncias permaneçam dentro dos limites recomendados de CPU e armazenamento.
  • Proteger contra exclusão acidental ou gravações usando a recuperação pontual (PITR, na sigla em inglês) Bancos de dados com períodos de armazenamento de versão mais longos, especialmente aqueles que substituem os dados com frequência, usam mais recursos do sistema e precisam de mais nós.
  • Analise sua estratégia de backup e escolha uma das seguintes opções:
    • Backup e restauração
    • Exportar e importar

Otimizar taxas

Ao decidir o local dos nós do Spanner, considere as diferenças de custo entre as regiões do Google Cloud. Por exemplo, um nó implantado na região us-central1 custa consideravelmente menos por hora do que um nó na região southamerica-east1.

Bigtable

O Bigtable é um armazenamento NoSQL de colunas largas e nativo da nuvem para cargas de trabalho em grande escala e de baixa latência.

Monitorar o uso

Veja a seguir recomendações para ajudar a rastrear o uso dos recursos do Bigtable:

  • Analise as métricas de uso para identificar oportunidades de otimização de recursos.
  • Identifique pontos de acesso e teclas de atalho no cluster do Bigtable usando a ferramenta de diagnóstico Key Visualizer.

Otimizar recursos

Veja a seguir recomendações para otimizar seus recursos do Bigtable:

  • Para ajudar a garantir o uso da CPU e do disco que ofereça um equilíbrio entre latência e capacidade de armazenamento, avalie e ajuste a contagem de nós e o tamanho do cluster do Bigtable.
  • Para manter o desempenho com o menor custo possível, escalone programaticamente o cluster do Bigtable para ajustar automaticamente a contagem de nós.
  • Avalie o tipo de armazenamento (HDD ou SSD) mais econômico para seu caso de uso, com base nas seguintes considerações:

    • O armazenamento HDD custa menos que o SSD, mas apresenta desempenho inferior.
    • O armazenamento SSD custa mais do que o HDD, mas oferece desempenho mais rápido e previsível.

    As economias de custo com HDD são mínimas em relação ao custo dos nós no cluster do Bigtable, a menos que você armazene grandes quantidades de dados. Às vezes, o armazenamento HDD é apropriado para conjuntos de dados grandes (mais de 10 TB) não sensíveis à latência ou pouco acessados.

  • Remover dados expirados e obsoletos usando a coleta de lixo.

  • Para evitar pontos de acesso, aplique as práticas recomendadas para o design da chave de linha.

  • Crie um plano de backup econômico que se alinhe ao seu RPO.

  • Para diminuir o uso do cluster e reduzir a contagem de nós, adicione um cache de capacidade para consultas armazenáveis em cache usando o Memorystore.

Mais informações

O BigQuery

O BigQuery é um data warehouse multicloud sem servidor, altamente escalonável e econômico projetado para a agilidade dos negócios.

Monitorar o uso

Veja a seguir recomendações para ajudar a rastrear o uso dos recursos do BigQuery:

  • Visualize os custos do BigQuery segmentados por projetos e usuários. Identifique as consultas mais caras e otimize-as.
  • Analise a utilização de slots em projetos, jobs e reservas usando tabelas de metadados INFORMATION_SCHEMA.

Otimizar recursos

Veja a seguir recomendações para otimizar seus recursos do BigQuery:

Otimizar taxas

Veja a seguir recomendações para ajudar a reduzir as taxas de faturamento dos recursos do BigQuery:

  • Avalie como você edita os dados e aproveite os preços de armazenamento de longo prazo mais baixos.
  • Analise as diferenças entre os preços de taxa fixa e sob demanda, e escolha uma opção que seja adequada aos seus requisitos.
  • Avalie se é possível usar o carregamento em lote em vez de inserções de streaming para fluxos de trabalho de dados. Use inserções de streaming se os dados carregados no BigQuery são consumidos imediatamente.
  • Para aumentar o desempenho e reduzir o custo da recuperação de dados, use os resultados da consulta em cache.

Mais informações

Dataflow

O Dataflow é um serviço rápido e econômico sem servidor para processamento unificado de dados de stream e lote.

Monitorar o uso

Veja a seguir recomendações para ajudar a rastrear o uso dos recursos do Dataflow:

Otimizar recursos

Veja a seguir recomendações para otimizar seus recursos do Dataflow:

  • Pense no Dataflow Prime para processar Big Data de maneira eficiente.
  • Reduza os custos de processamento em lote usando o recurso de programação flexível (FlexRS, na sigla em inglês) para pipelines em lote com escalonamento automático. O FlexRS usa a programação avançada, o Shuffle do Dataflow e uma combinação de VMs preemptivas e regulares para reduzir o custo de pipelines em lote.
  • Melhore o desempenho usando o serviço de embaralhamento na memória em vez do Persistent Disk e dos nós de trabalho.
  • Para ter um escalonamento automático mais responsivo e reduzir o consumo de recursos, use o Streaming Engine, que move a execução do pipeline das VMs de worker para o back-end do serviço do Dataflow.
  • Se o pipeline não precisar de acesso à Internet e a outras redes do Google Cloud, desative os endereços IP públicos. A desativação do acesso à Internet ajuda a reduzir os custos de rede e melhorar a segurança do pipeline.
  • Siga as práticas recomendadas para pipelines eficientes com o Dataflow.

Dataproc

O Dataproc é um serviço gerenciado do Apache Spark e do Apache Hadoop para processamento em lote, consulta, streaming e machine learning.

Veja a seguir recomendações para otimizar o custo dos recursos do Dataproc:

A seguir