Esta página foi traduzida pela API Cloud Translation.

Práticas recomendadas de carregamento em massa

Nesta página, apresentamos diretrizes para o carregamento eficiente em massa de grandes quantidades de dados no Spanner.

Existem várias opções para carregar dados em massa no Spanner:

Embora seja possível inserir linhas usando a CLI do Google Cloud, não recomendamos o uso da CLI gcloud para carregamento em massa.

Diretrizes de desempenho para carregamento em massa

Para ter o desempenho ideal de carregamento em massa, maximize o uso do particionamento para distribuir a gravação dos dados nas tarefas do worker.

O Spanner usa a divisão baseada em carga para distribuir uniformemente a carga de dados entre os recursos de computação da instância. Após alguns minutos de alta carga, o Spanner introduz limites divididos entre as linhas. Em geral, se o carregamento de dados estiver bem distribuído e você seguir as práticas recomendadas para o design do esquema e o carregamento em massa, a capacidade de gravação dobrará a cada poucos minutos até saturar os recursos disponíveis da CPU na instância.

Particionar os dados por chave primária

O Spanner particiona automaticamente as tabelas em intervalos menores. A chave primária de uma linha determina onde ela é particionada.

Para conseguir a capacidade ideal de gravação para cargas em massa, particione os dados por chave primária com este padrão:

Cada partição contém um intervalo de linhas consecutivas, conforme determinado pelas colunas-chave.
Cada confirmação contém dados para apenas uma única partição.

Recomendamos que o número de partições seja 10 vezes o número de nós na instância do Spanner. Para atribuir linhas a partições, faça o seguinte:

Classifique os dados por chave primária.
Divida os dados em 10 * (número de nós) partições separadas e com tamanhos iguais.
Crie e atribua uma tarefa de worker separada para cada partição. Isso é feito no aplicativo Ele não é um recurso do Spanner.

Seguindo esse padrão, você verá uma capacidade máxima geral de gravação em massa de 10 a 20 MB por segundo por nó para cargas grandes.

À medida que os dados são carregados, o Spanner cria e atualiza divisões para equilibrar a carga nos nós na instância. Durante esse processo, pode ocorrer uma queda temporária na capacidade.

Exemplo

Você tem uma configuração regional com 3 nós e 90.000 linhas em uma tabela não intercalada. As chaves primárias no intervalo da tabela variam de 1 a 90.000.

Linhas: 90.000
Nós: 3
Partições: 10 * 3 = 30
Linhas por partição: 90000 / 30 = 3000.

A primeira partição inclui o intervalo de chaves de 1 a 3000. A segunda inclui o intervalo de chaves 3001 a 6000. A 30ª partição inclui o intervalo de chaves 87001 a 90000. Não use chaves sequenciais em uma tabela grande. Este exemplo é apenas para demonstração.

Cada tarefa de worker envia as gravações para uma única partição. Dentro de cada uma delas, grave as linhas sequencialmente pela chave primária. Gravar linhas de forma aleatória, com relação à chave primária, também fornecerá uma capacidade consideravelmente alta. A medição das execuções de teste fornecerá um insight sobre qual abordagem fornece o melhor desempenho para o conjunto de dados.

Carga em massa sem particionamento

Gravar um conjunto contínuo de linhas em uma confirmação pode ser mais rápido do que gravar linhas aleatórias. As linhas aleatórias também podem incluir dados de diferentes partições.

Quando mais partições são gravadas em um commit, é necessária mais coordenação entre os servidores, aumentando a latência e a sobrecarga do commit.

Várias partições provavelmente estão envolvidas, porque cada linha aleatória pode pertencer a uma partição diferente. Na pior das hipóteses, cada gravação envolve todas as partições na instância do Spanner. Conforme mencionado anteriormente, a capacidade de gravação é reduzida quando mais partições estão envolvidas.

Evite a sobrecarga

É possível enviar mais solicitações de gravação do que o Spanner consegue processar. O Spanner processa a sobrecarga abortando transações, o que é chamado de pushback. Para transações somente gravação, o Spanner repete a transação automaticamente. Nesses casos, o pushback aparece como alta latência. Durante cargas pesadas, ele pode levar até um minuto. Durante cargas muito pesadas, o pushback pode durar vários minutos. Para evitar o pushback, limite os pedidos de gravação para manter a utilização da CPU dentro de limites razoáveis. Como alternativa, os usuários podem aumentar o número de nós para que a utilização da CPU fique dentro dos limites.

Confirmação entre 1 MB e 5 MB de mutações por vez

Cada gravação no Spanner contém algumas sobrecargas, seja ela grande ou pequena. Para maximizar a capacidade, aumente a quantidade de dados armazenados por gravação. Gravações maiores diminuem a taxa de sobrecarga por gravação. Uma boa técnica é que cada confirmação faça mutação de centenas de linhas. Ao gravar linhas relativamente grandes, um tamanho de confirmação de 1 MB a 5 MB geralmente fornece o melhor desempenho. Ao gravar valores pequenos ou indexados, normalmente é melhor gravar, no máximo, algumas centenas de linhas em uma única confirmação. Independentemente do tamanho da confirmação e do número de linhas, há uma limitação de 80.000 mutações por confirmação. Para determinar o desempenho ideal, teste e meça a capacidade.

Confirmações maiores que 5 MB ou mais do que algumas centenas de linhas não oferecem benefícios extras. Além disso, correm o risco de exceder os limites do Spanner no tamanho da confirmação e nas mutações por confirmação.

Diretrizes para índices secundários

Se o banco de dados tiver índices secundários, escolha entre adicionar os índices ao esquema do banco de dados antes ou depois de carregar os dados da tabela.

Adicionar o índice antes do carregamento dos dados permite que a alteração do esquema seja concluída imediatamente. No entanto, cada gravação que afeta o índice leva mais tempo, pois também precisa atualizá-lo. Quando o carregamento de dados é concluído, o banco de dados é imediatamente utilizável com todos os índices em vigor. Para criar uma tabela e os índices ao mesmo tempo, envie as instruções DDL para a nova tabela e os novos índices em uma única solicitação para o Spanner.
Adicionar o índice depois de carregar os dados significa que cada gravação é eficiente. No entanto, a alteração do esquema para cada preenchimento de índice pode levar muito tempo. O banco de dados não é totalmente utilizável, e as consultas não podem usar os índices até que todas as alterações de esquema sejam concluídas. O banco de dados ainda pode exibir gravações e consultas, mas em uma taxa mais lenta.

Recomendamos adicionar índices essenciais para o aplicativo de negócios antes de carregar os dados. Para todos os índices não críticos, adicione-os depois que os dados forem migrados.

Usar `INTERLEAVE IN` durante o carregamento em massa

Para esquemas com muitas referências pai-filho em tabelas, é preciso sempre carregar o pai antes dos filhos para garantir a integridade referencial. Essa orquestração pode ser complicada, especialmente com vários níveis de hierarquia. Essa complexidade também torna a execução em lote e a paralelização muito mais difíceis e pode afetar bastante o tempo de carga em massa. No Spanner, essas relações são aplicadas usando INTERLEAVE IN PARENT ou chaves estrangeiras. Consulte a documentação CREATE TABLE para saber mais.

Adicionar uma chave estrangeira após o carregamento em massa cria um índice oculto. Portanto, siga as diretrizes em índices secundários.

No entanto, para tabelas INTERLEAVE IN PARENT, é recomendável criar todas as tabelas usando a semântica INTERLEAVE IN durante o carregamento em massa, que intercala fisicamente as linhas, mas não impõe a integridade referencial. Isso oferece os benefícios de performance da localidade, mas não exige a ordenação antecipada. Agora que as linhas filhas podem ser inseridas antes da linha mãe correspondente, o Spanner pode gravar em todas as tabelas em paralelo.

Depois que todas as tabelas forem carregadas, você poderá migrar as tabelas intercaladas para começar a aplicar a relação mãe-filha usando a instrução ALTER TABLE t1 SET INTERLEAVE IN PARENT t2. Isso valida a integridade referencial e falha se houver linhas filhas órfãs. Se a validação falhar, identifique as linhas mãe ausentes usando a consulta a seguir.

      SELECT pk1, pk2 FROM child
      EXCEPT DISTINCT
      SELECT pk1, pk2 FROM parent;

Testar e medir a capacidade

A previsão da capacidade pode ser difícil. Teste sua estratégia de carregamento em massa antes de executar a carga final. Para um exemplo detalhado usando o particionamento e o monitoramento do desempenho, consulte Como maximizar a capacidade do carregamento de dados.

Práticas recomendadas para carregamento em massa periódico em um banco de dados atual

Se você estiver atualizando um banco de dados que contém dados, mas não tem índices secundários, as recomendações neste documento ainda serão válidas.

Caso tenha índices secundários, as instruções podem produzir um desempenho razoável. Ele depende de quantas divisões, em média, estão envolvidas nas transações. Se a capacidade cair muito, tente o seguinte:

Inclua um número menor de mutações em cada confirmação, o que pode aumentar a capacidade.
Se o upload for maior que o tamanho atual total da tabela sendo atualizada, exclua os índices secundários e adicione-os novamente depois de fazer o upload dos dados. Essa etapa geralmente não é necessária, mas pode melhorar a capacidade.