Nesta página, discutimos os requisitos do esquema do Spanner, como usá-lo para criar relacionamentos hierárquicos e os recursos do esquema. Ele também apresenta tabelas intercaladas, que podem melhorar o desempenho da consulta ao consultar tabelas em uma relação pai-filho.
Um esquema é um namespace que contém objetos de banco de dados, como tabelas, visualizações, índices e funções. Use esquemas para organizar objetos, aplicar privilégios de controle de acesso refinados e evitar conflitos de nomenclatura. É preciso definir um esquema para cada banco de dados no Spanner.
Dados bem tipados
Os dados no Spanner são fortemente tipados. Os tipos de dados incluem escalares e complexos, descritos em Tipos de dados no GoogleSQL e Tipos de dados do PostgreSQL.
Escolher chave principal
Os bancos de dados do Spanner podem conter uma ou mais tabelas. As tabelas são estruturadas como linhas e colunas. O esquema da tabela define uma ou mais colunas como a chave primária da tabela, que identifica exclusivamente cada linha. As chaves primárias são sempre indexadas para consulta rápida de linhas. Para atualizar ou excluir linhas atuais em uma tabela, ela precisa ter uma chave primária. Uma tabela sem colunas de chave primária só pode ter uma linha. Apenas bancos de dados de dialeto GoogleSQL podem ter tabelas sem uma chave primária.
Muitas vezes, o aplicativo já tem um campo adequado para ser usado como
chave primária. Por exemplo, para uma tabela Customers
, pode haver um
CustomerId
fornecido pelo aplicativo que serve bem como a chave primária. Em outros, talvez seja necessário gerar uma chave primária ao inserir a linha. Normalmente, seria um valor inteiro exclusivo sem importância comercial (uma chave primária alternativa).
Em todos os casos, tenha cuidado para não criar pontos de acesso com a escolha da chave primária. Por exemplo, se você inserir registros com um número inteiro monotônico crescente como a chave, a inserção sempre ocorrerá no final do espaço da chave. Isso não é desejável, porque o Spanner divide os dados entre os servidores por intervalos de chaves, o que significa que suas inserções serão direcionadas para um único servidor, criando um ponto de acesso. Há técnicas que podem espalhar a carga em vários servidores e evitar pontos de acesso:
- Gere a chave e armazene-a em uma coluna. Use a coluna hash (ou a coluna hash com as colunas de chave exclusiva juntas) como a chave primária.
- Troque a ordem das colunas na chave primária.
- Use um identificador universal exclusivo (UUID, na sigla em inglês). Recomendamos a versão 4 do UUID, porque utiliza valores aleatórios nos bits de ordem superior. Não use um algoritmo UUID (como a versão 1 do UUID) que armazene o carimbo de data/hora nos bits de ordem superior.
- Faça reversão em bits dos valores sequenciais.
Relacionamentos de tabelas pai e filho
Há duas maneiras de definir relações pai-filho no Spanner: intercalação de tabelas e chaves estrangeiras.
A intercalação de tabelas do Spanner é uma boa opção para muitos relacionamentos pai-filho. Com a intercalação, o Spanner coloca fisicamente as linhas filhas com as linhas mãe no armazenamento. A colocation pode melhorar
significativamente o desempenho. Por exemplo, se você tiver uma tabela Customers
e uma tabela Invoices
e seu aplicativo busca frequentemente todas as faturas de um cliente, defina Invoices
como uma tabela filha intercalada de Customers
. Assim, você declara uma relação de localidade de dados entre duas tabelas independentes. Você informa ao Spanner para armazenar uma ou mais linhas de Invoices
com uma linha Customers
.
Para associar uma tabela filha a uma tabela mãe, use DDL que declara a tabela filha como intercalada na mãe e inclua a chave primária da tabela mãe como a primeira parte da chave primária composta da tabela filha. Para mais informações sobre intercalação, consulte Criar tabelas intercaladas mais adiante nesta página.
As chaves externas são uma solução pai-filho mais geral e abordam casos de uso adicionais. Elas não estão limitadas a colunas de chave primária, e as tabelas podem ter várias relações de chave externa, como pai em alguns relacionamentos e filho em outros. No entanto, uma relação de chave externa não sugere a co-localização das tabelas na camada de armazenamento.
O Google recomenda que você escolha representar relações pai-filho como tabelas intercaladas ou chaves externas, mas não ambas. Para mais informações sobre chaves estrangeiras e a comparação delas com tabelas intercaladas, consulte Visão geral de chaves externas.
Chaves primárias em tabelas intercaladas
Para intercalação, cada tabela precisa ter uma chave primária. Se você declarar uma tabela como filha intercalada de outra, ela precisará ter uma chave primária composta que inclua todos os componentes da chave primária do pai, na mesma ordem e, normalmente, uma ou mais colunas filhas extras.
O Spanner armazena linhas em ordem classificada por valores de chave primária, com linhas filhas inseridas entre as linhas mãe. Veja uma ilustração de linhas intercaladas em Criar tabelas intercaladas mais adiante nesta página.
Em resumo, o Spanner pode colocar fisicamente linhas de tabelas relacionadas. Os exemplos de esquema mostram o aspecto desse layout físico.
Divisões de banco de dados
É possível definir hierarquias de relacionamentos pai-filho intercalados com até sete camadas de profundidade. Isso significa que é possível colocar linhas de sete tabelas independentes. Se o tamanho dos dados nas tabelas for pequeno, um único servidor do Spanner provavelmente poderá lidar com seu banco de dados. Mas o que acontece quando as tabelas relacionadas crescem e começam a atingir os limites de recursos de um servidor individual? O Spanner é um banco de dados distribuído, o que significa que, à medida que seu banco de dados cresce, ele divide seus dados em partes chamadas "divisões". As divisões podem ser movimentadas independentemente entre si e atribuídas a servidores diferentes, que podem estar em locais físicos distintos. Uma divisão contém um intervalo de linhas contíguas. As chaves de início e término desse intervalo são chamadas de "limites de divisão". O Spanner adiciona e remove automaticamente os limites de divisão com base no tamanho e na carga, o que altera o número de divisões no banco de dados.
Divisão baseada em carga
Como exemplo de como o Spanner executa a divisão baseada em carga para reduzir os pontos de acesso de leitura, suponha que seu banco de dados contenha uma tabela com 10 linhas que são lidas com mais frequência do que todas as outras linhas da tabela. O Spanner pode adicionar limites de divisão entre cada uma dessas 10 linhas para que cada uma seja processada por um servidor diferente, em vez de permitir que todas as leituras dessas linhas consumam os recursos de um único servidor.
Como regra geral, se você seguir as práticas recomendadas para a criação de esquemas, o Spanner poderá reduzir os pontos de acesso de modo que a capacidade de leitura melhore em intervalos de alguns minutos até que você satura os recursos na instância ou se depare com casos em que nenhum novo limite de divisão pode ser adicionado (porque você tem uma divisão que cobre apenas uma linha sem filhos intercalados).
Esquemas nomeados
Os esquemas nomeados ajudam a organizar dados semelhantes. Isso ajuda você a encontrar objetos rapidamente no console do Google Cloud, aplicar privilégios e evitar conflitos de nomenclatura.
Esquemas nomeados, assim como outros objetos de banco de dados, são gerenciados usando DDL.
Com os esquemas nomeados do Spanner, é possível usar nomes totalmente qualificados (FQNs, na sigla em inglês) para consultar dados. As FQNs permitem combinar o nome do esquema e o
nome do objeto para identificar objetos do banco de dados. Por exemplo, é possível criar um esquema chamado warehouse
para a unidade de negócios do armazenamento. As tabelas que usam esse esquema podem incluir: product
, order
e customer information
. Ou você
pode criar um esquema chamado fulfillment
para a unidade de negócios de fulfillment.
Esse esquema também pode ter tabelas chamadas product
, order
e customer
information
. No primeiro exemplo, a FQN é warehouse.product
e no segundo, a FQN é fulfillment.product
. Isso evita confusões em situações em que vários objetos compartilham o mesmo nome.
Na DDL CREATE SCHEMA
, os objetos de tabela recebem uma FQN, por exemplo,
sales.customers
, e um nome curto, como sales
.
Os seguintes objetos de banco de dados são compatíveis com esquemas nomeados:
TABLE
CREATE
INTERLEAVE IN [PARENT]
FOREIGN KEY
SYNONYM
VIEW
INDEX
FOREIGN KEY
SEQUENCE
Para mais informações sobre como usar esquemas nomeados, consulte Gerenciar esquemas nomeados.
Use o controle de acesso refinado com esquemas nomeados
Com os esquemas nomeados, é possível conceder acesso no nível do esquema a cada objeto no esquema. Isso se aplica a objetos de esquema que existem no momento em que você concede acesso. É necessário conceder acesso aos objetos adicionados posteriormente.
O controle de acesso detalhado limita o acesso a grupos inteiros de objetos de banco de dados na tabela, como tabelas, colunas e linhas.
Para mais informações, consulte Conceder privilégios de controle de acesso refinados a esquemas nomeados.
Exemplos de esquema
Os exemplos de esquema nesta seção mostram como criar tabelas mãe e filha com e sem intercalação, além de ilustrar os layouts físicos correspondentes dos dados.
Criar uma tabela pai
Suponha que você esteja criando um aplicativo de música e precise de uma tabela que armazene linhas de dados do cantor:
Observe que a tabela contém uma coluna de chave primária, SingerId
, que aparece à esquerda da linha em negrito, e que as tabelas são organizadas por linhas e colunas.
É possível definir a tabela com a seguinte DDL:
GoogleSQL
CREATE TABLE Singers ( SingerId INT64 NOT NULL, FirstName STRING(1024), LastName STRING(1024), SingerInfo BYTES(MAX), ) PRIMARY KEY (SingerId);
PostgreSQL
CREATE TABLE singers ( singer_id BIGINT PRIMARY KEY, first_name VARCHAR(1024), last_name VARCHAR(1024), singer_info BYTEA );
Observe o seguinte sobre o esquema do exemplo:
Singers
é uma tabela na raiz da hierarquia do banco de dados (porque não é definida como um filho intercalado de outra tabela).- Para bancos de dados de dialeto GoogleSQL, as colunas de chave primária geralmente são anotadas com
NOT NULL
, embora você possa omitir essa anotação se quiser permitir valoresNULL
em colunas de chave. Para mais informações, consulte Colunas-chave. - As colunas que não estão incluídas na chave primária são chamadas de colunas não chave e podem ter uma anotação
NOT NULL
opcional. - As colunas que usam o tipo
STRING
ouBYTES
no GoogleSQL precisam ser definidas com um comprimento, que representa o número máximo de caracteres Unicode que podem ser armazenados no campo. A especificação de tamanho é opcional para os tiposvarchar
echaracter varying
do PostgreSQL. Para mais informações, consulte Tipos de dados escalares para bancos de dados do dialeto GoogleSQL e Tipos de dados PostgreSQL para bancos de dados de dialeto PostgreSQL.
O que parece o layout físico das linhas na tabela Singers
? O diagrama a seguir mostra linhas da tabela Singers
armazenadas pela chave primária ("Singers(1)" e, em seguida, "Singers(2)", em que o número entre parênteses é o valor da chave primária.
No diagrama anterior, ilustramos um exemplo de limite de divisão entre as linhas
codificadas por Singers(3)
e Singers(4)
, com os dados das divisões resultantes
atribuídos a diferentes servidores. À medida que essa tabela cresce, é possível que linhas de dados Singers
sejam armazenadas em locais diferentes.
Criar tabelas mãe e filha
Suponha que agora você queira adicionar alguns dados básicos sobre os álbuns de cada cantor ao aplicativo de música.
A chave primária de Albums
é composta por duas colunas: SingerId
e AlbumId
, para associar cada álbum à sua cantora. O esquema de exemplo a seguir
define as tabelas Albums
e Singers
na raiz da hierarquia do banco de dados, o que as torna tabelas irmãs.
-- Schema hierarchy: -- + Singers (sibling table of Albums) -- + Albums (sibling table of Singers)
GoogleSQL
CREATE TABLE Singers ( SingerId INT64 NOT NULL, FirstName STRING(1024), LastName STRING(1024), SingerInfo BYTES(MAX), ) PRIMARY KEY (SingerId); CREATE TABLE Albums ( SingerId INT64 NOT NULL, AlbumId INT64 NOT NULL, AlbumTitle STRING(MAX), ) PRIMARY KEY (SingerId, AlbumId);
PostgreSQL
CREATE TABLE singers ( singer_id BIGINT PRIMARY KEY, first_name VARCHAR(1024), last_name VARCHAR(1024), singer_info BYTEA ); CREATE TABLE albums ( singer_id BIGINT, album_id BIGINT, album_title VARCHAR, PRIMARY KEY (singer_id, album_id) );
O layout físico das linhas de Singers
e Albums
é semelhante ao diagrama a seguir, com linhas da tabela Albums
armazenadas pela chave primária contígua, em seguida, as linhas de Singers
armazenadas pela chave primária contígua:
Uma observação importante sobre o esquema é que o Spanner não pressupõe relações de localidade de dados entre as tabelas Singers
e Albums
, porque elas são tabelas de nível superior. Conforme o banco de dados cresce, o Spanner pode adicionar limites de divisão entre qualquer uma das linhas. Isso significa que as linhas da tabela Albums
podem acabar em uma divisão diferente das linhas da tabela Singers
,
e as duas divisões podem se mover de maneira independente uma da outra.
Dependendo das necessidades do seu aplicativo, convém permitir que os dados Albums
sejam localizados em divisões diferentes dos dados Singers
. No entanto, isso pode gerar
uma queda de desempenho devido à necessidade de coordenar leituras e atualizações em
recursos distintos. Se o aplicativo precisa recuperar informações sobre todos os álbuns de um cantor específico com frequência, crie Albums
como uma tabela filha intercalada de Singers
, que coloca linhas das duas tabelas ao longo da dimensão da chave primária. O próximo exemplo explica isso com mais detalhes.
Criar tabelas intercaladas
Uma tabela intercalada é uma tabela que é declarada filha intercalada de outra porque é necessário que as linhas da tabela filha sejam armazenadas fisicamente com a linha pai associada. Como mencionado anteriormente, a chave primária da tabela pai precisa ser a primeira parte da chave primária composta da tabela filha.
Ao projetar seu aplicativo de música, suponha que você perceba que o app
precisa acessar com frequência as linhas da tabela Albums
quando acessa uma
linha Singers
. Por exemplo, ao acessar a linha Singers(1)
, também é necessário
acessar as linhas Albums(1, 1)
e Albums(1, 2)
. Nesse caso, Singers
e Albums
precisam ter uma forte relação de localidade de dados. É possível declarar essa relação de localidade de dados criando Albums
como uma tabela filha intercalada de Singers
.
-- Schema hierarchy: -- + Singers -- + Albums (interleaved table, child table of Singers)
A linha em negrito no esquema a seguir mostra como criar Albums
como uma tabela intercalada de Singers
.
GoogleSQL
CREATE TABLE Singers ( SingerId INT64 NOT NULL, FirstName STRING(1024), LastName STRING(1024), SingerInfo BYTES(MAX), ) PRIMARY KEY (SingerId); CREATE TABLE Albums ( SingerId INT64 NOT NULL, AlbumId INT64 NOT NULL, AlbumTitle STRING(MAX), ) PRIMARY KEY (SingerId, AlbumId), INTERLEAVE IN PARENT Singers ON DELETE CASCADE;
PostgreSQL
CREATE TABLE singers ( singer_id BIGINT PRIMARY KEY, first_name VARCHAR(1024), last_name VARCHAR(1024), singer_info BYTEA ); CREATE TABLE albums ( singer_id BIGINT, album_id BIGINT, album_title VARCHAR, PRIMARY KEY (singer_id, album_id) ) INTERLEAVE IN PARENT singers ON DELETE CASCADE;
Observações sobre este esquema:
SingerId
, que é a primeira parte da chave primária da tabela filhaAlbums
, também é a chave primária da tabela paiSingers
.- A anotação
ON DELETE CASCADE
indica que, quando uma linha da tabela pai é excluída, as linhas filhas também são excluídas automaticamente. Se uma tabela filha não tiver essa anotação ou se a anotação forON DELETE NO ACTION
, exclua as linhas filho antes de excluir a linha pai. - As linhas intercaladas são ordenadas primeiro por linhas da tabela pai e, em seguida, por linhas contíguas da tabela filha que compartilham a chave primária da tabela pai. Por exemplo, "Singers(1)", depois "Albums(1, 1)" e "Albums(1, 2)".
- A relação de localidade de dados de cada cantor e dados dos respectivos álbuns será preservada se esse banco de dados for dividido, desde que o tamanho de uma linha
Singers
e todas as linhasAlbums
permaneçam abaixo do limite de tamanho de divisão e que não haja ponto de acesso em nenhuma dessas linhasAlbums
. - A linha pai já precisa existir para que seja possível inserir linhas filho. A linha pai pode já existir no banco de dados ou ser inserida antes da inserção das linhas filhas na mesma transação.
Criar uma hierarquia de tabelas intercaladas
A relação mãe e filha entre Singers
e Albums
pode ser estendido para mais tabelas descendentes. Por exemplo, é possível criar uma tabela intercalada chamada Songs
como filha de Albums
para armazenar a lista de faixas de cada álbum:
Songs
precisa ter uma chave primária que inclua todas as chaves primárias das tabelas
que estão em um nível mais alto na hierarquia, ou seja, SingerId
e AlbumId
.
-- Schema hierarchy: -- + Singers -- + Albums (interleaved table, child table of Singers) -- + Songs (interleaved table, child table of Albums)
GoogleSQL
CREATE TABLE Singers ( SingerId INT64 NOT NULL, FirstName STRING(1024), LastName STRING(1024), SingerInfo BYTES(MAX), ) PRIMARY KEY (SingerId); CREATE TABLE Albums ( SingerId INT64 NOT NULL, AlbumId INT64 NOT NULL, AlbumTitle STRING(MAX), ) PRIMARY KEY (SingerId, AlbumId), INTERLEAVE IN PARENT Singers ON DELETE CASCADE; CREATE TABLE Songs ( SingerId INT64 NOT NULL, AlbumId INT64 NOT NULL, TrackId INT64 NOT NULL, SongName STRING(MAX), ) PRIMARY KEY (SingerId, AlbumId, TrackId), INTERLEAVE IN PARENT Albums ON DELETE CASCADE;
PostgreSQL
CREATE TABLE singers ( singer_id BIGINT PRIMARY KEY, first_name VARCHAR(1024), last_name VARCHAR(1024), singer_info BYTEA ); CREATE TABLE albums ( singer_id BIGINT, album_id BIGINT, album_title VARCHAR, PRIMARY KEY (singer_id, album_id) ) INTERLEAVE IN PARENT singers ON DELETE CASCADE; CREATE TABLE songs ( singer_id BIGINT, album_id BIGINT, track_id BIGINT, song_name VARCHAR, PRIMARY KEY (singer_id, album_id, track_id) ) INTERLEAVE IN PARENT albums ON DELETE CASCADE;
O diagrama a seguir representa uma visualização física de linhas intercaladas.
Neste exemplo, à medida que o número de cantores aumenta, o Spanner adiciona limites de divisão entre os cantores para preservar a localidade de dados entre um cantor e os dados do álbum e da música. No entanto, se o tamanho de uma linha de cantor e as linhas filhas dela excederem o limite de tamanho da divisão, ou se um ponto de acesso for detectado nas linhas filhas, o Spanner tentará adicionar limites de divisão para isolar essa linha com todas as linhas filhas abaixo dela.
Em resumo, uma tabela mãe e todas as tabelas filhas e descendentes formam uma hierarquia de tabelas no esquema. Cada tabela na hierarquia é logicamente independente, mas fazer a intercalação física delas pode melhorar o desempenho, fazendo a pré-mesclagem das tabelas e permitindo que você acesse linhas relacionadas, minimizando os acessos ao armazenamento.
Mesclagens com tabelas intercaladas
Se possível, vincule dados em tabelas intercaladas por chave principal. Como cada linha intercalada geralmente é armazenada fisicamente na mesma divisão da linha pai, o Spanner pode executar junções por chave primária localmente, minimizando o acesso ao armazenamento e o tráfego de rede. No exemplo a seguir, Singers
e Albums
são unidos na chave primária SingerId
.
GoogleSQL
SELECT s.FirstName, a.AlbumTitle FROM Singers AS s JOIN Albums AS a ON s.SingerId = a.SingerId;
PostgreSQL
SELECT s.first_name, a.album_title FROM singers AS s JOIN albums AS a ON s.singer_id = a.singer_id;
Colunas de chave
Esta seção inclui algumas observações sobre as principais colunas.
Como trocar chaves de tabela
As chaves de uma tabela não podem mudar. Não é possível adicionar ou remover uma coluna de chave a uma tabela existente.
Como armazenar NULLs em uma chave primária
No GoogleSQL, se você quiser armazenar NULL em uma coluna de chave primária, omita a cláusula NOT NULL
para essa coluna no esquema. Bancos de dados de dialeto PostgreSQL não
aceitam NULLs em uma coluna de chave primária.
Veja um exemplo de como omitir a cláusula NOT NULL
na coluna da chave principal SingerId
. Observe que, como SingerId
é a chave primária, só pode haver uma linha que armazene NULL
nessa coluna.
CREATE TABLE Singers ( SingerId INT64, FirstName STRING(1024), LastName STRING(1024), ) PRIMARY KEY (SingerId);
A propriedade anulável da coluna da chave primária precisa coincidir entre as instruções da tabela mãe e as da tabela filha. Neste exemplo, NOT NULL
para a coluna
Albums.SingerId
não é permitido porque Singers.SingerId
a omite.
CREATE TABLE Singers ( SingerId INT64, FirstName STRING(1024), LastName STRING(1024), ) PRIMARY KEY (SingerId); CREATE TABLE Albums ( SingerId INT64 NOT NULL, AlbumId INT64 NOT NULL, AlbumTitle STRING(MAX), ) PRIMARY KEY (SingerId, AlbumId), INTERLEAVE IN PARENT Singers ON DELETE CASCADE;
Tipos não permitidos
As colunas a seguir não podem ser do tipo ARRAY
:
- colunas de chave de uma tabela
- colunas de chave de um índice
Projetar para multilocação
Talvez você queira implementar a multilocação se estiver armazenando dados que pertencem a clientes diferentes. Por exemplo, um serviço de música pode armazenar o conteúdo de cada gravadora separadamente.
Multilocação clássica
A maneira clássica de projetar para multilocação é criar um banco de dados separado para cada cliente. Neste exemplo, cada banco de dados tem sua própria tabela Singers
:
SingerId | FirstName | LastName |
---|---|---|
1 | Marc | Richards |
2 | Catalina | Smith |
SingerId | FirstName | LastName |
---|---|---|
1 | Alice | Trentor |
2 | Gabriel | Wright |
SingerId | FirstName | LastName |
---|---|---|
1 | Benjamin | Martinez |
2 | Hannah | Harris |
Multilocação gerenciada por esquema
Outra maneira de projetar para multilocação no Spanner é ter todos os clientes em uma única tabela em um único banco de dados e usar um valor de chave primária diferente para cada cliente. Por exemplo, é possível incluir uma coluna de chave CustomerId
nas tabelas. Se você tornar CustomerId
a primeira coluna de chave, os dados de cada cliente terão uma boa localização. Assim, o Spanner pode usar efetivamente divisões de banco de dados para maximizar o desempenho com base no tamanho dos dados e nos padrões de carga. No exemplo a seguir,
há uma única tabela Singers
para todos os clientes:
CustomerId | SingerId | FirstName | LastName |
---|---|---|---|
1 | 1 | Marc | Richards |
1 | 2 | Catalina | Smith |
2 | 1 | Alice | Trentor |
2 | 2 | Gabriel | Wright |
3 | 1 | Benjamin | Martinez |
3 | 2 | Hannah | Harris |
Se você precisar ter bancos de dados separados para cada locatário, saiba que há restrições:
- Há limites quanto ao número de bancos de dados por instância e ao número de tabelas e índices por banco de dados. Dependendo do número de clientes, pode não ser possível ter bancos de dados ou tabelas separados.
- A adição de novas tabelas e índices não intercalados pode levar muito tempo. Talvez você não consiga atingir o desempenho desejado se o design do esquema depender da adição de novas tabelas e índices.
Se for preciso criar bancos de dados separados, pode ser mais interessante distribuir suas tabelas entre eles de maneira que cada banco tenha um número baixo de alterações de esquema por semana.
Se você criar tabelas e índices separados para cada cliente do aplicativo, não coloque todas as tabelas e índices no mesmo banco de dados. Em vez disso, divida-os em vários bancos de dados para reduzir os problemas de desempenho com a criação de um grande número de índices.
Para saber mais sobre outros padrões de gerenciamento de dados e design de aplicativos para multilocação, consulte Como implementar a multilocação no Spanner.