Esta página foi traduzida pela API Cloud Translation.

Visão geral do fluxo de alterações

Um fluxo de alterações monitora e transmite as mudanças de dados de um banco de dados do Spanner (inserções, atualizações e exclusões) quase em tempo real.

Esta página oferece uma visão geral de alto nível dos fluxos de mudança do Spanner: o que eles fazem e como funcionam. Para saber como criar e gerenciar fluxos de mudanças no seu banco de dados e conectá-los a outros serviços, siga os links em O que vem por aí.

Finalidade dos fluxos de alterações

Os fluxos de alterações oferecem uma maneira flexível e escalonável de transmitir mudanças de dados para outros serviços. Os casos de uso comuns incluem:

Replique as mudanças de dados do Spanner para um data warehouse, como o BigQuery, para análises.
Acionar a lógica do aplicativo com base nas mudanças de dados enviadas para uma fila de mensagens, como o Pub/Sub.
Armazenar alterações de dados no Cloud Storage para fins de conformidade ou arquivamento.

Mudar a configuração do fluxo

O Spanner trata os fluxos de mudanças como objetos de esquema, assim como tabelas e índices. Assim, você cria, modifica e exclui fluxos de alterações usando instruções DDL e pode acessar os fluxos de alterações de um banco de dados, assim como outros objetos de esquema gerenciados por DDL.

É possível configurar um fluxo de mudanças para monitorar alterações de dados em um banco de dados inteiro ou limitar o escopo a tabelas e colunas específicas. Um banco de dados pode ter vários fluxos de mudanças, e uma tabela ou coluna específica pode ter vários fluxos que a monitoram, dentro de limites.

Você pode configurar um fluxo de mudanças com o seguinte:

Especifique o período de retenção de dados para substituir o período de retenção padrão de um dia.
Especifique o tipo de captura de valor para substituir o tipo de captura de valor padrão OLD_AND_NEW_VALUES.
Aplique um filtro de exclusões com base em TTL para filtrar exclusões com base em TTL dos fluxos de mudanças.
Aplique um filtro de modificações de tabela para excluir todas as modificações de tabela INSERT, UPDATE ou DELETE.
Ative a exclusão de registros no nível da transação para excluir determinadas transações dos fluxos de alterações.

Emitir o DDL que cria um fluxo de mudanças inicia uma operação de longa duração. Quando ele for concluído, o novo fluxo de alterações vai começar a monitorar as tabelas e colunas atribuídas a ele.

Observar tabelas e colunas de forma implícita

Os fluxos de mudança que monitoram uma tabela inteira monitoram implicitamente todas as colunas dessa tabela, mesmo quando a definição dela é atualizada. Por exemplo, quando você adiciona novas colunas à tabela, o fluxo de alterações começa a monitorar essas novas colunas automaticamente, sem exigir nenhuma modificação na configuração desse fluxo. Da mesma forma, a fluxo de mudanças para de monitorar automaticamente as colunas que são descartadas dessa tabela.

Os fluxos de mudança de banco de dados inteiros funcionam da mesma forma. Eles monitoram implicitamente cada coluna em cada tabela, monitorando automaticamente as tabelas ou colunas adicionadas após a criação do fluxo de alterações e deixando de monitorar as tabelas ou colunas descartadas.

Observar tabelas e colunas de forma explícita

Se você configurar um fluxo de mudanças para monitorar apenas colunas específicas em uma tabela e adicionar colunas a essa tabela posteriormente, o fluxo de mudanças não vai começar a monitorar essas colunas, a menos que você reconfigure o fluxo de mudanças para fazer isso.

O esquema do banco de dados trata as streams de mudanças como objetos dependentes de qualquer coluna ou tabela que elas monitoram explicitamente. Antes de excluir qualquer coluna ou tabela, remova-a manualmente da configuração de qualquer fluxo de mudanças que a monitora explicitamente.

Tipos de mudanças de dados que os fluxos de alterações monitoram

As alterações de dados que um fluxo de alterações monitora incluem todas as inserções, atualizações e exclusões feitas nas tabelas e colunas que ele monitora. Essas mudanças podem vir de:

Instruções DML
Mutações
Exclusão em cascata em tabelas filhas intercaladas
Exclui os resultados das regras de prazo de validade

Os fluxos de mudanças só podem monitorar alterações de dados em colunas e tabelas criadas pelo usuário. Eles não monitoram índices, visualizações, outras transmissões de mudanças ou tabelas do sistema, como o esquema de informações ou tabelas de estatísticas. As transmissões de mudança não monitoram colunas geradas, a menos que a coluna faça parte da chave primária. As colunas de chave primária são sempre rastreadas.

Além disso, as transmissões de mudança não monitoram alterações de esquema ou de dados que resultem diretamente de mudanças de esquema, exceto preenchimentos de valores padrão. Por exemplo, um fluxo de alterações que monitora um banco de dados inteiro não considera e registra uma exclusão de tabela como uma mudança de dados, mesmo que essa ação exclua todos os dados da tabela do banco de dados.

Como o Spanner grava e armazena fluxos de alterações

Sempre que o Spanner detecta uma mudança de dados em uma coluna que está sendo monitorada por um fluxo de alterações, ele grava um registro de alteração de dados no armazenamento interno. A gravação de alteração de dados e o registro de alteração de dados são gravados na mesma transação. O Spanner colocaliza as duas gravações para que elas sejam processadas pelo mesmo servidor, minimizando o processamento de gravação. A transação é replicada nas réplicas do banco de dados, sujeita a custos de armazenamento e replicação. Para mais informações, consulte Preços do Spanner.

Conteúdo de um registro de alteração de dados

Cada registro de alteração de dados gravado por um fluxo de alterações inclui as seguintes informações sobre a alteração de dados:

O nome da tabela afetada
Os nomes, valores e tipos de dados das chaves primárias que identificam a linha alterada
Os nomes e tipos de dados das colunas da linha alterada que foram capturados com base na definição do fluxo de mudanças.
Os valores antigos das colunas da linha. A disponibilidade dos valores antigos e do conteúdo que eles rastreiam, que pode ser apenas as colunas modificadas ou toda a linha rastreada, depende do tipo de captura de valor configurado pelo usuário.
Os novos valores das colunas da linha. A disponibilidade dos novos valores e o conteúdo que eles rastreiam dependem do tipo de captura de valor configurado pelo usuário.
O tipo de modificação (inserir, atualizar ou excluir)
O carimbo de data/hora de confirmação
O ID da transação
O número de sequência do registro
O tipo de captura de valor do registro de alteração de dados.

Para saber mais sobre a estrutura dos registros de mudança de dados, consulte Registros de mudança de dados.

Retenção de dados

Um fluxo de alterações retém os registros de alteração de dados por um período de um a sete dias. É possível usar DDL para especificar um limite de retenção de dados diferente do padrão de um dia ao criar um fluxo de alterações ou ajustá-lo a qualquer momento no futuro. Reduzir o limite de retenção de dados de um fluxo de alterações vai fazer com que todos os dados de alterações históricas mais antigos do que o novo limite fiquem imediatamente e permanentemente indisponíveis para os leitores desse fluxo.

Esse período de retenção de dados apresenta um trade-off: um período de retenção mais longo tem maiores demandas de armazenamento no banco de dados do stream.

Tipo de captura de valor

A opção de configuração do tipo de captura de valor de um fluxo de mudanças controla a maneira como ele armazena os valores de uma linha alterada. É possível usar o DDL para especificar um dos seguintes tipos de captura de valor para um fluxo de mudanças:

OLD_AND_NEW_VALUES: captura os valores antigos e novos das colunas modificadas de uma linha.
NEW_VALUES: captura apenas os novos valores das colunas que não são chave, mas não os valores antigos.
NEW_ROW: captura todos os novos valores das colunas observadas, modificadas e não modificadas, sempre que qualquer uma delas mudar. Nenhum valor antigo é capturado.
NEW_ROW_AND_OLD_VALUES: captura todos os novos valores de colunas modificadas e não modificadas, além dos valores antigos de colunas modificadas.

Excluir exclusões com base no time to live

No Spanner, o time to live (TTL) permite definir políticas para excluir dados periodicamente das tabelas do Spanner. Por padrão, os fluxos de alterações incluem todas as exclusões com base no TTL. Use exclude_ttl_deletes para definir o fluxo de alterações para excluir exclusões baseadas em TTL. Quando você define esse filtro para excluir exclusões com base no TTL, apenas as exclusões futuras com base no TTL são excluídas do fluxo de mudanças.

O valor padrão desse filtro é false. Para excluir exclusões com base no TTL, defina o filtro como true. É possível adicionar o filtro ao criar um fluxo de alterações ou modificar um fluxo de alterações para incluir o filtro.

Tipo de modificação da tabela

Por padrão, os fluxos de alterações incluem todas as modificações de tabela, como inserções, atualizações e exclusões. É possível filtrar uma ou mais dessas modificações de tabela no escopo da sua transmissão de mudanças usando as seguintes opções de filtro:

exclude_insert: exclui todas as modificações da tabela INSERT
exclude_update: exclui todas as modificações da tabela UPDATE
exclude_delete: exclui todas as modificações da tabela DELETE

O valor padrão desses filtros é false. Para excluir um tipo específico de modificação de tabela, defina o filtro como true. É possível definir um ou mais filtros ao mesmo tempo.

É possível adicionar um filtro para um tipo de modificação de tabela ao criar um fluxo de mudanças ou modificar o filtro para um tipo de modificação de tabela em um fluxo de mudanças existente.

Exclusão de registros no nível da transação

Por padrão, um fluxo de mudanças monitora todas as transações de gravação no banco de dados porque a opção DDL allow_txn_exclusion está definida como false. Defina a opção allow_txn_exclusion como true para permitir que o fluxo de alterações ignore registros de transações de gravação especificadas. Se você não definir essa opção como true, todas as transações de gravação serão monitoradas, mesmo que você use o parâmetro exclude_txn_from_change_streams na transação de gravação.

É possível ativar essa opção ao criar um fluxo de alterações ou modificar um fluxo de alterações existente.

Excluir transações de gravação dos fluxos de alterações

Para excluir uma transação de gravação dos fluxos de mudanças, defina o parâmetro exclude_txn_from_change_streams como true. Esse parâmetro faz parte dos métodos TransactionOptions e BatchWriteRequest. O valor padrão desse parâmetro é false. É possível definir esse parâmetro com a API RPC, a API REST ou usando as bibliotecas de cliente. Para mais informações, consulte Especificar uma transação de gravação a ser excluída dos streams de alterações.

Não é possível definir esse parâmetro como true para transações somente leitura. Se você fizer isso, a API vai retornar um erro de argumento inválido.

Para fluxos de mudança que monitoram colunas modificadas por transações, quando exclude_txn_from_change_streams é definido como true, dois cenários são possíveis:

Se a opção DDL allow_txn_exclusion estiver definida como true, as atualizações feitas nessa transação não serão registradas no fluxo de mudanças.
Se você não definir a opção DDL allow_txn_exclusion ou se ela estiver definida como false, as atualizações feitas nessa transação serão registradas no fluxo de mudanças.

Se você não definir a opção exclude_txn_from_change_streams ou se ela estiver definida como false, todas as colunas de monitoramento de fluxos de mudanças modificadas por transações capturarão as atualizações feitas nessa transação.

Como ler fluxos de alterações

O Spanner oferece várias maneiras de ler os dados de um fluxo de alterações:

Pelo Dataflow, usando o conector SpannerIO do Apache Beam. Essa é a solução recomendada para a maioria dos aplicativos de fluxo de mudanças. O Google também oferece modelos do Dataflow para casos de uso comuns.
Diretamente, usando a API Spanner. Isso troca a abstração e os recursos dos pipelines do Dataflow por velocidade e flexibilidade máximas.
Usando o conector do Kafka baseado em Debezium para fluxos de alterações do Spanner. Esse conector transmite registros de mudança diretamente para tópicos do Kafka.

É possível fornecer isolamento parcial para leituras de fluxos de mudanças usando leituras direcionadas. As leituras direcionadas podem ajudar a minimizar o impacto nas cargas de trabalho transacionais no seu banco de dados. É possível usar a API Spanner para encaminhar as leituras de fluxos de mudança para um tipo de réplica ou região específica em uma configuração de instância multirregional ou uma configuração regional personalizada com regiões opcionais somente leitura. Para mais informações, consulte Leituras direcionadas.

Como usar o Dataflow

Use o conector SpannerIO do Apache Beam para criar pipelines do Dataflow que leem de fluxos de alterações. Depois de configurar o conector com detalhes sobre um fluxo de alterações específico, ele vai gerar automaticamente novos registros de alteração de dados em um único conjunto de dados PCollection sem limites, pronto para processamento adicional por transformações subsequentes no pipeline do Dataflow.

O Dataflow usa funções de gestão de janelas para dividir coleções ilimitadas em componentes lógicos ou janelas. Como resultado, o Dataflow fornece streaming quase em tempo real ao ler de fluxos de alterações.

O Google fornece modelos que permitem criar rapidamente pipelines do Dataflow para casos de uso comuns de fluxos de alterações, incluindo o envio de todas as alterações de dados de um fluxo para um conjunto de dados do BigQuery ou a cópia delas para um bucket do Cloud Storage.

Para uma visão geral mais detalhada de como os fluxos de alterações e o Dataflow funcionam juntos, consulte Criar conexões de fluxos de alterações com o Dataflow.

Como usar a API

Como alternativa ao uso do Dataflow para criar pipelines de fluxos de alterações, você pode escrever um código que use a API Spanner para ler os registros de um fluxo de alterações diretamente. Isso permite ler registros de mudança de dados da mesma forma que o conector SpannerIO, oferecendo as menores latências possíveis ao ler dados de fluxo de mudanças em vez de oferecer a flexibilidade do Dataflow.

Para saber mais, consulte Consultar streams de alterações. Para uma discussão mais detalhada sobre como consultar fluxos de alterações e interpretar os registros retornados, consulte Partições, registros e consultas de fluxos de alterações.

Como usar o conector Kafka

O conector do Kafka gera registros de mudança de fluxo diretamente em um tópico do Kafka. Ele abstrai os detalhes da consulta de fluxos de alterações usando a API Spanner.

Para saber mais sobre como os fluxos de alterações e o conector do Kafka trabalham juntos, consulte Criar conexões de fluxos de alterações com o conector do Kafka.

Limites

Há vários limites nos fluxos de alterações, incluindo o número máximo de fluxos de alterações que um banco de dados pode ter e o número máximo de fluxos que podem monitorar uma única coluna. Para conferir uma lista completa, consulte Limites do fluxo de mudanças.

Permissões

As transmissões de mudança usam:

A criação, atualização ou exclusão de fluxos de mudanças exige spanner.databases.updateDdl.
A leitura dos dados de um fluxo de alterações exige spanner.databases.select.

Se você estiver usando o conector SpannerIO, o proprietário do job do Dataflow que lê dados do fluxo de alterações vai precisar de permissões adicionais do IAM no banco de dados do aplicativo ou em um banco de dados de metadados separado. Consulte Criar um banco de dados de metadados.

A seguir

Aprenda a sintaxe DDL para criar e gerenciar fluxos de alterações.
Use fluxos e modelos de alterações para replicar as mudanças do Spanner para o BigQuery ou para o Cloud Storage.
Saiba mais sobre como criar pipelines do Dataflow para processar dados de fluxo de alterações.
Saiba mais sobre os detalhes dos fluxos de alterações, incluindo mais detalhes sobre a arquitetura de fluxo de alterações, como consultar fluxos de alterações usando a API e interpretar os registros retornados.
Saiba mais sobre como usar o conector do Kafka para processar dados de fluxo de alterações.