Nesta seção, você aprenderá a criar um stream. O Datastream usa esse stream para transferir dados de um banco de dados de origem Oracle, MySQL, SQL Server ou PostgreSQL para o BigQuery ou o Cloud Storage.
A criação de um stream inclui o seguinte:
- Como definir as configurações da transmissão.
- Selecione o perfil de conexão que você criou para o banco de dados de origem Oracle, MySQL, SQL Server ou PostgreSQL (o perfil de conexão de origem) ou crie um perfil de conexão de origem, caso não tenha criado um.
- Configure informações sobre o banco de dados de origem para o fluxo especificando as tabelas e os esquemas no banco de dados de origem que o Datastream:
- Pode ser transferido para o destino.
- esteja impedido de ser transferido para o destino;
Determinar se o Datastream preencherá dados históricos, bem como as alterações em andamento no destino ou apenas as alterações nos dados. Ao ativar o preenchimento histórico, você pode especificar esquemas e tabelas no banco de dados de origem que o Datastream não pode preencher no destino.
Selecione o perfil de conexão que você criou para o BigQuery ou o Cloud Storage (o perfil de conexão de destino) ou crie um perfil de conexão de destino, caso ainda não tenha criado um.
Como configurar informações sobre o destino do stream Essas informações incluem:
- Para o BigQuery:
- Os conjuntos de dados em que o Datastream vai replicar esquemas, tabelas e dados de um banco de dados de origem.
- Para o Cloud Storage:
- A pasta do bucket de destino para o qual o Datastream transferirá esquemas, tabelas e dados de um banco de dados de origem.
- Para o BigQuery:
Validação do stream para garantir que ele será executado com êxito. Como validar verificações de stream:
- Indica se a fonte está configurada corretamente para permitir que o Datastream faça streaming de dados.
- Se a transmissão pode se conectar à origem e ao destino.
- A configuração completa do stream.
Definir configurações do stream
Acesse a página Streams no Google Cloud Console.
Clique em CRIAR STREAM.
Use a tabela a seguir para preencher os campos da seção Definir detalhes do fluxo da página Criar fluxo:
Campo Descrição Nome do fluxo Insira o nome de exibição do stream. ID do stream O Datastream preenche esse campo automaticamente com base no nome do stream que você inserir. É possível manter o ID gerado automaticamente ou alterá-lo. Região Selecione a região em que o stream é armazenado. Assim como todos os recursos, os streams são salvos em uma região. A seleção de região não afeta a capacidade do stream de se conectar ao banco de dados de origem ou ao destino, mas pode afetar a disponibilidade se a região tiver um período de inatividade. Recomendamos que você mantenha todos os recursos do stream na mesma região dos dados de origem para otimizar o custo e o desempenho. Tipo de origem Selecione o tipo de perfil que você especificou ao criar um perfil de conexão para um banco de dados de origem Oracle, MySQL, SQL Server ou PostgreSQL. Se você ainda não criou um perfil de conexão para o banco de dados de origem, crie um agora.
Tipo de destino Selecione o tipo de perfil que você especificou ao criar um perfil de conexão para um destino do BigQuery ou do Cloud Storage. Se você ainda não criou um perfil de conexão para o destino, crie um agora. Criptografia Por padrão, seus dados são criptografados com uma chave gerenciada por Google Cloud. Se você quiser gerenciar a criptografia, use uma chave de criptografia gerenciada pelo cliente (CMEK):
- Marque a caixa de seleção Chave do Cloud KMS.
- No menu suspenso Tipo de chave, selecione Cloud KMS e, em seguida, selecione o CMEK.
Se você não encontrar sua chave, clique em INSERIR NOME DO RECURSO DA CHAVE para fornecer o nome do recurso da chave que você quer usar. Por exemplo, insira
projects/my-project-name/locations/my-location/keyRings/my-keyring/cryptoKeys/my-key
no campo Nome do recurso da chave e clique em SALVAR.Também é possível usar rótulos para organizar os recursos do Datastream.
- Para criar um rótulo, clique em ADICIONAR MARCADOR e insira o par de chave-valor.
- Para remover o rótulo, clique no ícone da lixeira à direita da linha que contém esse rótulo.
Se quiser, adicione políticas de alertas ao seu stream. As políticas de alertas definem quando e como você quer receber notificações sobre falhas de transmissão.
- Para criar uma política de alertas, clique em Adicionar política de alertas.
- A página Criar política de alertas aparece no Cloud Monitoring. Nesta página, você define a política de alertas para o caso de falha do stream.
Para mais informações sobre as políticas de alertas, consulte Gerenciar políticas de alertas baseadas em métricas.
Revise os pré-requisitos necessários que são gerados automaticamente para refletir como o ambiente precisa estar preparado para um stream. Esses pré-requisitos podem incluir como configurar o banco de dados de origem e como conectá-lo ao destino. É melhor concluir esses pré-requisitos nessa etapa, mas é possível concluí-los a qualquer momento antes do teste ou do início da transmissão. Para mais informações sobre esses pré-requisitos, consulte Origens.
Clique em CONTINUAR. O painel Definir perfil de conexão da página Criar stream é exibido para seu tipo de banco de dados de origem.
Especificar informações sobre o perfil de conexão de origem
Se você criou um perfil de conexão de origem para o Oracle, MySQL, SQL Server ou PostgreSQL, selecione-o na lista de perfis de conexão.
Se você não tiver criado um perfil de conexão de origem, crie um clicando em CRIAR PERFIL DE CONEXtO na parte inferior da lista suspensa. Depois siga as mesmas etapas de Criar perfis de conexão
Clique em EXECUTAR TESTE para verificar se o banco de dados de origem e o Datastream podem se comunicar entre si.
Se o teste falhar, o problema associado ao perfil de conexão será exibido. Consulte a página Como diagnosticar problemas para ver as etapas de solução de problemas. Faça as alterações necessárias para corrigir o problema e teste novamente.
Clique em CONTINUAR. O painel Configurar origem da transmissão é exibido na página Criar stream.
Configurar informações sobre o banco de dados de origem para o fluxo
Configurar o banco de dados de origem do PostgreSQL
Se você selecionou o PostgreSQL como seu banco de dados de origem, é necessário definir as propriedades de replicação dele.
- Na seção Propriedades de replicação, especifique as seguintes propriedades:
- No campo Nome do slot de replicação, insira o nome do slot criado especificamente para este stream. O servidor do banco de dados usa esse slot para enviar eventos ao Datastream.
- No campo Nome da publicação, insira o nome da publicação que você criou no banco de dados. Uma publicação é um grupo de todas as tabelas em que você quer replicar as alterações usando esse fluxo.
- Siga as etapas descritas na seção Configurar bancos de dados de origem.
Configurar bancos de dados de origem
Na seção Selecionar objetos a serem incluídos, use o menu suspenso Objetos para incluir para especificar as tabelas e esquemas no banco de dados de origem que o Datastream pode transferir para o destino.
- Se você quiser que o Datastream transfira todas as tabelas e esquemas, selecione Todas as tabelas de todos os esquemas.
Se você quiser que o Datastream transfira apenas tabelas e esquemas específicos, selecione Esquemas e tabelas específicos e marque as caixas de seleção dos esquemas e das tabelas que você quer que o Datastream extraia.
Se você quiser fornecer uma definição textual das tabelas e esquemas que o Datastream vai transferir, selecione Personalizado e, no campo Critérios de correspondência de objetos, insira os esquemas e as tabelas que você quer que o Datastream extraia.
Se o banco de dados tiver um grande número de tabelas e esquemas, recomendamos usar a opção Personalizado, porque algumas tabelas e esquemas podem não ser incluídos na lista de objetos a serem extraídos.
Se quiser, expanda o nó Selecionar objetos a serem excluídos. No campo Objetos a serem excluídos, insira as tabelas e os esquemas no banco de dados de origem que você quer impedir que o Datastream extraia. A lista Objetos a serem excluídos tem precedência sobre a lista Objetos a serem incluídos. Se um objeto atender aos critérios das listas de inclusão e exclusão, ele será excluído do stream.
Dependendo da origem selecionada, especifique o método CDC para o fluxo:
- Para origens do SQL Server:
- Registros de transação: selecione esse método para processar mudanças diretamente dos registros do banco de dados. Esse método oferece o melhor desempenho e é mais eficiente, mas requer outras etapas de configuração.
- Tabelas de mudança: selecione esse método para processar mudanças de tabelas de mudança dedicadas. Esse método é mais fácil de configurar e tem menos limitações, mas oferece capacidade de processamento menor e produz uma carga maior no seu banco de dados do que o método de registros de transações. Para mais informações sobre como configurar o banco de dados do SQL Server de origem, consulte Configurar um banco de dados do SQL Server de origem.
- Para origens do MySQL:
- Replicação baseada em GTID (IDs de transação global) (pré-lançamento): selecione esse método se quiser que o Datastream ofereça failover e replicação contínua, independentemente das mudanças no cluster do banco de dados.
- Replicação baseada em binário: selecione esse método para ler e replicar as mudanças diretamente dos arquivos de registro binário de uma instância de banco de dados selecionada. Não é possível alternar um fluxo em execução para uma instância de origem ou uma réplica diferente usando esse método de CDC.
- Para origens do Oracle:
- LogMiner: selecione esse método para consultar registros "redo" arquivados usando a API LogMiner. O LogMiner é compatível com a maioria das opções disponíveis para o Oracle, como opções de criptografia e compactação.
- Leitor de binários (pré-lançamento): selecione esse método para extrair mudanças diretamente dos registros do Oracle. Isso permite a replicação mais rápida de grandes bancos de dados Oracle e reduz a latência e o overhead. Quando você seleciona essa opção, outro menu suspenso é mostrado. Selecione como você quer acessar os arquivos de registro do Oracle:
- Gerenciamento automático de armazenamento (ASM): selecione essa opção se o banco de dados usar o ASM. Verifique se você selecionou a caixa de seleção Ativar acesso ao ASM para leitor binário e preencheu os detalhes da instância do ASM no perfil de conexão de origem.
- Diretórios de banco de dados: selecione essa opção se você não usa o ASM para armazenar seus arquivos de registro. Se você selecionar diretórios de banco de dados, vai precisar informar os nomes dos diretórios de registro de repetição e de registro arquivado.
- Para origens do SQL Server:
Se preferir, expanda o nó Escolher o modo de preenchimento dos dados históricos e faça uma das seguintes seleções:
Selecione a opção Automático para fazer streaming de todos os dados existentes, além das alterações dos dados, da origem para o destino. No campo Objetos excluídos do preenchimento automático, insira as tabelas e os esquemas no banco de dados de origem que você quer impedir que o Datastream preencha no destino.
Selecione a opção Manual para transmitir apenas as alterações dos dados para o destino.
Clique em CONTINUAR. O painel Definir perfil de conexão da página Criar stream é exibido para seu tipo de destino.
Selecione um perfil de conexão de destino
Se você criou um perfil de conexão de destino, selecione-o na lista de perfis de conexão.
Se você não tiver criado um perfil de conexão de destino, crie um clicando em CRIAR PERFIL DE CONEXtO na parte inferior da lista suspensa. Depois siga as mesmas etapas de Criar perfis de conexão
Clique em CONTINUAR. O painel Configurar destino do stream é exibido na página Criar stream.
Configurar informações sobre o destino do stream
Esta seção descreve quais informações você precisa fornecer para configurar o destino do BigQuery ou do Cloud Storage.
Destino no BigQuery
Na seção Especificar como o Datastream deve transmitir para um conjunto de dados do BigQuery, selecione uma das seguintes opções no menu suspenso Agrupamento de esquemas:
Conjunto de dados para cada esquema: o Datastream cria um conjunto de dados do BigQuery para cada esquema de origem com base no nome do esquema.
Se você selecionar essa opção, o Datastream vai criar um conjunto de dados no projeto que contém a transmissão para cada esquema no banco de dados de origem.
Além disso, se você selecionar a opção Conjunto de dados para cada esquema, será necessário fornecer o seguinte:
- Na seção Tipo de local, especifique onde você quer armazenar seus dados no BigQuery. Selecione Região para especificar um único local geográfico ou Multirregião para especificar uma área maior que contém duas ou mais regiões. Se a sua prioridade é otimizar custos e desempenho, selecione Região e mantenha seus conjuntos de dados com outros Google Cloud recursos que você gerencia. Se você quiser atingir limites de cota mais altos, selecione Multirregião para permitir que o BigQuery use várias regiões em um grupo. Quando você seleciona Região, o campo é definido como a região selecionada para o fluxo.
- (Opcional) No campo Prefixo do conjunto de dados, defina um prefixo para o conjunto de dados criado pelo stream. A string especificada é adicionada ao nome do esquema de origem. Por exemplo, se o esquema for chamado
<mySchema>
e você definir o prefixo do conjunto de dados como<myPrefix>
, o Datastream vai criar um conjunto de dados chamado<myPrefix><mySchema>
. - Abra a seção Mostrar opções avançadas de criptografia.
- Especifique como você quer que seus dados sejam criptografados no BigQuery selecionando uma chave de criptografia gerenciada pelo Google ou pelo cliente.
Conjunto de dados único para todos os esquemas: o Datastream cria todas as tabelas no conjunto de dados do BigQuery especificado. Cada tabela criada pelo Datastream é nomeada usando uma combinação do nome do esquema de origem e do nome da tabela, separados por um sublinhado (por exemplo,
). Os conjuntos de dados disponíveis são agrupados por região. Também é possível criar um novo conjunto de dados.<mySchemaName>_<myTableName>
Especifique o Stream de modo de gravação. Selecione o modo de gravação para definir como os dados são gravados e processados no BigQuery:
- Mesclar: selecione essa opção se quiser que seus dados sejam sincronizados com a origem.
- Somente anexar: selecione essa opção se quiser manter todos os dados históricos dos seus eventos de alteração.
Especifique o limite de inatividade dos dados. Disponível apenas quando o modo Mesclar é selecionado na etapa anterior. Selecione um limite para equilibrar o desempenho e o custo das consultas do BigQuery em comparação com a atualização de dados. O BigQuery aplica as mudanças em segundo plano de maneira contínua ou no ambiente de execução da consulta, de acordo com o limite de desatualização. Uma desatualização mais baixa (dados mais recentes) pode aumentar os custos de processamento do BigQuery.
Clique em CONTINUAR. Aparecerá a página Criar detalhes da transmissão e a página Criar stream.
Destino no Cloud Storage
Opcionalmente, no campo Prefixo do caminho do stream, insira a pasta do bucket de destino em que o Datastream transferirá esquemas, tabelas e dados de um banco de dados de origem.
Por exemplo, se você quiser que o Datastream transfira dados do banco de dados de origem para a pasta
/root/example
no bucket de destino, insira/root/example
no campo Prefixo do caminho do stream.No campo Formato de saída, escolha o formato de arquivos gravados no Cloud Storage.
Opcional. Se você selecionar o formato JSON, duas caixas de seleção vão aparecer:
- Inclua um arquivo de esquema de tipos unificados no caminho do arquivo: se você marcar essa caixa de seleção, o Datastream vai gravar dois arquivos no Cloud Storage: um arquivo de dados JSON e um arquivo de esquema Avro. O arquivo de esquema tem o mesmo nome do arquivo de dados, com uma extensão
.schema
. Se você não marcar essa caixa de seleção, o Datastream vai gravar apenas o arquivo de dados JSON no Cloud Storage. Por padrão, essa caixa de seleção não é marcada. - Ativar a compactação gzip: se você marcar esta caixa de seleção, o Datastream vai usar o utilitário
gzip
para compactar os arquivos que o Datastream grava no Cloud Storage. Se você não marcar essa caixa de seleção, o Datastream vai gravar os arquivos no Cloud Storage sem compactá-los. Por padrão, essa caixa de seleção é marcada.
- Inclua um arquivo de esquema de tipos unificados no caminho do arquivo: se você marcar essa caixa de seleção, o Datastream vai gravar dois arquivos no Cloud Storage: um arquivo de dados JSON e um arquivo de esquema Avro. O arquivo de esquema tem o mesmo nome do arquivo de dados, com uma extensão
Clique em CONTINUAR. Aparecerá a página Criar detalhes da transmissão e a página Criar stream.
Criar o stream
- Verifique os detalhes do stream, bem como os perfis de conexão de origem e de destino que serão usados para transferir dados de um banco de dados de origem para um destino.
Clique emEXECUTAR VALIDAÇÃO para validar o stream. Ao validar um stream, o Datastream verifica se a origem está configurada corretamente, verifica se o stream pode se conectar à origem e ao destino e verifica a configuração de ponta a ponta do stream.
Se o banco de dados de origem for Oracle, o Datastream realizará as seguintes verificações:
Checagem Descrição Validade da lista de objetos O Datastream verifica se a lista de exclusão não substitui a lista de inclusão. Encaminhar conectividade do túnel SSH O Datastream verifica se ele pode se conectar a um Bastion Host por meio de um túnel SSH de encaminhamento. Conectividade com o banco de dados Oracle O Datastream verifica se ele pode se conectar ao banco de dados Oracle de origem. Permissões do usuário da Oracle O Datastream verifica se o usuário usado para se conectar ao banco de dados de origem tem todas as permissões necessárias para recuperar esquemas, tabelas e dados do banco de dados. Assim, o Datastream pode fazer streaming dessas informações para o destino. Configuração do modo de geração de registros O Datastream verifica se o modo de geração de registros do banco de dados Oracle está definido como ARCHIVELOG. Configuração adicional da geração de registros O Datastream verifica se a geração de registros complementares está ativada nas tabelas do banco de dados que estão sendo transmitidas da origem para o destino. Configuração da CDC do Oracle O Datastream verifica se o método CDC selecionado está em conformidade com a configuração do banco de dados. Configuração de registros do arquivo O Datastream verifica se a geração de registros do arquivo está configurada na origem e se os arquivos de registros estão presentes. Permissões do Cloud Storage (para destinos do Cloud Storage) O Datastream verifica se ele tem as permissões necessárias para gravar no bucket de destino no Cloud Storage. Se o banco de dados de origem for o MySQL, o Datastream realizará as seguintes verificações:
Checagem Descrição Permissões de replicação O Datastream verifica se ele tem permissões para replicar um banco de dados MySQL. Versão do banco de dados O Datastream verifica se a versão do banco de dados MySQL é compatível. Para saber quais edições são compatíveis, consulte Versões. Configuração do formato do registro binário O Datastream verifica se o formato de registro binário do banco de dados do MySQL está definido como ROW
.A geração de registros binários está ativada O Datastream verifica se os arquivos de registros binários estão configurados corretamente e se há arquivos de registros presentes. Configuração de imagem de linha de registro binário O Datastream verifica se a imagem da linha do binlog está definida como FULL
.Compactação de binlog desativada O Datastream verifica se a compactação de log binário está desativada. Registro de atualizações de réplica ou escravo ativado O Datastream verifica se as atualizações de réplica do registro ou de escravo estão ativadas. Configuração do modo GTID ( applies only to GTID-based CDC
)O Datastream verifica se o modo GTID está definido como ON
quando a replicação baseada em GTID é usada.O GtidSet não contém GTIDs marcados ( applies only to GTID-based CDC
).O Datastream verifica se o conjunto de GTIDs não contém GTIDs marcados. Permissões do Cloud Storage (para destinos do Cloud Storage) O Datastream verifica se ele tem as permissões necessárias para gravar no bucket de destino no Cloud Storage. Verificação de avisos Descrição Expire logs days ou Expire logs seconds ou configuração de horas de retenção de binlog O Datastream verifica se expire_logs_days
,binlog_expire_logs_seconds
ebinlog retention hours
estão configurados com valores maiores que7
,604800
e168
, respectivamente.Configuração de pacotes máxima permitida O Datastream verifica se max_allowed_packet
está definido como 1 GB.Aplicar a consistência do GTID ou o modo estrito do GTID ( applies only to GTID-based CDC
)O Datastream verifica se a consistência do GTID ou o modo estrito do GTID estão ativados. Se o banco de dados de origem for PostgreSQL, o Datastream realizará as seguintes verificações:
Verificação Descrição Conectividade com o banco de dados PostgreSQL O Datastream verifica se ele pode se conectar ao banco de dados PostgreSQL de origem. A decodificação lógica está ativada O Datastream verifica se o parâmetro wal_level
do banco de dados PostgreSQL está definido comological
.Configuração do slot de replicação O Datastream verifica se o slot de replicação do PostgreSQL existe e está ativo, se o Datastream tem as permissões necessárias para acessá-lo e se ele está configurado corretamente. Configuração da publicação O Datastream verifica se a publicação existe e se as tabelas a serem replicadas para o fluxo estão incluídas nela. Permissões de preenchimento O Datastream verifica se as tabelas necessárias para preencher os dados históricos existem e se ele tem as permissões necessárias para lê-las. Se o banco de dados de origem for o SQL Server, o Datastream realizará as seguintes verificações:
Verificação Descrição Edição do SQL Server O Datastream verifica se a edição do banco de dados do SQL Server de origem tem suporte. Para saber quais edições são compatíveis, consulte Versões. Permissões de usuário do SQL Server O Datastream verifica se o usuário tem as permissões necessárias para acessar o banco de dados do SQL Server de origem. O CDC do SQL Server está ativado O Datastream verifica se a CDC está ativada para o banco de dados e todas as tabelas incluídas no fluxo. Validações do banco de dados do SQL Server O Datastream verifica se o banco de dados de origem está configurado corretamente, se todos os requisitos de replicação foram atendidos e se não há tipos de dados sem suporte nas colunas. Permissões do Cloud Storage ou do BigQuery O Datastream verifica se o usuário tem as permissões necessárias para gravar no destino.
Depois que todas as verificações de validação forem aprovadas, clique em CRIAR E INICIAR para criar e iniciar o fluxo imediatamente ou em CRIAR para criar o fluxo sem iniciá-lo imediatamente.
Se você não iniciar o stream agora, poderá iniciá-lo na página Streams clicando em INICIAR.
Após criar um stream, você pode ver informações detalhadas e de alto nível sobre ele.
A seguir
- Para saber mais sobre transmissões, consulte Ciclo de vida da transmissão.
- Para saber como executar um stream, consulte Executar um stream.
- Para saber como modificar seus streams, consulte Modificar um stream.
- Para saber como recuperar um stream, consulte Recuperar um stream.