A replicação do Cloud Data Fusion permite-lhe criar cópias dos seus dados de forma contínua e em tempo real a partir de armazenamentos de dados operacionais, como o SQL Server e o MySQL, para o BigQuery.
Para usar a replicação, escolha uma das seguintes formas:
- Crie uma nova instância do Cloud Data Fusion e adicione a app Replication.
- Adicione a app Replication a uma instância existente.
As vantagens incluem:
Identifica incompatibilidades de esquemas, problemas de conetividade e funcionalidades em falta antes de iniciar a replicação e, em seguida, fornece ações corretivas.
Usar os dados operacionais mais recentes em tempo real para análise no BigQuery. Usa a replicação baseada em registos diretamente no BigQuery a partir do Microsoft SQL Server (com o CDC do SQL Server) e do MySQL (com o registo binário do MySQL).
A captura de dados de alterações (CDC) fornece uma representação dos dados que foram alterados numa stream, o que permite que os cálculos e o processamento se concentrem especificamente nos registos alterados mais recentemente. Isto minimiza os custos de dados de saída em sistemas de produção sensíveis.
Escalabilidade empresarial que suporta bases de dados transacionais de grande volume. Os carregamentos iniciais de dados para o BigQuery são suportados com a replicação de instantâneos sem tempo de inatividade, para preparar o armazém de dados para o consumo contínuo de alterações. Assim que a captura instantânea inicial estiver concluída, a replicação contínua de alto débito de alterações começa em tempo real.
Os painéis de controlo que ajudam a obter estatísticas em tempo real sobre o desempenho da replicação. É útil para identificar gargalos e monitorizar os SLAs de entrega de dados.
Incluindo suporte para residência de dados, chaves de encriptação geridas pelo cliente (CMEK) e VPC Service Controls. A integração do Cloud Data Fusion garante que os níveis mais elevados de segurança e privacidade empresarial são observados ao disponibilizar os dados mais recentes no seu data warehouse para análise.Google Cloud
Preços recomendados
Quando a replicação é executada, é cobrado o cluster do Dataproc e incorre em custos de processamento do BigQuery. Para otimizar estes custos, recomendamos vivamente que use os preços de taxa fixa do BigQuery.
Para mais informações, consulte a página de preços do Cloud Data Fusion.
Entidades de replicação
Entidade | Descrição |
---|---|
Replicação | A replicação é uma capacidade do Cloud Data Fusion que permite replicar dados continuamente com baixa latência de repositórios de dados operacionais para armazéns de dados analíticos. Crie uma tarefa de replicação configurando uma origem e um destino com transformações opcionais. |
Origem | Lê eventos de alteração de base de dados, tabela ou coluna e disponibiliza-os para processamento adicional num trabalho de replicação. Uma tarefa de replicação contém uma origem, que depende de uma solução de captura de alterações para fornecer as alterações. Pode haver várias origens para uma base de dados, cada uma com uma solução de captura de alterações diferente. Uma origem é um módulo encaixável criado com a arquitetura de plug-ins do CDAP. Se uma origem não estiver disponível para satisfazer as suas necessidades, pode criar a sua própria implementando a interface de origem e, em seguida, carregá-la para o CDAP ou o Cloud Data Fusion. |
Destino | Escreve as alterações recebidas de uma origem numa base de dados de destino. Uma tarefa de replicação contém um destino. Um alvo é um módulo encaixável criado com a arquitetura de plug-ins do CDAP. Se um destino não estiver disponível para satisfazer as suas necessidades, pode criar o seu próprio destino implementando a interface de destino e, em seguida, carregá-lo para o CDAP ou o Cloud Data Fusion. |
Propriedades de origem | Configura a origem, incluindo detalhes da associação, nomes de tabelas e bases de dados de origem, credenciais e outras propriedades. |
Propriedades de destino | Configura o destino, incluindo detalhes da ligação, nomes de tabelas e bases de dados de destino, credenciais e outras propriedades. |
Propriedades da tarefa de replicação | Configura a tarefa de replicação, incluindo os limites de falhas, áreas de preparação, notificações e definições de validação. |
Rascunho | Uma tarefa de replicação guardada e parcialmente concluída. Quando a definição da tarefa de replicação estiver concluída, pode ser iniciada. |
Eventos | Altere os eventos na origem para serem replicados no destino. Os eventos incluem inserções, atualizações, eliminações e alterações de DDL (Data Definition Language). |
Inserir | Adição de novos registos na origem. |
Atualizar | Atualização dos registos existentes na origem. |
Eliminar | Remoção de registos existentes na origem. |
Alteração da LDD | Um evento que contém uma alteração do esquema, como uma alteração no tipo de dados ou no nome. |
Registos | Os registos operacionais de uma tarefa de replicação. |
Detalhes da tarefa de replicação | Uma página de detalhes com informações sobre a tarefa de replicação, como o estado atual, as métricas operacionais, a vista do histórico ao longo do tempo, os resultados da validação e a respetiva configuração. |
Painel de controlo | Uma página que lista o estado de todas as atividades de captura de dados de alterações, incluindo débito, latência, taxas de falhas e resultados da validação. |
Ações
Ações | Descrição |
---|---|
Implementação | Criar uma nova tarefa de replicação seguindo um fluxo de interface Web para especificar uma origem, um destino e a respetiva configuração. |
Guardar | Guardar uma tarefa de replicação criada parcialmente para retomar a criação mais tarde. |
Eliminar | Eliminar uma tarefa de replicação existente. Só é possível eliminar pipelines parados. |
Iniciar | A iniciar uma tarefa de replicação. Se existirem alterações a serem processadas, a tarefa de replicação entra no estado "ativa"; caso contrário, entra no estado "a aguardar". |
Parar | Parar um trabalho de replicação. A tarefa de replicação para de processar alterações da origem. |
Ver registos | Ver registos de uma tarefa de replicação para depuração ou outra análise. |
Pesquisar | Pesquisar uma tarefa de replicação pelo respetivo nome, descrição ou outros metadados da tarefa de replicação. |
Avalie | Avaliar o impacto da replicação antes de a iniciar. A avaliação de uma tarefa de replicação gera um relatório de avaliação que sinaliza incompatibilidades de esquemas e funcionalidades em falta. |
Monitorização
Estados do replicador | Descrição |
---|---|
Implementado | A tarefa de replicação está implementada, mas não foi iniciada. Neste estado, uma tarefa de replicação não replica eventos. |
A iniciar | O trabalho de replicação está a ser inicializado e não está pronto para replicar alterações. |
Em execução | A tarefa de replicação é iniciada e está a replicar alterações. |
A parar… | A tarefa de replicação está a ser interrompida. |
Parado | A tarefa de replicação está parada. |
Com falhas | A tarefa de replicação falhou devido a erros fatais. |
Estados das tabelas
Conceito | Descrição |
---|---|
A tirar instantâneo | A tarefa de replicação está a tirar um instantâneo do estado atual da tabela antes de replicar as alterações. |
A replicar | A tarefa de replicação está a replicar alterações da tabela de origem para a tabela de destino. |
Em falha | A tarefa de replicação não está a replicar as alterações da tabela de origem devido a um erro. |
Métrica
Conceito | Descrição |
---|---|
Inserções | O número de inserções aplicadas ao destino no período selecionado. |
Atualizações | O número de atualizações aplicadas ao destino no período selecionado. |
Eliminações | O número de eliminações aplicadas ao destino no período de tempo selecionado. |
DDLs | O número de alterações de DDL aplicadas ao destino no período selecionado. |
Débito | O número de eventos e o número de bytes replicados para o destino no período selecionado. |
Latência | A latência à qual os dados são replicados para o destino no período selecionado. |
Componentes
Componente | Descrição |
---|---|
Serviço | Supervisiona a orquestração integral das tarefas de replicação e oferece capacidades para conceber, implementar, gerir e monitorizar tarefas de replicação. É executado no projeto de inquilino do Cloud Data Fusion (o projeto de inquilino está oculto do utilizador). O respetivo estado é apresentado na página **Administrador do sistema** da interface Web do Cloud Data Fusion. |
Gestão de estados | O serviço gere o estado de cada tarefa de replicação num contentor do Cloud Storage no projeto do cliente. O contentor pode ser configurado quando a tarefa de replicação é criada. Armazena os desvios atuais e o estado de replicação de cada tarefa de replicação. |
Execução | Os clusters do Dataproc fornecem o ambiente de execução de tarefas de replicação, que são executadas no seu projeto. As tarefas de replicação são executadas através de trabalhadores do CDAP. O tamanho e as caraterísticas do ambiente de execução são configurados com perfis do Compute Engine. |
Base de dados de origem | A sua base de dados operacional de produção que é replicada na base de dados de destino. Esta base de dados pode estar localizada no local ou em Google Cloud. O Cloud Data Fusion Replication suporta bases de dados de origem MySQL, Microsoft SQL Server e Oracle. |
Altere a solução de acompanhamento | Em vez de ser executado num agente que é executado na base de dados de origem,
o Cloud Data Fusion baseia-se numa solução de monitorização de alterações para
ler as alterações na base de dados de origem. A solução pode ser um componente da base de dados de origem ou uma solução de terceiros licenciada separadamente. No último caso, a solução de monitorização de alterações é executada
no local, colocada com a base de dados de origem ou em
Google Cloud. Cada origem tem de estar associada a uma solução de acompanhamento
de alterações.
|
Base de dados de destino | A localização de destino para replicação e análise. O Cloud Data Fusion suporta a base de dados de destino do BigQuery. |
Autenticação | Os mecanismos de autenticação variam consoante a base de dados de origem ou o software de monitorização de alterações. Quando usa as capacidades incorporadas das bases de dados de origem, como o SQL Server e o MySQL, os inícios de sessão na base de dados são usados para autenticação. Quando usa software de monitorização de alterações, é usado o mecanismo de autenticação do software. |
Conetividade
A tabela seguinte descreve as ligações de rede necessárias para a replicação e os mecanismos de segurança que usam.
De | Para | Opcional | Protocolo | Rede | Segurança de autenticação | Finalidade |
---|---|---|---|---|---|---|
Serviço (projeto de inquilino) | BD de origem | Sim | Depende da origem da replicação. JDBC para ligação direta à base de dados. | Peering + regras de firewall + VPN/Interconnect + router | Início de sessão na BD | Necessário no momento da conceção, não no momento da execução Funções: lista de tabelas, avaliação (passos opcionais; a replicação pode continuar sem eles) |
Serviço (projeto de inquilino) | Cloud Storage | Não | API Cloud | VPC-SC | IAM | Gestão de estado: desvios, estados de replicação |
Dataproc (o seu projeto) | BD de origem | Não | Depende da fonte. JDBC para ligação direta à base de dados. | Peering + regras de firewall + VPN/Interconnect + router | Início de sessão na BD | Necessário no momento da execução para ler as alterações da base de dados de origem e replicá-las para o destino |
Dataproc (o seu projeto) | Cloud Storage | Não | API Cloud | VPC-SC | IAM | Gestão de estado: desvios, estados de replicação |
Dataproc (o seu projeto) | BigQuery | Não | API Cloud | VPC-SC | IAM | Necessário no momento da execução para aplicar alterações da BD de origem à BD de destino |
O que se segue?
- Consulte a referência da API Replication.
- Consulte os mapeamentos de tipos de dados para a replicação.