Migração do Teradata para o BigQuery: introdução
Este documento descreve os motivos pelos quais pode migrar do Teradata para o BigQuery, compara as funcionalidades entre o Teradata e o BigQuery, e fornece um resumo dos passos para iniciar a migração para o BigQuery.
Por que motivo deve migrar do Teradata para o BigQuery?
A Teradata foi uma das primeiras empresas a inovar na gestão e análise de volumes de dados substanciais. No entanto, à medida que as suas necessidades de computação na nuvem evoluem, pode precisar de uma solução mais moderna para a sua análise de dados.
Se usou anteriormente o Teradata, considere migrar para o BigQuery pelos seguintes motivos:
- Ultrapasse as restrições da plataforma antiga
- A arquitetura convencional da Teradata tem, muitas vezes, dificuldades em satisfazer as exigências da análise moderna, particularmente a necessidade de concorrência ilimitada e um desempenho consistentemente elevado para diversas cargas de trabalho. A arquitetura sem servidor no BigQuery foi concebida para processar estas exigências com o mínimo de esforço.
- Adote uma estratégia nativa da nuvem
- Muitas organizações estão a mudar estrategicamente da infraestrutura nas instalações para a nuvem. Esta mudança exige uma mudança das soluções convencionais, associadas ao hardware, como o Teradata, para um serviço totalmente gerido, escalável e a pedido, como o BigQuery, para reduzir os custos operacionais.
- Integre com origens de dados e estatísticas modernas
- Os dados empresariais importantes residem cada vez mais em origens baseadas na nuvem. O BigQuery está integrado nativamente com o Google Cloud ecossistema, oferecendo acesso integrado a estas origens e permitindo a análise avançada, a aprendizagem automática e o processamento de dados em tempo real sem as limitações de infraestrutura do Teradata.
- Otimize os custos e a escalabilidade
- O Teradata envolve frequentemente processos de escalabilidade complexos e dispendiosos. O BigQuery oferece um dimensionamento transparente e automático do armazenamento e da computação de forma independente, eliminando a necessidade de reconfiguração manual e oferecendo um custo total de propriedade mais previsível e, muitas vezes, mais baixo.
Comparação de funcionalidades
A tabela seguinte compara as funcionalidades e os conceitos no Teradata com as funcionalidades equivalentes no BigQuery:
Conceito do Teradata | Equivalente do BigQuery | Descrição |
---|---|---|
Teradata (no local, na nuvem e híbrido) | BigQuery (unificado, plataforma de dados de IA). O BigQuery oferece um grande conjunto de capacidades adicionais em relação a um armazém de dados convencional. | O BigQuery é um armazém de dados nativo da nuvem totalmente gerido na Google Cloud. A Teradata oferece opções no local, na nuvem e híbridas. O BigQuery é sem servidor e está disponível em todas as nuvens como BQ Omni. |
Ferramentas do Teradata (Teradata Studio, BTEQ) | Google Cloud consola, BigQuery Studio e ferramenta de linhas de comando bq | Ambas oferecem interfaces para gerir e interagir com o armazém de dados. O BigQuery Studio é baseado na Web e está integrado com o Google Cloud e permite escrever SQL, Python e Apache Spark. |
Bases de dados/esquemas | Conjuntos de dados | No Teradata, as bases de dados e os esquemas são usados para organizar tabelas e vistas, de forma semelhante aos conjuntos de dados do BigQuery. No entanto, a forma como são geridos e usados pode diferir. |
Tabela | Tabela | Ambas as plataformas usam tabelas para armazenar dados em linhas e colunas. |
Ver | Ver | As vistas funcionam de forma semelhante em ambas as plataformas, oferecendo uma forma de criar tabelas virtuais com base em consultas. |
Chave principal | Chave principal (não aplicada no GoogleSQL) | O BigQuery suporta chaves primárias não aplicadas no GoogleSQL. Estas destinam-se principalmente a ajudar na otimização de consultas. |
Chave externa | Chave externa (não aplicada no GoogleSQL) | O BigQuery suporta chaves externas não aplicadas no GoogleSQL. Estas destinam-se principalmente a ajudar na otimização de consultas. |
Índice | Agrupamento, índices de pesquisa, índices vetoriais (automáticos ou geridos) | O Teradata permite a criação explícita de índices. Recomendamos a agrupagem no BigQuery. Embora não seja equivalente aos índices da base de dados, o agrupamento ajuda a armazenar os dados ordenados no disco, o que ajuda a otimizar a obtenção de dados quando as colunas agrupadas são usadas como predicados. O BigQuery suporta índices de pesquisa e índices vetoriais. |
Partição | Partição | Ambas as plataformas suportam a partição de tabelas para melhorar o desempenho das consultas em tabelas grandes. O BigQuery só suporta a partição por datas e números inteiros. Para strings, use a agrupagem. |
Atribuição de recursos (com base no hardware e no licenciamento) | Reservas (com base na capacidade), preços a pedido (preços de análise) | O BigQuery oferece modelos de preços flexíveis. As reservas oferecem custos previsíveis para cargas de trabalho consistentes e ad hoc através do dimensionamento automático, enquanto os preços a pedido se focam em cobranças por bytes analisados por consulta. |
BTEQ, SQL Assistant e outras ferramentas de cliente | BigQuery Studio, ferramenta de linhas de comando bq, APIs | O BigQuery oferece várias interfaces para executar consultas, incluindo um editor baseado na Web, uma ferramenta de linha de comandos e APIs para acesso programático. |
Registo/histórico de consultas | Histórico de consultas, INFORMATION_SCHEMA.JOBS |
O BigQuery mantém um histórico de consultas executadas, o que lhe permite rever consultas anteriores, analisar o desempenho e resolver problemas. INFORMATION_SCHEMA.JOBS mantém o histórico de todas as tarefas enviadas nos últimos 6 meses. |
Funcionalidades de segurança (controlo de acesso, encriptação) | Funcionalidades de segurança (IAM, ACLs, encriptação) | Ambas oferecem uma segurança robusta. O BigQuery usa o Google Cloud IAM para o controlo de acesso detalhado. |
Controlos da rede (firewalls, VPNs) | VPC Service Controls, acesso privado à Google | O BigQuery integra-se com os VPC Service Controls para restringir o acesso aos seus recursos do BigQuery a partir de redes específicas. O acesso privado à Google permite-lhe aceder ao BigQuery sem usar IPs públicos. |
Gestão de utilizadores e funções | Gestão de identidade e de acesso (IAM) | O BigQuery usa o IAM para um controlo de acesso detalhado. Pode conceder autorizações específicas a utilizadores e contas de serviço ao nível do projeto, do conjunto de dados e da tabela. |
Concessões e funções em objetos | Listas de controlo de acesso (LCAs) em conjuntos de dados e tabelas | O BigQuery permite-lhe definir LCAs em conjuntos de dados e tabelas para controlar o acesso a um nível detalhado. |
Encriptação em repouso e em trânsito | Encriptação em repouso e em trânsito, chaves de encriptação geridas pelo cliente (CMEK), as chaves podem ser alojadas em sistemas EKM externos. | O BigQuery encripta os dados por predefinição. Também pode gerir as suas próprias chaves de encriptação para um controlo adicional. |
Funcionalidades de gestão e conformidade de dados | Políticas de governação de dados, DLP (prevenção contra a perda de dados) | O BigQuery suporta políticas de administração de dados e DLP para ajudar a aplicar a segurança dos dados e os requisitos de conformidade. |
Utilitários de carregamento do Teradata (por exemplo, FastLoad, MultiLoad), bteq | O Serviço de transferência de dados do BigQuery, a ferramenta de linha de comandos bq e as APIs | O BigQuery oferece vários métodos de carregamento de dados. O Teradata tem utilitários de carregamento especializados. O BigQuery enfatiza a escalabilidade e a velocidade para a obtenção de dados. |
Utilitários de exportação do Teradata, bteq | A ferramenta de linhas de comando bq, as APIs e a opção Exportar para o Cloud Storage | O BigQuery oferece a exportação de dados para vários destinos. O Teradata tem as suas próprias ferramentas de exportação. A integração do BigQuery com o Cloud Storage é uma vantagem fundamental. A API BigQuery Storage Read oferece a qualquer capacidade de computação externa a possibilidade de ler dados em massa. |
Tabelas externas | Tabelas externas | Ambos suportam a consulta de dados no armazenamento externo. O BigQuery integra-se bem com o Cloud Storage, o Spanner, o Bigtable, o Cloud SQL, o AWS S3, o Azure Blob Storage e o Google Drive. |
Vistas materializadas | Vistas materializadas | Ambos oferecem vistas materializadas para o desempenho das consultas. O BigQuery oferece vistas materializadas de ajuste inteligente que devolvem sempre dados atuais e também oferecem reescrita automática de consultas para vistas materializadas, mesmo quando a consulta se refere à tabela base. |
Funções definidas pelo utilizador (FDUs) | Funções definidas pelo utilizador (FDUs) (SQL, JavaScript) | O BigQuery suporta FUDs em SQL e JavaScript. |
Teradata Scheduler, outras ferramentas de agendamento | Consultas agendadas, Cloud Composer, Cloud Functions, pipelines do BigQuery | O BigQuery integra-se com Google Cloud serviços de agendamento e outras ferramentas de agendamento externas. |
Miradouro | Administração do BigQuery para monitorização, verificação do estado de funcionamento, exploração de tarefas e gestão da capacidade. | O BigQuery oferece uma caixa de ferramentas de administração abrangente baseada na IU que contém vários painéis para monitorizar o estado operacional e a utilização de recursos. |
Cópia de segurança e recuperação | Clonagem de conjuntos de dados, viagem no tempo e segurança contra falhas, clonagem e instantâneo de tabelas, armazenamento regional e multirregional, cópia de segurança e recuperação entre regiões. | O BigQuery oferece instantâneos e viagens no tempo para recuperar dados. A viagem no tempo é uma funcionalidade que lhe permite aceder a dados do histórico dentro de um determinado período. O BigQuery também oferece clonagem de conjuntos de dados, armazenamento regional e multirregional, bem como opções de cópia de segurança e recuperação entre regiões. |
Funções geoespaciais | Funções geoespaciais | Ambas as plataformas suportam dados e funções geoespaciais. |
Começar
As secções seguintes resumem o processo de migração do Teradata para o BigQuery:
Execute uma avaliação de migração
Na migração do Teradata para o BigQuery, recomendamos que comece por executar a ferramenta de avaliação de migração do BigQuery para avaliar a viabilidade e as potenciais vantagens de mover o seu armazém de dados do Teradata para o BigQuery. Esta ferramenta oferece uma abordagem estruturada para compreender o seu ambiente Teradata atual e estimar o esforço envolvido numa migração bem-sucedida.
A execução da ferramenta de avaliação da migração do BigQuery gera um relatório de avaliação que contém as seguintes secções:
- Relatório do sistema existente: um instantâneo do sistema Teradata existente e da utilização, incluindo o número de bases de dados, esquemas, tabelas e tamanho total em TB. Também lista os esquemas por tamanho e indica uma potencial utilização de recursos abaixo do ideal, como tabelas sem gravações ou com poucas leituras.
- Sugestões de transformação de estado estável do BigQuery: mostra o aspeto do sistema no BigQuery após a migração. Inclui sugestões para otimizar as cargas de trabalho no BigQuery e evitar o desperdício.
- Plano de migração: fornece informações sobre o esforço de migração em si. Por exemplo, passar do sistema existente para o estado estável do BigQuery. Esta secção inclui a quantidade de consultas que foram traduzidas automaticamente e o tempo esperado para mover cada tabela para o BigQuery.
Para mais informações sobre os resultados de uma avaliação de migração, consulte o artigo Reveja o relatório do Looker Studio.
Migre o esquema e os dados do Teradata
Depois de rever os resultados da avaliação da migração, pode iniciar a migração do Teradata preparando o BigQuery para a migração e, em seguida, configurando uma tarefa de transferência de dados.
Para mais informações sobre o processo de migração do Teradata, consulte o artigo Migre o esquema e os dados do Teradata.
Valide a migração
Depois de migrar os dados do Teradata para o BigQuery, execute a ferramenta de validação de dados (DVT) para fazer uma validação de dados nos dados do BigQuery recém-migrados. A DVT valida várias funções, desde o nível da tabela até ao nível da linha, para verificar se os dados migrados funcionam como previsto. Para mais informações sobre a DVT, consulte o artigo Apresentamos a ferramenta de validação de dados para migrações de EDW.
Pode aceder ao DVT no repositório público do GitHub do DVT.
O que se segue?
- Experimente uma migração de teste do Teradata para o BigQuery.