Migração do Teradata para o BigQuery: introdução

Este documento descreve os motivos pelos quais pode migrar do Teradata para o BigQuery, compara as funcionalidades entre o Teradata e o BigQuery, e fornece um resumo dos passos para iniciar a migração para o BigQuery.

Por que motivo deve migrar do Teradata para o BigQuery?

A Teradata foi uma das primeiras empresas a inovar na gestão e análise de volumes de dados substanciais. No entanto, à medida que as suas necessidades de computação na nuvem evoluem, pode precisar de uma solução mais moderna para a sua análise de dados.

Se usou anteriormente o Teradata, considere migrar para o BigQuery pelos seguintes motivos:

  • Ultrapasse as restrições da plataforma antiga
    • A arquitetura convencional da Teradata tem, muitas vezes, dificuldades em satisfazer as exigências da análise moderna, particularmente a necessidade de concorrência ilimitada e um desempenho consistentemente elevado para diversas cargas de trabalho. A arquitetura sem servidor no BigQuery foi concebida para processar estas exigências com o mínimo de esforço.
  • Adote uma estratégia nativa da nuvem
    • Muitas organizações estão a mudar estrategicamente da infraestrutura nas instalações para a nuvem. Esta mudança exige uma mudança das soluções convencionais, associadas ao hardware, como o Teradata, para um serviço totalmente gerido, escalável e a pedido, como o BigQuery, para reduzir os custos operacionais.
  • Integre com origens de dados e estatísticas modernas
    • Os dados empresariais importantes residem cada vez mais em origens baseadas na nuvem. O BigQuery está integrado nativamente com o Google Cloud ecossistema, oferecendo acesso integrado a estas origens e permitindo a análise avançada, a aprendizagem automática e o processamento de dados em tempo real sem as limitações de infraestrutura do Teradata.
  • Otimize os custos e a escalabilidade
    • O Teradata envolve frequentemente processos de escalabilidade complexos e dispendiosos. O BigQuery oferece um dimensionamento transparente e automático do armazenamento e da computação de forma independente, eliminando a necessidade de reconfiguração manual e oferecendo um custo total de propriedade mais previsível e, muitas vezes, mais baixo.

Comparação de funcionalidades

A tabela seguinte compara as funcionalidades e os conceitos no Teradata com as funcionalidades equivalentes no BigQuery:

Conceito do Teradata Equivalente do BigQuery Descrição
Teradata (no local, na nuvem e híbrido) BigQuery (unificado, plataforma de dados de IA). O BigQuery oferece um grande conjunto de capacidades adicionais em relação a um armazém de dados convencional. O BigQuery é um armazém de dados nativo da nuvem totalmente gerido na Google Cloud. A Teradata oferece opções no local, na nuvem e híbridas. O BigQuery é sem servidor e está disponível em todas as nuvens como BQ Omni.
Ferramentas do Teradata (Teradata Studio, BTEQ) Google Cloud consola, BigQuery Studio e ferramenta de linhas de comando bq Ambas oferecem interfaces para gerir e interagir com o armazém de dados. O BigQuery Studio é baseado na Web e está integrado com o Google Cloud e permite escrever SQL, Python e Apache Spark.
Bases de dados/esquemas Conjuntos de dados No Teradata, as bases de dados e os esquemas são usados para organizar tabelas e vistas, de forma semelhante aos conjuntos de dados do BigQuery. No entanto, a forma como são geridos e usados pode diferir.
Tabela Tabela Ambas as plataformas usam tabelas para armazenar dados em linhas e colunas.
Ver Ver As vistas funcionam de forma semelhante em ambas as plataformas, oferecendo uma forma de criar tabelas virtuais com base em consultas.
Chave principal Chave principal (não aplicada no GoogleSQL) O BigQuery suporta chaves primárias não aplicadas no GoogleSQL. Estas destinam-se principalmente a ajudar na otimização de consultas.
Chave externa Chave externa (não aplicada no GoogleSQL) O BigQuery suporta chaves externas não aplicadas no GoogleSQL. Estas destinam-se principalmente a ajudar na otimização de consultas.
Índice Agrupamento, índices de pesquisa, índices vetoriais (automáticos ou geridos) O Teradata permite a criação explícita de índices.

Recomendamos a agrupagem no BigQuery. Embora não seja equivalente aos índices da base de dados, o agrupamento ajuda a armazenar os dados ordenados no disco, o que ajuda a otimizar a obtenção de dados quando as colunas agrupadas são usadas como predicados.
O BigQuery suporta índices de pesquisa e índices vetoriais.
Partição Partição Ambas as plataformas suportam a partição de tabelas para melhorar o desempenho das consultas em tabelas grandes.

O BigQuery só suporta a partição por datas e números inteiros. Para strings, use a agrupagem.
Atribuição de recursos (com base no hardware e no licenciamento) Reservas (com base na capacidade), preços a pedido (preços de análise) O BigQuery oferece modelos de preços flexíveis. As reservas oferecem custos previsíveis para cargas de trabalho consistentes e ad hoc através do dimensionamento automático, enquanto os preços a pedido se focam em cobranças por bytes analisados por consulta.
BTEQ, SQL Assistant e outras ferramentas de cliente BigQuery Studio, ferramenta de linhas de comando bq, APIs O BigQuery oferece várias interfaces para executar consultas, incluindo um editor baseado na Web, uma ferramenta de linha de comandos e APIs para acesso programático.
Registo/histórico de consultas Histórico de consultas, INFORMATION_SCHEMA.JOBS O BigQuery mantém um histórico de consultas executadas, o que lhe permite rever consultas anteriores, analisar o desempenho e resolver problemas. INFORMATION_SCHEMA.JOBS mantém o histórico de todas as tarefas enviadas nos últimos 6 meses.
Funcionalidades de segurança (controlo de acesso, encriptação) Funcionalidades de segurança (IAM, ACLs, encriptação) Ambas oferecem uma segurança robusta. O BigQuery usa o Google Cloud IAM para o controlo de acesso detalhado.
Controlos da rede (firewalls, VPNs) VPC Service Controls, acesso privado à Google O BigQuery integra-se com os VPC Service Controls para restringir o acesso aos seus recursos do BigQuery a partir de redes específicas. O acesso privado à Google permite-lhe aceder ao BigQuery sem usar IPs públicos.
Gestão de utilizadores e funções Gestão de identidade e de acesso (IAM) O BigQuery usa o IAM para um controlo de acesso detalhado. Pode conceder autorizações específicas a utilizadores e contas de serviço ao nível do projeto, do conjunto de dados e da tabela.
Concessões e funções em objetos Listas de controlo de acesso (LCAs) em conjuntos de dados e tabelas O BigQuery permite-lhe definir LCAs em conjuntos de dados e tabelas para controlar o acesso a um nível detalhado.
Encriptação em repouso e em trânsito Encriptação em repouso e em trânsito, chaves de encriptação geridas pelo cliente (CMEK), as chaves podem ser alojadas em sistemas EKM externos. O BigQuery encripta os dados por predefinição. Também pode gerir as suas próprias chaves de encriptação para um controlo adicional.
Funcionalidades de gestão e conformidade de dados Políticas de governação de dados, DLP (prevenção contra a perda de dados) O BigQuery suporta políticas de administração de dados e DLP para ajudar a aplicar a segurança dos dados e os requisitos de conformidade.
Utilitários de carregamento do Teradata (por exemplo, FastLoad, MultiLoad), bteq O Serviço de transferência de dados do BigQuery, a ferramenta de linha de comandos bq e as APIs O BigQuery oferece vários métodos de carregamento de dados. O Teradata tem utilitários de carregamento especializados. O BigQuery enfatiza a escalabilidade e a velocidade para a obtenção de dados.
Utilitários de exportação do Teradata, bteq A ferramenta de linhas de comando bq, as APIs e a opção Exportar para o Cloud Storage O BigQuery oferece a exportação de dados para vários destinos. O Teradata tem as suas próprias ferramentas de exportação. A integração do BigQuery com o Cloud Storage é uma vantagem fundamental.

A API BigQuery Storage Read oferece a qualquer capacidade de computação externa a possibilidade de ler dados em massa.
Tabelas externas Tabelas externas Ambos suportam a consulta de dados no armazenamento externo. O BigQuery integra-se bem com o Cloud Storage, o Spanner, o Bigtable, o Cloud SQL, o AWS S3, o Azure Blob Storage e o Google Drive.
Vistas materializadas Vistas materializadas Ambos oferecem vistas materializadas para o desempenho das consultas.

O BigQuery oferece vistas materializadas de ajuste inteligente que devolvem sempre dados atuais e também oferecem reescrita automática de consultas para vistas materializadas, mesmo quando a consulta se refere à tabela base.
Funções definidas pelo utilizador (FDUs) Funções definidas pelo utilizador (FDUs) (SQL, JavaScript) O BigQuery suporta FUDs em SQL e JavaScript.
Teradata Scheduler, outras ferramentas de agendamento Consultas agendadas, Cloud Composer, Cloud Functions, pipelines do BigQuery O BigQuery integra-se com Google Cloud serviços de agendamento e outras ferramentas de agendamento externas.
Miradouro Administração do BigQuery para monitorização, verificação do estado de funcionamento, exploração de tarefas e gestão da capacidade. O BigQuery oferece uma caixa de ferramentas de administração abrangente baseada na IU que contém vários painéis para monitorizar o estado operacional e a utilização de recursos.
Cópia de segurança e recuperação Clonagem de conjuntos de dados, viagem no tempo e segurança contra falhas, clonagem e instantâneo de tabelas, armazenamento regional e multirregional, cópia de segurança e recuperação entre regiões. O BigQuery oferece instantâneos e viagens no tempo para recuperar dados. A viagem no tempo é uma funcionalidade que lhe permite aceder a dados do histórico dentro de um determinado período. O BigQuery também oferece clonagem de conjuntos de dados, armazenamento regional e multirregional, bem como opções de cópia de segurança e recuperação entre regiões.
Funções geoespaciais Funções geoespaciais Ambas as plataformas suportam dados e funções geoespaciais.

Começar

As secções seguintes resumem o processo de migração do Teradata para o BigQuery:

Execute uma avaliação de migração

Na migração do Teradata para o BigQuery, recomendamos que comece por executar a ferramenta de avaliação de migração do BigQuery para avaliar a viabilidade e as potenciais vantagens de mover o seu armazém de dados do Teradata para o BigQuery. Esta ferramenta oferece uma abordagem estruturada para compreender o seu ambiente Teradata atual e estimar o esforço envolvido numa migração bem-sucedida.

A execução da ferramenta de avaliação da migração do BigQuery gera um relatório de avaliação que contém as seguintes secções:

  • Relatório do sistema existente: um instantâneo do sistema Teradata existente e da utilização, incluindo o número de bases de dados, esquemas, tabelas e tamanho total em TB. Também lista os esquemas por tamanho e indica uma potencial utilização de recursos abaixo do ideal, como tabelas sem gravações ou com poucas leituras.
  • Sugestões de transformação de estado estável do BigQuery: mostra o aspeto do sistema no BigQuery após a migração. Inclui sugestões para otimizar as cargas de trabalho no BigQuery e evitar o desperdício.
  • Plano de migração: fornece informações sobre o esforço de migração em si. Por exemplo, passar do sistema existente para o estado estável do BigQuery. Esta secção inclui a quantidade de consultas que foram traduzidas automaticamente e o tempo esperado para mover cada tabela para o BigQuery.

Para mais informações sobre os resultados de uma avaliação de migração, consulte o artigo Reveja o relatório do Looker Studio.

Migre o esquema e os dados do Teradata

Depois de rever os resultados da avaliação da migração, pode iniciar a migração do Teradata preparando o BigQuery para a migração e, em seguida, configurando uma tarefa de transferência de dados.

Para mais informações sobre o processo de migração do Teradata, consulte o artigo Migre o esquema e os dados do Teradata.

Valide a migração

Depois de migrar os dados do Teradata para o BigQuery, execute a ferramenta de validação de dados (DVT) para fazer uma validação de dados nos dados do BigQuery recém-migrados. A DVT valida várias funções, desde o nível da tabela até ao nível da linha, para verificar se os dados migrados funcionam como previsto. Para mais informações sobre a DVT, consulte o artigo Apresentamos a ferramenta de validação de dados para migrações de EDW.

Pode aceder ao DVT no repositório público do GitHub do DVT.

O que se segue?