Teradata에서 BigQuery로 마이그레이션 - 소개

이 문서에서는 Teradata에서 BigQuery로 마이그레이션하는 이유를 설명하고, Teradata와 BigQuery의 기능을 비교하며, BigQuery 마이그레이션을 시작하는 단계의 개요를 제공합니다.

Teradata에서 BigQuery로 마이그레이션해야 하는 이유

Teradata는 상당한 데이터 볼륨을 관리하고 분석하는 데 있어 초기 혁신 기업이었습니다. 하지만 클라우드 컴퓨팅 요구사항이 발전함에 따라 데이터 분석을 위한 최신 솔루션이 필요할 수 있습니다.

이전에 Teradata를 사용한 적이 있다면 다음과 같은 이유로 BigQuery로 마이그레이션하는 것이 좋습니다.

  • 기존 플랫폼 제약 조건 극복
    • Teradata의 기존 아키텍처는 최신 분석의 요구사항, 특히 무제한 동시성과 다양한 워크로드에 대한 일관된 고성능 요구사항을 충족하는 데 어려움을 겪는 경우가 많습니다. BigQuery의 서버리스 아키텍처는 이러한 요구사항을 최소한의 노력으로 처리하도록 설계되었습니다.
  • 클라우드 네이티브 전략 채택
    • 많은 조직이 온프레미스 인프라에서 클라우드로 전략적으로 전환하고 있습니다. 이러한 변화로 인해 운영 오버헤드를 줄이기 위해 Teradata와 같은 기존의 하드웨어 바운드 솔루션에서 완전 관리형의 확장 가능한 주문형 서비스인 BigQuery로 전환해야 합니다.
  • 최신 데이터 소스 및 분석과 통합
    • 주요 엔터프라이즈 데이터가 클라우드 기반 소스에 점점 더 많이 저장되고 있습니다. BigQuery는 Google Cloud 생태계와 기본적으로 통합되어 이러한 소스에 원활하게 액세스할 수 있으며 Teradata의 인프라 제한 없이 고급 분석, 머신러닝, 실시간 데이터 처리를 지원합니다.
  • 비용 및 확장성 최적화
    • Teradata에는 복잡하고 비용이 많이 드는 확장 프로세스가 포함되는 경우가 많습니다. BigQuery는 스토리지와 컴퓨팅을 각각 투명하게 자동 확장하므로 수동으로 재구성할 필요가 없으며 예측 가능하고 종종 더 낮은 총소유비용을 제공합니다.

기능 비교

다음 표에서는 Teradata의 기능과 개념을 BigQuery의 해당 기능과 비교합니다.

Teradata 개념 BigQuery에 상응하는 항목 설명
Teradata (온프레미스, 클라우드, 하이브리드) BigQuery (통합 AI 데이터 플랫폼) BigQuery는 기존 데이터 웨어하우스에 비해 다양한 추가 기능을 제공합니다. BigQuery는 Google Cloud의 완전 관리형 클라우드 네이티브 데이터 웨어하우스입니다. Teradata는 온프레미스, 클라우드, 하이브리드 옵션을 제공합니다. BigQuery는 서버리스이며 모든 클라우드에서 BQ Omni로 사용할 수 있습니다.
Teradata 도구 (Teradata Studio, BTEQ) Google Cloud 콘솔, BigQuery Studio, bq 명령줄 도구 두 서비스 모두 데이터 웨어하우스를 관리하고 상호작용할 수 있는 인터페이스를 제공합니다. BigQuery Studio는 웹 기반이며 Google Cloud 와 통합되어 SQL, Python, Apache Spark를 작성할 수 있습니다.
데이터베이스/스키마 데이터 세트 Teradata에서는 데이터베이스와 스키마를 사용하여 BigQuery 데이터 세트와 유사하게 테이블과 뷰를 구성합니다. 하지만 관리 및 사용 방식은 다를 수 있습니다.
두 플랫폼 모두 표를 사용하여 데이터를 행과 열에 저장합니다.
보기 보기 뷰는 두 플랫폼에서 유사하게 작동하며 쿼리를 기반으로 가상 테이블을 만드는 방법을 제공합니다.
기본 키 기본 키 (GoogleSQL에서 적용되지 않음) BigQuery는 GoogleSQL에서 시행되지 않는 기본 키를 지원합니다. 이러한 기능은 주로 쿼리 최적화를 지원하기 위한 것입니다.
외래 키 외래 키 (GoogleSQL에서 강제되지 않음) BigQuery는 GoogleSQL에서 시행되지 않는 외래 키를 지원합니다. 이러한 기능은 주로 쿼리 최적화를 지원하기 위한 것입니다.
색인 클러스터링, 검색 색인, 벡터 색인 (자동 또는 관리) Teradata에서는 명시적 색인 생성이 허용됩니다.

BigQuery의 클러스터링을 사용하는 것이 좋습니다. 클러스터링은 데이터베이스 색인과 동일하지는 않지만 디스크에 순서대로 데이터를 저장하는 데 도움이 되며, 클러스터링된 열이 술어로 사용될 때 데이터 검색을 최적화하는 데 도움이 됩니다.
BigQuery는 검색 색인벡터 색인을 지원합니다.
파티션 나누기 파티션 나누기 두 플랫폼 모두 대형 테이블의 쿼리 성능 향상을 위한 테이블 파티션 나누기를 지원합니다.

BigQuery는 날짜 및 정수에 의한 파티션 나누기만 지원합니다. 문자열의 경우 클러스터링을 대신 사용하세요.
리소스 할당 (하드웨어 및 라이선스 기반) 예약 (용량 기반), 주문형 가격 책정 (분석 가격 책정) BigQuery는 유연한 가격 책정 모델을 제공합니다. 예약은 자동 확장을 사용하여 일관된 워크로드와 임시 워크로드에 대해 예측 가능한 비용을 제공하는 반면 주문형 가격 책정은 쿼리당 바이트 스캔 요금에 중점을 둡니다.
BTEQ, SQL Assistant, 기타 클라이언트 도구 BigQuery Studio, bq 명령줄 도구, API BigQuery는 웹 기반 편집기, 명령줄 도구, 프로그래매틱 액세스를 위한 API 등 쿼리를 실행하기 위한 다양한 인터페이스를 제공합니다.
쿼리 로깅/기록 쿼리 기록, INFORMATION_SCHEMA.JOBS BigQuery는 실행된 쿼리의 기록을 유지하므로 이전 쿼리를 검토하고, 성능을 분석하고, 문제를 해결할 수 있습니다. INFORMATION_SCHEMA.JOBS는 지난 6개월 동안 제출된 모든 작업의 기록을 유지합니다.
보안 기능 (액세스 제어, 암호화) 보안 기능 (IAM, ACL, 암호화) 두 제품 모두 강력한 보안을 제공합니다. BigQuery는 Google Cloud IAM을 사용하여 세부적인 액세스 제어를 제공합니다.
네트워크 제어 (방화벽, VPN) VPC 서비스 제어, 비공개 Google 액세스 BigQuery는 VPC 서비스 제어와 통합되어 특정 네트워크에서 BigQuery 리소스에 대한 액세스를 제한합니다. 비공개 Google 액세스를 사용하면 공개 IP를 사용하지 않고 BigQuery에 액세스할 수 있습니다.
사용자 및 역할 관리 Identity and Access Management(IAM) BigQuery는 세분화된 액세스 제어에 IAM을 사용합니다. 프로젝트, 데이터 세트, 테이블 수준에서 사용자 및 서비스 계정에 특정 권한을 부여할 수 있습니다.
객체에 대한 권한 및 역할 데이터 세트 및 테이블의 액세스 제어 목록 (ACL) BigQuery를 사용하면 데이터 세트 및 테이블에 ACL을 정의하여 세부적인 수준에서 액세스를 제어할 수 있습니다.
저장 및 전송 중 데이터 암호화 저장 데이터 및 전송 중 데이터 암호화, 고객 관리 암호화 키 (CMEK), 키는 외부 EKM 시스템에서 호스팅할 수 있습니다. BigQuery는 기본적으로 데이터를 암호화합니다. 또한 자체 암호화 키를 관리하여 추가로 제어할 수도 있습니다.
데이터 거버넌스 및 규정 준수 기능 데이터 거버넌스 정책, DLP (데이터 손실 방지) BigQuery는 데이터 보안 및 규정 준수 요구사항을 적용하는 데 도움이 되는 데이터 거버넌스 정책과 DLP를 지원합니다.
Teradata 로드 유틸리티 (예: FastLoad, MultiLoad), bteq BigQuery Data Transfer Service, bq 명령줄 도구, API BigQuery는 다양한 데이터 로드 방법을 제공합니다. Teradata에는 특수 로드 유틸리티가 있습니다. BigQuery는 데이터 수집의 확장성과 속도를 강조합니다.
Teradata 내보내기 유틸리티, bteq bq 명령줄 도구, API, Cloud Storage로 내보내기 BigQuery는 다양한 대상으로의 데이터 내보내기를 제공합니다. Teradata에는 자체 내보내기 도구가 있습니다. BigQuery와 Cloud Storage의 통합은 주요 이점입니다.

BigQuery Storage Read API는 외부 컴퓨팅 기능이 데이터를 대량으로 읽을 수 있도록 지원합니다.
외부 테이블 외부 테이블 둘 다 외부 저장소의 데이터 쿼리를 지원합니다. BigQuery는 Cloud Storage, Spanner, Bigtable, Cloud SQL, AWS S3, Azure Blob Storage, Google Drive와 잘 통합됩니다.
구체화된 뷰 구체화된 뷰 둘 다 쿼리 성능을 위한 구체화된 뷰를 제공합니다.

BigQuery는 항상 현재 데이터를 반환하는 스마트 튜닝 구체화된 뷰를 제공하며, 쿼리가 기본 테이블을 참조하는 경우에도 구체화된 뷰로의 자동 쿼리 재작성을 제공합니다.
사용자 정의 함수(UDF) 사용자 정의 함수 (UDF) (SQL, JavaScript) BigQuery는 SQL 및 JavaScript의 UDF를 지원합니다.
Teradata 스케줄러, 기타 스케줄링 도구 예약된 쿼리, Cloud Composer, Cloud Functions, BigQuery 파이프라인 BigQuery는 Google Cloud 예약 서비스 및 기타 외부 예약 도구와 통합됩니다.
Viewpoint 모니터링, 상태 점검, 작업 탐색, 용량 관리를 위한 BigQuery 관리 BigQuery는 운영 상태와 리소스 사용률을 모니터링하는 여러 창이 포함된 UI 기반의 포괄적인 관리 도구 상자를 제공합니다.
백업 및 복구 데이터 세트 클로닝, 시간 이동 및 장애 방지, 테이블 스냅샷 및 클로닝, 리전 및 멀티 리전 스토리지, 교차 리전 백업 및 복구 BigQuery는 데이터 복구를 위한 스냅샷 및 시간 이동을 제공합니다. 시간 이동은 특정 기간 내의 이전 데이터에 액세스할 수 있는 기능입니다. BigQuery는 데이터 세트 클로닝, 리전 및 멀티 리전 스토리지, 교차 리전 백업 및 복구 옵션도 제공합니다.
지리 공간 함수 지리 공간 함수 두 플랫폼 모두 지리 공간 데이터와 함수를 지원합니다.

시작하기

다음 섹션에서는 Teradata에서 BigQuery로의 마이그레이션 프로세스를 요약합니다.

마이그레이션 평가 실행

Teradata에서 BigQuery로 마이그레이션할 때 BigQuery 마이그레이션 평가 도구를 실행하여 Teradata에서 BigQuery로 데이터 웨어하우스를 이동하는 것이 가능한지, 그리고 이동했을 때 어떤 이점이 있는지 평가하는 것이 좋습니다. 이 도구는 현재 Teradata 환경을 이해하고 성공적인 마이그레이션에 필요한 노력을 추정하는 구조화된 접근 방식을 제공합니다.

BigQuery 마이그레이션 평가 도구를 실행하면 다음 섹션이 포함된 평가 보고서가 생성됩니다.

  • 기존 시스템 보고서: 데이터베이스 수, 스키마 수, 테이블 수, 총 크기(TB)를 포함하여 기존 Teradata 시스템 및 사용량의 스냅샷입니다. 또한 크기별로 스키마를 나열하고 쓰기가 없거나 읽기가 적은 테이블과 같은 잠재적인 준최적 리소스 사용률을 가리킵니다.
  • BigQuery 안정적인 상태 변환 제안: 마이그레이션 후 BigQuery의 시스템을 보여줍니다. 여기에는 BigQuery에서 워크로드를 최적화하고 낭비를 방지하기 위한 추천이 포함되어 있습니다.
  • 마이그레이션 계획: 마이그레이션 작업 자체에 대한 정보를 제공합니다. 예를 들면 기존 시스템에서 BigQuery 안정 상태로 전환입니다. 이 섹션에는 자동으로 변환된 쿼리 수와 각 테이블을 BigQuery로 이동하는 데 예상되는 시간이 포함됩니다.

마이그레이션 평가 결과에 대한 자세한 내용은 Looker Studio 보고서 검토를 참고하세요.

Teradata에서 스키마 및 데이터 마이그레이션

마이그레이션 평가 결과를 검토한 후 마이그레이션을 위해 BigQuery를 준비한 다음 데이터 전송 작업 설정을 통해 Teradata 마이그레이션을 시작할 수 있습니다.

Teradata 마이그레이션 프로세스에 관한 자세한 내용은 Teradata에서 스키마 및 데이터 마이그레이션을 참고하세요.

마이그레이션 검증

Teradata 데이터를 BigQuery로 마이그레이션한 후 데이터 유효성 검사 도구 (DVT)를 실행하여 새로 마이그레이션된 BigQuery 데이터에 대한 데이터 유효성 검사를 실행합니다. DVT는 테이블 수준에서 행 수준까지 다양한 기능을 검증하여 마이그레이션된 데이터가 의도한 대로 작동하는지 확인합니다. DVT에 대한 자세한 내용은 EDW 마이그레이션을 위한 데이터 검증 도구 소개를 참고하세요.

DVT 공개 GitHub 저장소에서 DVT에 액세스할 수 있습니다.

다음 단계