Teradata에서 BigQuery로 마이그레이션 - 소개
이 문서에서는 Teradata에서 BigQuery로 마이그레이션하는 이유를 설명하고, Teradata와 BigQuery의 기능을 비교하며, BigQuery 마이그레이션을 시작하는 단계의 개요를 제공합니다.
Teradata에서 BigQuery로 마이그레이션해야 하는 이유
Teradata는 상당한 데이터 볼륨을 관리하고 분석하는 데 있어 초기 혁신 기업이었습니다. 하지만 클라우드 컴퓨팅 요구사항이 발전함에 따라 데이터 분석을 위한 최신 솔루션이 필요할 수 있습니다.
이전에 Teradata를 사용한 적이 있다면 다음과 같은 이유로 BigQuery로 마이그레이션하는 것이 좋습니다.
- 기존 플랫폼 제약 조건 극복
- Teradata의 기존 아키텍처는 최신 분석의 요구사항, 특히 무제한 동시성과 다양한 워크로드에 대한 일관된 고성능 요구사항을 충족하는 데 어려움을 겪는 경우가 많습니다. BigQuery의 서버리스 아키텍처는 이러한 요구사항을 최소한의 노력으로 처리하도록 설계되었습니다.
- 클라우드 네이티브 전략 채택
- 많은 조직이 온프레미스 인프라에서 클라우드로 전략적으로 전환하고 있습니다. 이러한 변화로 인해 운영 오버헤드를 줄이기 위해 Teradata와 같은 기존의 하드웨어 바운드 솔루션에서 완전 관리형의 확장 가능한 주문형 서비스인 BigQuery로 전환해야 합니다.
- 최신 데이터 소스 및 분석과 통합
- 주요 엔터프라이즈 데이터가 클라우드 기반 소스에 점점 더 많이 저장되고 있습니다. BigQuery는 Google Cloud 생태계와 기본적으로 통합되어 이러한 소스에 원활하게 액세스할 수 있으며 Teradata의 인프라 제한 없이 고급 분석, 머신러닝, 실시간 데이터 처리를 지원합니다.
- 비용 및 확장성 최적화
- Teradata에는 복잡하고 비용이 많이 드는 확장 프로세스가 포함되는 경우가 많습니다. BigQuery는 스토리지와 컴퓨팅을 각각 투명하게 자동 확장하므로 수동으로 재구성할 필요가 없으며 예측 가능하고 종종 더 낮은 총소유비용을 제공합니다.
기능 비교
다음 표에서는 Teradata의 기능과 개념을 BigQuery의 해당 기능과 비교합니다.
Teradata 개념 | BigQuery에 상응하는 항목 | 설명 |
---|---|---|
Teradata (온프레미스, 클라우드, 하이브리드) | BigQuery (통합 AI 데이터 플랫폼) BigQuery는 기존 데이터 웨어하우스에 비해 다양한 추가 기능을 제공합니다. | BigQuery는 Google Cloud의 완전 관리형 클라우드 네이티브 데이터 웨어하우스입니다. Teradata는 온프레미스, 클라우드, 하이브리드 옵션을 제공합니다. BigQuery는 서버리스이며 모든 클라우드에서 BQ Omni로 사용할 수 있습니다. |
Teradata 도구 (Teradata Studio, BTEQ) | Google Cloud 콘솔, BigQuery Studio, bq 명령줄 도구 | 두 서비스 모두 데이터 웨어하우스를 관리하고 상호작용할 수 있는 인터페이스를 제공합니다. BigQuery Studio는 웹 기반이며 Google Cloud 와 통합되어 SQL, Python, Apache Spark를 작성할 수 있습니다. |
데이터베이스/스키마 | 데이터 세트 | Teradata에서는 데이터베이스와 스키마를 사용하여 BigQuery 데이터 세트와 유사하게 테이블과 뷰를 구성합니다. 하지만 관리 및 사용 방식은 다를 수 있습니다. |
표 | 표 | 두 플랫폼 모두 표를 사용하여 데이터를 행과 열에 저장합니다. |
보기 | 보기 | 뷰는 두 플랫폼에서 유사하게 작동하며 쿼리를 기반으로 가상 테이블을 만드는 방법을 제공합니다. |
기본 키 | 기본 키 (GoogleSQL에서 적용되지 않음) | BigQuery는 GoogleSQL에서 시행되지 않는 기본 키를 지원합니다. 이러한 기능은 주로 쿼리 최적화를 지원하기 위한 것입니다. |
외래 키 | 외래 키 (GoogleSQL에서 강제되지 않음) | BigQuery는 GoogleSQL에서 시행되지 않는 외래 키를 지원합니다. 이러한 기능은 주로 쿼리 최적화를 지원하기 위한 것입니다. |
색인 | 클러스터링, 검색 색인, 벡터 색인 (자동 또는 관리) | Teradata에서는 명시적 색인 생성이 허용됩니다. BigQuery의 클러스터링을 사용하는 것이 좋습니다. 클러스터링은 데이터베이스 색인과 동일하지는 않지만 디스크에 순서대로 데이터를 저장하는 데 도움이 되며, 클러스터링된 열이 술어로 사용될 때 데이터 검색을 최적화하는 데 도움이 됩니다. BigQuery는 검색 색인과 벡터 색인을 지원합니다. |
파티션 나누기 | 파티션 나누기 | 두 플랫폼 모두 대형 테이블의 쿼리 성능 향상을 위한 테이블 파티션 나누기를 지원합니다. BigQuery는 날짜 및 정수에 의한 파티션 나누기만 지원합니다. 문자열의 경우 클러스터링을 대신 사용하세요. |
리소스 할당 (하드웨어 및 라이선스 기반) | 예약 (용량 기반), 주문형 가격 책정 (분석 가격 책정) | BigQuery는 유연한 가격 책정 모델을 제공합니다. 예약은 자동 확장을 사용하여 일관된 워크로드와 임시 워크로드에 대해 예측 가능한 비용을 제공하는 반면 주문형 가격 책정은 쿼리당 바이트 스캔 요금에 중점을 둡니다. |
BTEQ, SQL Assistant, 기타 클라이언트 도구 | BigQuery Studio, bq 명령줄 도구, API | BigQuery는 웹 기반 편집기, 명령줄 도구, 프로그래매틱 액세스를 위한 API 등 쿼리를 실행하기 위한 다양한 인터페이스를 제공합니다. |
쿼리 로깅/기록 | 쿼리 기록, INFORMATION_SCHEMA.JOBS |
BigQuery는 실행된 쿼리의 기록을 유지하므로 이전 쿼리를 검토하고, 성능을 분석하고, 문제를 해결할 수 있습니다. INFORMATION_SCHEMA.JOBS 는 지난 6개월 동안 제출된 모든 작업의 기록을 유지합니다. |
보안 기능 (액세스 제어, 암호화) | 보안 기능 (IAM, ACL, 암호화) | 두 제품 모두 강력한 보안을 제공합니다. BigQuery는 Google Cloud IAM을 사용하여 세부적인 액세스 제어를 제공합니다. |
네트워크 제어 (방화벽, VPN) | VPC 서비스 제어, 비공개 Google 액세스 | BigQuery는 VPC 서비스 제어와 통합되어 특정 네트워크에서 BigQuery 리소스에 대한 액세스를 제한합니다. 비공개 Google 액세스를 사용하면 공개 IP를 사용하지 않고 BigQuery에 액세스할 수 있습니다. |
사용자 및 역할 관리 | Identity and Access Management(IAM) | BigQuery는 세분화된 액세스 제어에 IAM을 사용합니다. 프로젝트, 데이터 세트, 테이블 수준에서 사용자 및 서비스 계정에 특정 권한을 부여할 수 있습니다. |
객체에 대한 권한 및 역할 | 데이터 세트 및 테이블의 액세스 제어 목록 (ACL) | BigQuery를 사용하면 데이터 세트 및 테이블에 ACL을 정의하여 세부적인 수준에서 액세스를 제어할 수 있습니다. |
저장 및 전송 중 데이터 암호화 | 저장 데이터 및 전송 중 데이터 암호화, 고객 관리 암호화 키 (CMEK), 키는 외부 EKM 시스템에서 호스팅할 수 있습니다. | BigQuery는 기본적으로 데이터를 암호화합니다. 또한 자체 암호화 키를 관리하여 추가로 제어할 수도 있습니다. |
데이터 거버넌스 및 규정 준수 기능 | 데이터 거버넌스 정책, DLP (데이터 손실 방지) | BigQuery는 데이터 보안 및 규정 준수 요구사항을 적용하는 데 도움이 되는 데이터 거버넌스 정책과 DLP를 지원합니다. |
Teradata 로드 유틸리티 (예: FastLoad, MultiLoad), bteq | BigQuery Data Transfer Service, bq 명령줄 도구, API | BigQuery는 다양한 데이터 로드 방법을 제공합니다. Teradata에는 특수 로드 유틸리티가 있습니다. BigQuery는 데이터 수집의 확장성과 속도를 강조합니다. |
Teradata 내보내기 유틸리티, bteq | bq 명령줄 도구, API, Cloud Storage로 내보내기 | BigQuery는 다양한 대상으로의 데이터 내보내기를 제공합니다. Teradata에는 자체 내보내기 도구가 있습니다. BigQuery와 Cloud Storage의 통합은 주요 이점입니다. BigQuery Storage Read API는 외부 컴퓨팅 기능이 데이터를 대량으로 읽을 수 있도록 지원합니다. |
외부 테이블 | 외부 테이블 | 둘 다 외부 저장소의 데이터 쿼리를 지원합니다. BigQuery는 Cloud Storage, Spanner, Bigtable, Cloud SQL, AWS S3, Azure Blob Storage, Google Drive와 잘 통합됩니다. |
구체화된 뷰 | 구체화된 뷰 | 둘 다 쿼리 성능을 위한 구체화된 뷰를 제공합니다. BigQuery는 항상 현재 데이터를 반환하는 스마트 튜닝 구체화된 뷰를 제공하며, 쿼리가 기본 테이블을 참조하는 경우에도 구체화된 뷰로의 자동 쿼리 재작성을 제공합니다. |
사용자 정의 함수(UDF) | 사용자 정의 함수 (UDF) (SQL, JavaScript) | BigQuery는 SQL 및 JavaScript의 UDF를 지원합니다. |
Teradata 스케줄러, 기타 스케줄링 도구 | 예약된 쿼리, Cloud Composer, Cloud Functions, BigQuery 파이프라인 | BigQuery는 Google Cloud 예약 서비스 및 기타 외부 예약 도구와 통합됩니다. |
Viewpoint | 모니터링, 상태 점검, 작업 탐색, 용량 관리를 위한 BigQuery 관리 | BigQuery는 운영 상태와 리소스 사용률을 모니터링하는 여러 창이 포함된 UI 기반의 포괄적인 관리 도구 상자를 제공합니다. |
백업 및 복구 | 데이터 세트 클로닝, 시간 이동 및 장애 방지, 테이블 스냅샷 및 클로닝, 리전 및 멀티 리전 스토리지, 교차 리전 백업 및 복구 | BigQuery는 데이터 복구를 위한 스냅샷 및 시간 이동을 제공합니다. 시간 이동은 특정 기간 내의 이전 데이터에 액세스할 수 있는 기능입니다. BigQuery는 데이터 세트 클로닝, 리전 및 멀티 리전 스토리지, 교차 리전 백업 및 복구 옵션도 제공합니다. |
지리 공간 함수 | 지리 공간 함수 | 두 플랫폼 모두 지리 공간 데이터와 함수를 지원합니다. |
시작하기
다음 섹션에서는 Teradata에서 BigQuery로의 마이그레이션 프로세스를 요약합니다.
마이그레이션 평가 실행
Teradata에서 BigQuery로 마이그레이션할 때 BigQuery 마이그레이션 평가 도구를 실행하여 Teradata에서 BigQuery로 데이터 웨어하우스를 이동하는 것이 가능한지, 그리고 이동했을 때 어떤 이점이 있는지 평가하는 것이 좋습니다. 이 도구는 현재 Teradata 환경을 이해하고 성공적인 마이그레이션에 필요한 노력을 추정하는 구조화된 접근 방식을 제공합니다.
BigQuery 마이그레이션 평가 도구를 실행하면 다음 섹션이 포함된 평가 보고서가 생성됩니다.
- 기존 시스템 보고서: 데이터베이스 수, 스키마 수, 테이블 수, 총 크기(TB)를 포함하여 기존 Teradata 시스템 및 사용량의 스냅샷입니다. 또한 크기별로 스키마를 나열하고 쓰기가 없거나 읽기가 적은 테이블과 같은 잠재적인 준최적 리소스 사용률을 가리킵니다.
- BigQuery 안정적인 상태 변환 제안: 마이그레이션 후 BigQuery의 시스템을 보여줍니다. 여기에는 BigQuery에서 워크로드를 최적화하고 낭비를 방지하기 위한 추천이 포함되어 있습니다.
- 마이그레이션 계획: 마이그레이션 작업 자체에 대한 정보를 제공합니다. 예를 들면 기존 시스템에서 BigQuery 안정 상태로 전환입니다. 이 섹션에는 자동으로 변환된 쿼리 수와 각 테이블을 BigQuery로 이동하는 데 예상되는 시간이 포함됩니다.
마이그레이션 평가 결과에 대한 자세한 내용은 Looker Studio 보고서 검토를 참고하세요.
Teradata에서 스키마 및 데이터 마이그레이션
마이그레이션 평가 결과를 검토한 후 마이그레이션을 위해 BigQuery를 준비한 다음 데이터 전송 작업 설정을 통해 Teradata 마이그레이션을 시작할 수 있습니다.
Teradata 마이그레이션 프로세스에 관한 자세한 내용은 Teradata에서 스키마 및 데이터 마이그레이션을 참고하세요.
마이그레이션 검증
Teradata 데이터를 BigQuery로 마이그레이션한 후 데이터 유효성 검사 도구 (DVT)를 실행하여 새로 마이그레이션된 BigQuery 데이터에 대한 데이터 유효성 검사를 실행합니다. DVT는 테이블 수준에서 행 수준까지 다양한 기능을 검증하여 마이그레이션된 데이터가 의도한 대로 작동하는지 확인합니다. DVT에 대한 자세한 내용은 EDW 마이그레이션을 위한 데이터 검증 도구 소개를 참고하세요.
DVT 공개 GitHub 저장소에서 DVT에 액세스할 수 있습니다.
다음 단계
- Teradata에서 BigQuery로 테스트 마이그레이션해보기