데이터 로드, 변환, 내보내기 소개

이 문서에서는 BigQuery의 다음 데이터 통합 기능을 간략하게 설명합니다.

  • 추출, 로드, 변환 (ELT) 접근 방식 또는 추출, 변환, 로드 (ETL) 접근 방식을 사용하여 BigQuery에서 데이터를 로드하고 변환합니다.
  • BigQuery에서 데이터를 내보내 다른 시스템에 통계를 적용합니다. 이를 역방향 ETL이라고도 합니다.

소스에서 데이터를 로드하고 데이터를 변환한 후 결과를 내보내기

데이터 로드 및 변환

일반적으로 데이터를 BigQuery에 로드하기 전후에 변환합니다. 데이터 통합에 사용되는 두 가지 일반적인 접근 방식인 ETL과 ELT는 다음 섹션에 설명되어 있습니다.

ELT 데이터 통합 접근 방식

추출, 로드, 변환 접근 방식을 사용하면 두 가지 개별 단계로 데이터 통합을 실행할 수 있습니다.

  • 데이터 추출 및 로드
  • 데이터 변환

예를 들어 JSON 파일 소스에서 데이터를 추출하여 BigQuery 테이블로 로드할 수 있습니다. 그런 다음 파이프라인을 사용하여 필드를 추출하고 대상 테이블로 변환할 수 있습니다.

ELT 접근 방식을 사용하면 다음과 같은 방식으로 데이터 통합 워크플로를 간소화할 수 있습니다.

  • 다른 데이터 처리 도구를 사용할 필요가 없음
  • 종종 복잡한 데이터 통합 프로세스를 관리 가능한 두 부분으로 분할합니다.
  • BigQuery의 기능을 최대한 활용하여 대규모로 데이터를 준비, 변환, 최적화합니다.

데이터 추출 및 로드

ELT 데이터 통합 접근 방식에서는 데이터 소스에서 데이터를 추출하고 지원되는 외부 데이터를 로드하거나 액세스하는 방법 중 하나를 사용하여 BigQuery로 로드합니다.

데이터 변환

데이터를 BigQuery에 로드한 후 다음 도구를 사용하여 데이터를 준비하고 변환할 수 있습니다.

  • 고급 SQL 데이터 변환 파이프라인을 공동으로 빌드, 테스트, 문서화, 예약하려면 Dataform을 사용하세요.
  • 예약된 일정에 따라 SQL 코드 또는 Python 노트북을 실행하는 소규모 데이터 변환 워크플로의 경우 워크플로 (미리보기)를 사용하세요.
  • 분석을 위해 데이터를 정리하려면 AI 지원 데이터 준비 (미리보기)를 사용하세요.

자세한 내용은 변환 소개를 참고하세요.

ETL 데이터 통합 접근 방식

추출, 변환, 로드 접근 방식에서는 데이터가 BigQuery에 도달하기 전에 데이터를 추출하고 변환합니다. 이 접근 방식은 데이터 변환을 위한 기존 프로세스가 있거나 BigQuery의 리소스 사용량을 줄이려는 경우에 유용합니다.

Cloud Data Fusion을 사용하면 ETL 프로세스를 간소화할 수 있습니다. BigQuery는 데이터를 변환하고 BigQuery에 로드하는 서드 파티 파트너와도 호환됩니다.

데이터 내보내기

BigQuery에서 데이터를 처리하고 분석한 후 결과를 내보내 다른 시스템에 적용할 수 있습니다. BigQuery는 다음과 같은 내보내기를 지원합니다.

  • 쿼리 결과를 로컬 파일, Google Drive, Google Sheets로 내보내기
  • Cloud Storage, Bigtable, Spanner, Pub/Sub로 테이블 또는 쿼리 결과 내보내기

이 프로세스를 역 ETL이라고 합니다.

자세한 내용은 데이터 내보내기 소개를 참고하세요.

다음 단계