데이터 로드 소개

이 문서에서는 BigQuery에 데이터를 로드하는 방법을 설명합니다. 데이터 통합에 관한 두 가지 일반적인 접근 방식은 데이터를 추출(extract), 로드(load), 변환(transform)하거나(ELT) 추출(extract), 변환(transform), 로드(load)하는(ETL) 것입니다.

ELT 및 ETL 접근 방식에 대한 개요는 데이터 로드, 변환, 내보내기 소개를 참조하세요.

외부 데이터를 로드하거나 액세스하는 방법

BigQuery 페이지의 데이터 추가 대화상자에서 BigQuery에 데이터를 로드하거나 BigQuery에서 데이터에 액세스하는 데 사용할 수 있는 모든 방법을 확인할 수 있습니다. 사용 사례 및 데이터 소스에 따라 다음 옵션 중 하나를 선택합니다.

로드 방법	설명
일괄 로드	이 방법은 다양한 소스에서 대량의 데이터를 일괄 로드하는 데 적합합니다. Cloud Storage 및 기타 지원되는 데이터 소스에서 데이터를 일괄 또는 증분 로드하려면 BigQuery Data Transfer Service를 사용하는 것이 좋습니다. BigQuery Data Transfer Service를 사용하면 BigQuery로의 데이터 로드 파이프라인을 자동화하기 위해 로드 작업을 예약할 수 있습니다. 정기적인 간격(예를 들어, 매일 또는 매월)으로 일회성 또는 일괄 데이터 전송을 예약할 수 있습니다. BigQuery 데이터를 항상 최신 상태로 유지하려면 전송을 모니터링하고 기록하면 됩니다. BigQuery Data Transfer Service에서 지원하는 데이터 소스 목록은 지원되는 데이터 소스를 참고하세요.
스트리밍 로드	이 메서드를 사용하면 메시지 시스템에서 거의 실시간으로 데이터를 로드할 수 있습니다. BigQuery로 데이터를 스트리밍하려면 Pub/Sub에서 BigQuery 구독을 사용하면 됩니다. Pub/Sub은 BigQuery로의 높은 처리량 데이터 로드를 처리할 수 있습니다. 실시간 데이터 스트리밍을 지원하여 데이터가 생성될 때마다 데이터를 로드합니다. 자세한 내용은 BigQuery 구독을 참고하세요.
변경 데이터 캡처(CDC)	이 메서드를 사용하면 데이터베이스에서 BigQuery로 데이터를 거의 실시간으로 복제할 수 있습니다. Datastream은 거의 실시간 복제를 사용하여 데이터베이스에서 BigQuery 데이터로 데이터를 스트리밍할 수 있습니다. Datastream은 CDC 기능을 활용하여 데이터 소스의 행 수준 변경사항을 추적하고 복제합니다. Datastream에서 지원하는 데이터 소스 목록은 소스를 참고하세요.
외부 데이터 소스에 대한 제휴	이 메서드를 사용하면 외부 데이터를 BigQuery에 로드하지 않고도 외부 데이터에 액세스할 수 있습니다. BigQuery는 Cloud Storage 및 제휴 쿼리를 통해 일부 외부 데이터 소스에 대한 액세스를 지원합니다. 이 방법의 장점은 후속 사용을 위해 데이터를 변환하기 전에 데이터를 로드할 필요가 없다는 것입니다. 외부 데이터에 대해 `SELECT` 문을 실행하여 변환을 실행할 수 있습니다.

다음 프로그래매틱 방법을 사용하여 데이터를 로드할 수도 있습니다.

로드 방법 설명

일괄 로드 로드 작업을 만들어 Cloud Storage 또는 로컬 파일에서 데이터를 로드할 수 있습니다.

소스 데이터가 자주 변경되지 않거나 지속적으로 업데이트되는 결과가 필요하지 않은 경우 로드 작업은 비용이 적고 리소스 사용량이 적은 방법으로 BigQuery에 데이터를 로드할 수 있습니다.

로드된 데이터는 Avro, CSV, JSON, ORC 또는 Parquet 형식일 수 있습니다. 로드 작업을 만들려면 LOAD DATA SQL 문을 사용해도 됩니다.

인기 있는 오픈소스 시스템(Spark 또는 다양한 ETL 파트너 등)도 BigQuery로 데이터를 일괄 로드하는 기능을 지원합니다.

스트리밍 로드 커스텀 스트리밍 데이터 소스를 지원해야 하거나 BigQuery로 처리량이 많은 데이터를 스트리밍하기 전에 데이터를 사전 처리해야 하는 경우 Dataflow를 사용하세요.

Dataflow에서 BigQuery로 로드하는 방법에 대한 자세한 내용은 Dataflow에서 BigQuery로 쓰기를 참조하세요.

BigQuery Storage Write API를 직접 사용할 수도 있습니다.

로드 방법	설명
일괄 로드	로드 작업을 만들어 Cloud Storage 또는 로컬 파일에서 데이터를 로드할 수 있습니다. 소스 데이터가 자주 변경되지 않거나 지속적으로 업데이트되는 결과가 필요하지 않은 경우 로드 작업은 비용이 적고 리소스 사용량이 적은 방법으로 BigQuery에 데이터를 로드할 수 있습니다. 로드된 데이터는 Avro, CSV, JSON, ORC 또는 Parquet 형식일 수 있습니다. 로드 작업을 만들려면 `LOAD DATA` SQL 문을 사용해도 됩니다. 인기 있는 오픈소스 시스템(Spark 또는 다양한 ETL 파트너 등)도 BigQuery로 데이터를 일괄 로드하는 기능을 지원합니다.
스트리밍 로드	커스텀 스트리밍 데이터 소스를 지원해야 하거나 BigQuery로 처리량이 많은 데이터를 스트리밍하기 전에 데이터를 사전 처리해야 하는 경우 Dataflow를 사용하세요. Dataflow에서 BigQuery로 로드하는 방법에 대한 자세한 내용은 Dataflow에서 BigQuery로 쓰기를 참조하세요. BigQuery Storage Write API를 직접 사용할 수도 있습니다.

Cloud Data Fusion을 사용하면 ETL 프로세스를 간소화할 수 있습니다. BigQuery는 데이터를 변환하고 BigQuery에 로드하는 서드 파티 파트너와도 호환됩니다.

BigQuery를 사용하면 Cloud Storage 또는 Spanner와 같은 Google Cloud 서비스나 Amazon Web Services(AWS) 또는 Microsoft Azure와 같은 서드 파티 소스에서 BigQuery 외부에 저장된 데이터를 쿼리하는 외부 연결을 만들 수 있습니다. 이러한 외부 연결에는 BigQuery Connection API가 사용됩니다. 자세한 내용은 연결 소개를 참조하세요.

데이터를 획득하는 다른 방법

데이터를 직접 BigQuery에 로드하지 않고도 데이터에 대한 쿼리를 실행할 수 있습니다. 다음 섹션에서는 몇 가지 대안을 설명합니다.

다음 목록에서는 몇 가지 대안을 설명합니다.

공개 데이터에 대한 쿼리 실행

공개 데이터세트는 BigQuery에 저장되고 일반 대중에 공유되는 데이터세트입니다. 자세한 내용은 BigQuery 공개 데이터세트를 참조하세요.

공유 데이터에 대한 쿼리 실행

다른 사용자가 나와 공유한 BigQuery 데이터 세트에 대해 쿼리를 실행하려면 BigQuery Sharing(이전 명칭: Analytics Hub) 소개를 참조하세요. Sharing은 데이터 공유를 지원하는 데이터 교환 플랫폼입니다.

로그 데이터에 대한 쿼리 실행

추가 로드 작업을 만들지 않고 로그에 대한 쿼리를 실행할 수 있습니다.

Cloud Logging을 사용하면 BigQuery 대상으로 로그를 라우팅할 수 있습니다.
로그 애널리틱스를 사용하면 로그 데이터를 분석하는 쿼리를 실행할 수 있습니다.

다음 단계

BigQuery의 Gemini로 데이터를 준비하는 방법을 알아보기
Dataform을 사용한 데이터 변환에 대해 자세히 알아보기
관리 작업 탐색기 및 BigQuery 측정항목에서 로드 작업을 모니터링하는 방법을 자세히 알아보기