워크로드 조정
BigQuery 태스크는 일반적으로 더 큰 워크로드의 일부이며 외부 태스크가 트리거된 후 BigQuery 작업에 의해 트리거됩니다. 워크로드 조정을 통해 데이터 관리자, 분석가, 개발자는 이러한 작업 체인을 구성하고 최적화하여 데이터 리소스 및 프로세스 전반에서 원활한 연결을 만들 수 있습니다. 조정 방법과 도구는 이러한 복잡한 데이터 워크로드를 설계, 빌드, 구현, 모니터링하는 데 도움이 됩니다.
조정 방법 선택
조정 방법을 선택하려면 워크로드가 이벤트 기반인지, 시간 기반인지 또는 둘 다인지 확인해야 합니다. 이벤트는 데이터베이스의 데이터 변경 또는 스토리지 시스템에 파일 추가와 같은 상태 변경으로 정의됩니다. 이벤트 기반 조정에서 웹사이트의 작업은 데이터 활동을 트리거하거나 특정 버킷에 객체가 랜딩한 즉시 처리해야 할 수 있습니다. 시간 기반 조정에서는 하루에 한 번 새 데이터를 로드해야 하거나 시간별 보고서를 생성하기에 충분히 자주 로드해야 할 수 있습니다. 객체를 실시간으로 데이터 레이크에 로드해야 하는 시나리오에서 이벤트 기반 및 시간 기반 조정을 사용할 수 있지만 데이터 레이크에 대한 활동 보고서는 일일 단위로만 생성됩니다.
조정 도구 선택
조정 도구는 여러 Google Cloud 또는 타사 서비스를 BigQuery 작업과 결합하거나 여러 BigQuery 작업을 동시에 실행하는 등 복잡한 데이터 워크로드를 관리하는 데 도움이 되는 태스크를 지원합니다. 올바른 데이터를 사용하여 올바른 순서로 태스크를 실행하기 위해 각 워크로드마다 종속 항목 및 매개변수 관리를 위한 고유한 요구사항이 있습니다. Google Cloud는 조정 방법 및 워크로드 요구사항에 따라 여러 조정 옵션을 제공합니다.
대부분의 사용 사례에는 Dataform, Workflows, Cloud Composer 또는 Vertex AI Pipelines를 사용하는 것이 좋습니다. 다음 차트를 참고하여 나란히 비교해 보세요.
Dataform | Workflows | Cloud Composer | Vertex AI Pipelines | |
---|---|---|---|---|
포커스 | 데이터 변환 | 마이크로서비스 | ETL 또는 ELT | 머신러닝 |
복잡성 | * | ** | *** | ** |
사용자 프로필 | 데이터 분석가 또는 관리자 | 데이터 설계자 | 데이터 엔지니어 | 데이터 분석가 |
코드 유형 | JavaScript 및 SQL | YAML 또는 JSON | Python | Python |
서버리스일까요? | 예 | 예 | 완전 관리형 | 예 |
적합하지 않음 | 외부 서비스 체인 | 데이터 변환 및 처리 | 지연 시간이 짧은 파이프라인 또는 이벤트 기반 파이프라인 | 인프라 작업 |
다음 섹션에서는 이러한 조정 도구 및 기타 여러 도구에 대해 자세히 설명합니다.
예약된 쿼리
가장 간단한 형태의 워크로드 조정은 BigQuery에서 직접 반복 쿼리를 예약하는 것입니다. 이는 가장 덜 복잡한 조정 방법이지만 외부 종속 항목이 없는 간단한 쿼리 체인에만 사용하는 것이 좋습니다. 이 방식으로 예약된 쿼리는 GoogleSQL로 작성되어야 하며 데이터 정의 언어(DDL) 및 DML 문을 포함할 수 있습니다.
조정 방법: 시간 기준
Dataform
Dataform은 BigQuery에서 복잡한 데이터 변환 작업을 조정하는 독자적인 SQL 기반의 무료 변환 프레임워크입니다. 원시 데이터가 BigQuery에 로드될 때 Dataform을 사용하면 구성 및 테스트를 거친 데이터 세트 및 테이블의 버전 제어 컬렉션을 만들 수 있습니다. BigQuery에서 Dataform을 사용하는 방법에 관한 자세한 내용은 SQL 워크플로 만들기 및 실행을 참조하세요.
조정 방법: 이벤트 기반
워크플로
Workflows는 지연 시간이 매우 짧은 HTTP 기반 서비스를 조정하는 서버리스 도구입니다. 마이크로서비스를 하나로 연결하거나, 인프라 작업을 자동화하거나, 외부 시스템과 통합하거나, Google Cloud에서 일련의 작업을 만드는 데 가장 적합합니다. BigQuery에서 Workflows를 사용하는 방법에 대한 자세한 내용은 여러 BigQuery 작업 동시 실행을 참조하세요.
조정 방법: 이벤트 기반 및 시간 기반
Cloud Composer
Cloud Composer는 Apache Airflow를 기반으로 하는 완전 관리형 도구입니다. 추출, 변환, 로드(ETL) 또는 추출, 로드, 변환(ELT) 워크로드는 여러 연산자 유형과 패턴뿐만 아니라 다른 Google Cloud 제품 및 외부 대상에 걸쳐 작업을 실행할 수 있습니다. BigQuery와 함께 Cloud Composer를 사용하는 방법에 관한 자세한 내용은 Google Cloud에서 데이터 분석 DAG 실행을 참조하세요.
조정 방법: 시간 기준
Vertex AI Pipelines
Vertex AI Pipelines는 머신러닝 워크로드를 조정하기 위해 특별히 설계된 Kubeflow Pipelines 기반의 서버리스 도구입니다. 학습 데이터부터 코드까지 모델 개발 및 배포의 모든 태스크를 자동화하고 연결하여 모델의 작동 방식을 전체적으로 확인할 수 있습니다. BigQuery에서 Vertex AI Pipelines를 사용하는 방법에 대한 자세한 내용은 예측용 BigQuery 머신러닝 모델 내보내기 및 배포를 참조하세요.
조정 방법: 이벤트 기반
Apigee Integration
Apigee Integration은 커넥터와 데이터 변환 도구가 포함된 Apigee 플랫폼의 확장 프로그램입니다. Salesforce와 같은 외부 엔터프라이즈 애플리케이션과 통합하는 데 가장 적합합니다. BigQuery에서 Apigee Integration을 사용하는 방법에 대한 자세한 내용은 Apigee Integration 및 Salesforce 트리거 시작하기를 참조하세요.
조정 방법: 이벤트 기반 및 시간 기반
Cloud Data Fusion
Cloud Data Fusion은 코드 작성이 필요 없는 ELT/ETL 파이프라인과 150개 이상의 사전 구성된 커넥터 및 변환을 제공하는 데이터 통합 도구입니다. BigQuery에서 Cloud Data Fusion을 사용하는 방법에 관한 자세한 내용은 MySQL에서 BigQuery로 데이터 복제를 참조하세요.
조정 방법: 이벤트 기반 및 시간 기반
Cloud Scheduler
Cloud Scheduler는 일괄 스트리밍 또는 정의된 시간 간격에 따라 발생하는 인프라 작업과 같은 작업을 위한 완전 관리형 스케줄러입니다. BigQuery에서 Cloud Scheduler를 사용하는 방법에 대한 자세한 내용은 Cloud Scheduler에서 워크플로 예약을 참조하세요.
조정 방법: 시간 기준
Cloud Tasks
Cloud Tasks는 기본 워크로드 외부에서 독립적으로 실행할 수 있는 작업의 비동기 태스크 배포를 위한 완전 관리형 서비스입니다. 느린 백그라운드 작업을 위임하거나 API 호출 비율을 관리하는 데 가장 적합합니다. BigQuery에서 Cloud Tasks를 사용하는 방법에 관한 자세한 내용은 Cloud Tasks 큐에 태스크 추가를 참조하세요.
조정 방법: 이벤트 기반
타사 도구
CData, SnapLogic과 같이 널리 사용되는 다양한 서드 파티 도구를 사용하여 BigQuery에 연결할 수도 있습니다. BigQuery Ready 프로그램은 검증된 파트너 솔루션의 전체 목록을 제공합니다.
메시징 도구
많은 데이터 워크로드에는 특정 이벤트가 발생할 때만 활성화되어야 하는 분리된 마이크로서비스 간에 추가 메시징 연결이 필요합니다. Google Cloud는 BigQuery와 통합하도록 설계된 두 가지 도구를 제공합니다.
Pub/Sub
Pub/Sub는 데이터 통합 파이프라인을 위한 비동기 메시지 도구입니다. 서버 이벤트 및 사용자 상호작용과 같은 데이터를 수집하고 배포하도록 설계되었습니다. IoT 기기에서 병렬 처리 및 데이터 스트리밍에도 사용할 수 있습니다. BigQuery에서 Pub/Sub를 사용하는 방법에 대해 자세히 알아보려면 Pub/Sub에서 BigQuery로 스트리밍을 참조하세요.
Eventarc
Eventarc는 데이터 파이프라인 전반에서 상태 변경 흐름을 관리할 수 있는 이벤트 기반 도구입니다. 이 도구에는 자동 오류 해결, 리소스 라벨 지정, 이미지 보정 등 다양한 사용 사례가 있습니다. BigQuery에서 Eventarc를 사용하는 방법에 관한 자세한 내용은 Eventarc를 사용하여 BigQuery 처리 파이프라인 빌드를 참조하세요.
다음 단계
- BigQuery에서 직접 반복 쿼리를 예약하는 방법 알아보기
- Dataform 시작하기
- Workflows 시작하기
- Cloud Composer 시작하기
- Vertex AI 파이프라인 시작하기
- Apigee Integration 시작하기
- Cloud Data Fusion 시작하기
- Cloud Scheduler 시작하기
- Pub/Sub 시작하기
- Eventarc 시작하기