Cloud Dataflow SQL 소개

Cloud Dataflow SQL에서는 BigQuery 웹 UI에서 SQL 쿼리를 사용하여 Cloud Dataflow 작업을 개발하고 실행할 수 있습니다. Cloud Dataflow SQL은 Apache Beam SQL과 통합되며 ZetaSQL의 변형 쿼리 구문을 지원합니다. ZetaSQL의 스트리밍 확장 프로그램을 사용하여 스트리밍 데이터 동시 처리 파이프라인을 정의할 수 있습니다.

  • 기존 SQL 기술을 사용하여 BigQuery 웹 UI에서 스트리밍 파이프라인을 개발하고 실행합니다. SDK 개발 환경을 설정할 필요가 없으며, 자바 또는 Python 프로그래밍 방법을 몰라도 됩니다.
  • 스트림(예: Cloud Pub/Sub)과 스냅샷 데이터세트(예: BigQuery 테이블)를 조인합니다.
  • 스키마를 테이블, 파일, Cloud Pub/Sub 주제와 같은 객체와 연결하여 SQL로 스트림 또는 정적 데이터세트를 쿼리합니다.
  • 분석과 대시보드에 사용할 수 있도록 결과를 BigQuery 테이블에 씁니다.

지원되는 리전

Cloud Dataflow SQL은 Cloud Dataflow 리전 엔드포인트가 있는 리전에서 작업을 실행할 수 있습니다.

제한사항

최신 버전의 Cloud Dataflow SQL에는 다음 제한사항이 있습니다.

  • Cloud Dataflow SQL은 BigQuery 표준 SQL의 일부만 지원합니다. 자세한 내용은 Cloud Dataflow SQL 참조를 참조하세요.
  • Cloud Dataflow SQL에서는 워터마크가 기간 완료를 알릴 때 기간 그룹마다 단일 집계 출력이 생성됩니다. 나중에 도착하는 데이터는 무시됩니다.
  • Cloud Dataflow SQL의 타임스탬프 정밀도 단위는 밀리초입니다.
    • 따라서 BigQuery TIMESTAMP 필드의 타임스탬프 최대 정밀도 단위 역시 밀리초여야 합니다. TIMESTAMP 필드의 정밀도가 밀리초 이하이면 Cloud Dataflow SQL에서 IllegalArgumentException이 발생합니다.
    • Cloud Pub/Sub 게시 타임스탬프는 밀리초 단위로 잘립니다.
  • 소스: 읽기가 Cloud Pub/Sub 주제 및 BigQuery 테이블로 제한됩니다.
  • Cloud Dataflow SQL에 사용할 Cloud Pub/Sub 주제의 메시지는 JSON 형식으로 직렬화되어야 합니다. Avro와 같은 다른 형식도 추가로 지원될 예정입니다.
  • 대상: 쓰기가 BigQuery 테이블로 제한됩니다.
  • Cloud Dataflow 리전 엔드포인트가 있는 리전에서만 작업을 실행할 수 있습니다.
  • Cloud Dataflow는 리소스 자동 확장을 사용하며 작업의 실행 모드(배치 또는 스트리밍)를 선택합니다. 이 동작을 제어할 수 있는 매개변수는 없습니다.
  • Cloud Dataflow 작업을 만드는 데 몇 분이 걸릴 수 있습니다. 파이프라인 실행 중에 오류가 발생하면 작업이 실패합니다.
  • BigQuery는 BigQuery 테이블로 스트리밍되는 데이터를 버퍼링합니다. 따라서 미리보기 창에 데이터를 표시하는 데 시간이 걸릴 수 있습니다. 하지만 일반 SQL 명령어를 사용하여 테이블을 쿼리할 수 있습니다.
  • Drain 명령어로 파이프라인 중지는 지원되지 않습니다. 파이프라인을 중지하려면 Cancel 명령어를 사용합니다.
  • 실행 중인 파이프라인 업데이트는 지원되지 않습니다.
  • 실행 중인 작업(스트리밍 또는 배치)과 성공적으로 완료된 배치 작업의 이전 SQL 쿼리만 수정할 수 있습니다.

할당량

Cloud Dataflow 할당량 및 한도에 대한 자세한 내용은 할당량 및 한도를 참조하세요.

가격 책정

Cloud Dataflow SQL은 표준 Cloud Dataflow 가격 책정을 사용하며 별도의 가격 책정을 사용하지 않습니다. SQL 문을 기반으로 만든 Cloud Dataflow 작업에서 사용하는 리소스에 요금이 청구됩니다. 이러한 리소스 요금은 vCPU, 메모리, Persistent Disk에 청구되는 표준 Cloud Dataflow 요금입니다. 또한 작업에서 Cloud Pub/Sub 및 BigQuery와 같은 추가 리소스를 사용할 수 있으며, 각각의 자체 가격 책정에 따라 요금이 청구됩니다.

Cloud Dataflow 가격에 대한 자세한 내용은 Cloud Dataflow 가격 책정 페이지를 참조하세요.

다음 단계

이 페이지가 도움이 되었나요? 평가를 부탁드립니다.

다음에 대한 의견 보내기...

도움이 필요하시나요? 지원 페이지를 방문하세요.