이 페이지에서는 Dataflow SQL용 gcloud
명령줄 도구를 사용하여 Dataflow 작업을 만드는 방법을 보여줍니다. Dataflow 작업은 Dataflow SQL 쿼리의 결과를 BigQuery 데이터세트의 테이블에 작성합니다.
시작하기 전에
-
Google 계정으로
로그인합니다.
아직 계정이 없으면 새 계정을 등록하세요.
-
Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.
-
Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.
- Dataflow, Compute Engine, Logging, Cloud Storage, Cloud Storage JSON, BigQuery, Pub/Sub, Resource Manager, Data Catalog API를 사용 설정합니다.
- Cloud SDK 설치 및 초기화
BigQuery 데이터세트 만들기
이름이 taxirides
인 BigQuery 데이터 세트를 만듭니다.
bq mk taxirides
Pub/Sub 주제 쿼리
10초마다 태운 승객 수를 알려면 Pub/Sub 주제 taxirides-realtime
을 쿼리합니다.
gcloud beta dataflow sql query \
--job-name=dataflow-sql-quickstart \
--region=us-central1 \
--bigquery-dataset=taxirides \
--bigquery-table=passengers_per_minute \
'SELECT
TUMBLE_START("INTERVAL 10 SECOND") as period_start,
SUM(passenger_count) AS pickup_count,
FROM pubsub.topic.`pubsub-public-data`.`taxirides-realtime`
WHERE
ride_status = "pickup"
GROUP BY
TUMBLE(event_timestamp, "INTERVAL 10 SECOND")'
쿼리 결과 보기
Dataflow 작업이 실행 중인지 확인합니다.
Dataflow 모니터링 인터페이스로 이동합니다.
작업 목록에서 dataflow-sql-quickstart를 클릭합니다.
작업 정보 패널에서 작업 상태 필드가 실행 중으로 설정되어 있는지 확인합니다.
작업을 시작하는 데 몇 분 정도 걸릴 수 있습니다. 작업이 시작될 때까지 작업 상태가 큐에 추가됨으로 설정됩니다.
작업 그래프 탭에서 모든 단계가 적어도 1초 이상 실행 중인지 확인합니다.
작업이 시작된 후 단계의 실행이 시작되기까지 몇 분 정도 걸릴 수 있습니다.
passengers_per_minute
테이블에서 가장 붐비는 간격을 반환합니다.bq query \ 'SELECT * FROM taxirides.passengers_per_minute ORDER BY pickup_count DESC LIMIT 5'
삭제
이 빠른 시작에서 사용한 리소스의 비용이 Google Cloud 계정에 청구되지 않도록 하려면 다음 단계를 따르세요.
taxirides
데이터세트를 삭제합니다.bq rm
명령어를 실행합니다.bq rm taxirides
확인하려면
y
를 입력합니다.
Dataflow 작업을 취소합니다.
Dataflow 모니터링 인터페이스로 이동합니다.
작업 목록에서 dataflow-sql-quickstart를 클릭합니다.
중지 > 취소 > 작업 중지를 클릭합니다.
다음 단계
- Dataflow SQL 사용 자세히 알아보기
- Dataflow SQL로 스트리밍 데이터 조인 가이드 읽기
- Dataflow SQL 쿼리에서 데이터 소스 및 대상 사용 알아보기
- Dataflow SQL용
gcloud
명령줄 도구 살펴보기