빠른 시작: SQL 사용

이 페이지에서는 Dataflow SQL용 gcloud 명령줄 도구를 사용하여 Dataflow 작업을 만드는 방법을 보여줍니다. Dataflow 작업은 Dataflow SQL 쿼리의 결과를 BigQuery 데이터세트의 테이블에 작성합니다.

시작하기 전에

  1. Google 계정으로 로그인합니다.

    아직 계정이 없으면 새 계정을 등록하세요.

  2. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기 페이지로 이동

  3. Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

  4. Dataflow, Compute Engine, Logging, Cloud Storage, Cloud Storage JSON, BigQuery, Pub/Sub, Resource Manager, Data Catalog API를 사용 설정합니다.

    API 사용 설정

  5. Cloud SDK 설치 및 초기화

BigQuery 데이터세트 만들기

이름이 taxirides인 BigQuery 데이터 세트를 만듭니다.

bq mk taxirides

Pub/Sub 주제 쿼리

10초마다 태운 승객 수를 알려면 Pub/Sub 주제 taxirides-realtime을 쿼리합니다.

gcloud beta dataflow sql query \
  --job-name=dataflow-sql-quickstart \
  --region=us-central1 \
  --bigquery-dataset=taxirides \
  --bigquery-table=passengers_per_minute \
'SELECT
  TUMBLE_START("INTERVAL 10 SECOND") as period_start,
  SUM(passenger_count) AS pickup_count,
FROM pubsub.topic.`pubsub-public-data`.`taxirides-realtime`
WHERE
  ride_status = "pickup"
GROUP BY
  TUMBLE(event_timestamp, "INTERVAL 10 SECOND")'

쿼리 결과 보기

  1. Dataflow 작업이 실행 중인지 확인합니다.

    1. Dataflow 모니터링 인터페이스로 이동합니다.

      Dataflow 모니터링 인터페이스로 이동

    2. 작업 목록에서 dataflow-sql-quickstart를 클릭합니다.

    3. 작업 정보 패널에서 작업 상태 필드가 실행 중으로 설정되어 있는지 확인합니다.

      작업을 시작하는 데 몇 분 정도 걸릴 수 있습니다. 작업이 시작될 때까지 작업 상태큐에 추가됨으로 설정됩니다.

    4. 작업 그래프 탭에서 모든 단계가 적어도 1초 이상 실행 중인지 확인합니다.

      2개의 복합 단계가 있는 Dataflow 작업 그래프 첫 번째 단계는 6분 45초 동안 실행되고 두 번째 단계는 1초 동안 실행됩니다.

      작업이 시작된 후 단계의 실행이 시작되기까지 몇 분 정도 걸릴 수 있습니다.

  2. passengers_per_minute 테이블에서 가장 붐비는 간격을 반환합니다.

    bq query \
    'SELECT *
    FROM taxirides.passengers_per_minute
    ORDER BY pickup_count DESC
    LIMIT 5'
    

삭제

이 빠른 시작에서 사용한 리소스의 비용이 Google Cloud 계정에 청구되지 않도록 하려면 다음 단계를 따르세요.

  1. taxirides 데이터세트를 삭제합니다.

    1. bq rm 명령어를 실행합니다.

      bq rm taxirides
      
    2. 확인하려면 y를 입력합니다.

  2. Dataflow 작업을 취소합니다.

    1. Dataflow 모니터링 인터페이스로 이동합니다.

      Dataflow 모니터링 인터페이스로 이동

    2. 작업 목록에서 dataflow-sql-quickstart를 클릭합니다.

    3. 중지 > 취소 > 작업 중지를 클릭합니다.

다음 단계