Dataproc과 함께 Presto 사용

Presto는 하나 이상의 이기종 데이터 소스에 분산된 큰 데이터 세트를 쿼리하도록 설계된 분산형 SQL 쿼리 엔진입니다. Presto는 커넥터를 통해 Hive, MySQL, Kafka 및 기타 데이터 소스를 쿼리할 수 있습니다. 이 가이드에서는 다음을 수행하는 방법을 보여줍니다.

  • Dataproc 클러스터에 Presto 서비스 설치
  • 클러스터에 있는 Presto 서비스와 통신하는 로컬 머신에 설치된 Presto 클라이언트에서 공개 데이터 쿼리
  • Presto 자바 JDBC 드라이버를 통해 클러스터에 있는 Presto 서비스와 통신하는 자바 애플리케이션에서 쿼리 실행

목표

  1. Presto가 설치된 Dataproc 클러스터를 만듭니다.

  2. 데이터를 준비합니다. 이 가이드에서는 BigQuery에서 제공되는 Chicago Taxi Trips 공개 데이터세트를 사용합니다.

    1. BigQuery에서 데이터를 추출합니다.
    2. 데이터를 Cloud Storage에 CSV 파일로 로드합니다.
    3. 데이터를 변환합니다.
      1. 데이터를 Hive 외부 테이블로 노출하여 Presto가 데이터를 쿼리할 수 있도록 합니다.
      2. 데이터를 CSV 형식에서 Parquet 형식으로 변환하여 더 빠르게 쿼리할 수 있도록 합니다.
  3. Presto CLI 또는 애플리케이션 코드 쿼리를 각각 SSH 터널 또는 Presto JDBC 드라이버를 사용하여 클러스터에서 실행 중인 Presto 조정자에게 보냅니다.

  4. 로그를 확인하고 Presto 웹 UI를 통해 Presto 서비스를 모니터링합니다.

비용

이 가이드에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

가격 계산기를 사용하여 예상 사용량을 토대로 예상 비용을 산출합니다. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

Google Cloud 프로젝트 그리고 이 가이드에서 사용되는 데이터를 보관하기 위한 Cloud Storage 버킷을 아직 만들지 않았다면 만듭니다.

  1. 프로젝트 설정

    1. Google 계정으로 로그인합니다.

      아직 계정이 없으면 새 계정을 등록하세요.

    2. Cloud Console의 프로젝트 선택기 페이지에서 Cloud 프로젝트를 선택하거나 만듭니다.

      프로젝트 선택기 페이지로 이동

    3. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

    4. Dataproc, Compute Engine, Cloud Storage, and BigQuery API를 사용 설정합니다.

      API 사용 설정

    5. Cloud SDK 설치 및 초기화

  2. 이 가이드에서 사용되는 데이터를 보관하기 위한 프로젝트 내 Cloud Storage 버킷 만들기

    1. Cloud Console에서 Cloud Storage 브라우저 페이지로 이동합니다.

      Cloud Storage 브라우저 페이지로 이동

    2. 버킷 만들기를 클릭합니다.
    3. 버킷 만들기 대화상자에서 다음 속성을 지정합니다.
    4. 만들기를 클릭합니다.

Dataproc 클러스터 만들기

optional-components 플래그(이미지 버전 1.3 이상에서 사용 가능)를 사용하여 Dataproc 클러스터를 만들고 Presto 선택적 구성요소를 클러스터에 설치하고 enable-component-gateway 플래그를 사용하여 구성요소 게이트웨이를 사용 설정하여 Cloud Console에서 Presto 웹 UI에 액세스할 수 있도록 합니다.

  1. 환경 변수 설정
    • PROJECT: 프로젝트 ID
    • BUCKET_NAME: 시작하기 전에에서 만든 Cloud Storage 버킷의 이름
    • REGION: 이 가이드에서 사용된 클러스터가 만들어질 리전(예: 'us-west1')
    • WORKERS: 이 가이드에는 3~5개의 작업자가 권장됨
    export PROJECT=project-id
    export WORKERS=number
    export REGION=region
    export BUCKET_NAME=bucket-name
    
  2. 로컬 머신에서 gcloud 명령줄 도구를 실행하여 클러스터를 만듭니다.
    gcloud beta dataproc clusters create presto-cluster \
        --project=${PROJECT} \
        --region=${REGION} \
        --num-workers=${WORKERS} \
        --scopes=cloud-platform \
        --optional-components=PRESTO \
        --image-version=1.3  \
        --enable-component-gateway
    

데이터 준비

bigquery-public-data chicago_taxi_trips 데이터세트를 Cloud Storage에 CSV 파일로 내보낸 후에 데이터를 참조할 Hive 외부 테이블을 만듭니다.

  1. 로컬 머신에서 다음 명령어를 실행하여 BigQuery의 택시 데이터를 헤더가 없는 CSV 파일로 시작하기 전에에서 만든 Cloud Storage 버킷에 가져옵니다.
    bq --location=us extract --destination_format=CSV \
         --field_delimiter=',' --print_header=false \
           "bigquery-public-data:chicago_taxi_trips.taxi_trips" \
           gs://${BUCKET_NAME}/chicago_taxi_trips/csv/shard-*.csv
    
  2. Cloud Storage 버킷에서 CSV 및 Parquet 파일의 지원을 받는 Hive 외부 테이블을 만듭니다.
    1. Hive 외부 테이블 chicago_taxi_trips_csv를 만듭니다.
      gcloud dataproc jobs submit hive \
          --cluster presto-cluster \
          --region=${REGION} \
          --execute "
              CREATE EXTERNAL TABLE chicago_taxi_trips_csv(
                unique_key   STRING,
                taxi_id  STRING,
                trip_start_timestamp  TIMESTAMP,
                trip_end_timestamp  TIMESTAMP,
                trip_seconds  INT,
                trip_miles   FLOAT,
                pickup_census_tract  INT,
                dropoff_census_tract  INT,
                pickup_community_area  INT,
                dropoff_community_area  INT,
                fare  FLOAT,
                tips  FLOAT,
                tolls  FLOAT,
                extras  FLOAT,
                trip_total  FLOAT,
                payment_type  STRING,
                company  STRING,
                pickup_latitude  FLOAT,
                pickup_longitude  FLOAT,
                pickup_location  STRING,
                dropoff_latitude  FLOAT,
                dropoff_longitude  FLOAT,
                dropoff_location  STRING)
              ROW FORMAT DELIMITED
              FIELDS TERMINATED BY ','
              STORED AS TEXTFILE
              location 'gs://${BUCKET_NAME}/chicago_taxi_trips/csv/';"
      
    2. Hive 외부 테이블이 생성되었는지 확인합니다.
      gcloud dataproc jobs submit hive \
          --cluster presto-cluster \
          --region=${REGION} \
          --execute "SELECT COUNT(*) FROM chicago_taxi_trips_csv;"
      
    3. 같은 열이 있는 다른 Hive 외부 테이블 chicago_taxi_trips_parquet을 만듭니다. 하지만 이번에는 더 나은 쿼리 성능을 위해 데이터를 Parquet 형식으로 저장합니다.
      gcloud dataproc jobs submit hive \
          --cluster presto-cluster \
          --region=${REGION} \
          --execute "
              CREATE EXTERNAL TABLE chicago_taxi_trips_parquet(
                unique_key   STRING,
                taxi_id  STRING,
                trip_start_timestamp  TIMESTAMP,
                trip_end_timestamp  TIMESTAMP,
                trip_seconds  INT,
                trip_miles   FLOAT,
                pickup_census_tract  INT,
                dropoff_census_tract  INT,
                pickup_community_area  INT,
                dropoff_community_area  INT,
                fare  FLOAT,
                tips  FLOAT,
                tolls  FLOAT,
                extras  FLOAT,
                trip_total  FLOAT,
                payment_type  STRING,
                company  STRING,
                pickup_latitude  FLOAT,
                pickup_longitude  FLOAT,
                pickup_location  STRING,
                dropoff_latitude  FLOAT,
                dropoff_longitude  FLOAT,
                dropoff_location  STRING)
              STORED AS PARQUET
              location 'gs://${BUCKET_NAME}/chicago_taxi_trips/parquet/';"
      
    4. 데이터를 Hive CSV 테이블에서 Hive Parquet 테이블로 로드합니다.
      gcloud dataproc jobs submit hive \
          --cluster presto-cluster \
          --region=${REGION} \
          --execute "
              INSERT OVERWRITE TABLE chicago_taxi_trips_parquet
              SELECT * FROM chicago_taxi_trips_csv;"
      
    5. 데이터가 올바르게 로드되었는지 확인합니다.
      gcloud dataproc jobs submit hive \
          --cluster presto-cluster \
          --region=${REGION} \
          --execute "SELECT COUNT(*) FROM chicago_taxi_trips_parquet;"
      

쿼리 실행

Presto CLI 또는 애플리케이션에서 로컬로 쿼리를 실행할 수 있습니다.

Presto CLI 쿼리

이 섹션에서는 Presto CLI를 사용하여 Hive Parquet 택시 데이터세트를 쿼리하는 방법을 보여줍니다.

  1. 로컬 머신에서 다음 명령어를 실행하여 클러스터의 마스터 노드로 SSH를 전송합니다. 명령어 실행 중에 로컬 터미널이 응답하지 않습니다.
    gcloud compute ssh presto-cluster-m
    
  2. 클러스터의 마스터 노드에 있는 SSH 터미널 창에서 마스터 노드에서 실행되는 Presto 서버에 연결되는 Presto CLI를 실행합니다.
    presto --catalog hive --schema default
    
  3. presto:default 프롬프트에서 Presto가 Hive 테이블을 찾을 수 있는지 확인합니다.
    show tables;
    
    Table
    ‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐‐
     chicago_taxi_trips_csv
     chicago_taxi_trips_parquet
    (2 rows)
    
  4. presto:default 프롬프트에서 쿼리를 실행하고, Parquet 데이터와 CSV 데이터의 쿼리 성능을 비교합니다.
    • Parquet 데이터 쿼리
      select count(*) from chicago_taxi_trips_parquet where trip_miles > 50;
      
       _col0
      ‐‐‐‐‐‐‐‐
       117957
      (1 row)
      Query 20180928_171735_00006_2sz8c, FINISHED, 3 nodes Splits: 308 total, 308 done (100.00%) 0:16 [113M rows, 297MB] [6.91M rows/s, 18.2MB/s]
    • CSV 데이터 쿼리
      select count(*) from chicago_taxi_trips_csv where trip_miles > 50;
      
      _col0
      ‐‐‐‐‐‐‐‐
       117957
      (1 row)
      Query 20180928_171936_00009_2sz8c, FINISHED, 3 nodes Splits: 881 total, 881 done (100.00%) 0:47 [113M rows, 41.5GB] [2.42M rows/s, 911MB/s]

자바 애플리케이션 쿼리

Presto 자바 JDBC 드라이버를 통해 자바 애플리케이션에서 쿼리를 실행하려면 다음 단계를 따르세요.

  1. Presto 자바 JDBC 드라이버를 다운로드합니다.

  2. Maven pom.xml에서 presto-jdbc 종속 항목을 추가합니다.

    <dependency>
    <groupId>com.facebook.presto</groupId>
    <artifactId>presto-jdbc</artifactId>
    <version>0.206</version>
    </dependency>
    

샘플 자바 코드

package dataproc.codelab.presto;

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.ResultSet;
import java.sql.SQLException;
import java.sql.Statement;
import java.util.Properties;

public class PrestoQuery {
  private static final String URL = "jdbc:presto://presto-cluster-m:8080/hive/default";
  private static final String SOCKS_PROXY = "localhost:1080";
  private static final String USER = "user";
  private static final String QUERY =
      "select count(*) as count from chicago_taxi_trips_parquet where trip_miles > 50";

  public static void main(String[] args) {
    try {
      Properties properties = new Properties();
      properties.setProperty("user", USER);
      properties.setProperty("socksProxy", SOCKS_PROXY);
      Connection connection = DriverManager.getConnection(URL, properties);
      try (Statement stmt = connection.createStatement()) {
        ResultSet rs = stmt.executeQuery(QUERY);
        while (rs.next()) {
          int count = rs.getInt("count");
          System.out.println("The number of long trips: " + count);
        }
      }
    } catch (SQLException e) {
      e.printStackTrace();
    }
  }
}

로깅 및 모니터링

로깅

Presto 로그는 클러스터의 마스터 및 워커 노드의 /var/log/presto/에 있습니다.

웹 UI

로컬 브라우저의 클러스터 마스터 노드에서 실행되는 Presto 웹 UI를 열려면 구성요소 게이트웨이 URL 보기 및 액세스를 참조하세요.

모니터링

Presto는 런타임 테이블을 통해 클러스터 런타임 정보를 노출합니다. Presto 세션(presto:default에 있음) 프롬프트에서 다음 쿼리를 실행하여 런타임 테이블 데이터를 봅니다.

select * FROM system.runtime.nodes;

삭제

Cloud Dataproc에서 Presto 사용 가이드를 완료한 후에는 할당량을 차지하지 않고 이후에 요금이 청구되지 않도록 Google Cloud에서 만든 리소스를 삭제할 수 있습니다. 다음 섹션에서는 리소스를 삭제하거나 사용 중지하는 방법을 설명합니다.

프로젝트 삭제

비용이 청구되지 않도록 하는 가장 쉬운 방법은 가이드에서 만든 프로젝트를 삭제하는 것입니다.

프로젝트를 삭제하는 방법은 다음과 같습니다.

  1. Cloud Console에서 리소스 관리 페이지로 이동합니다.

    리소스 관리 페이지로 이동

  2. 프로젝트 목록에서 삭제할 프로젝트를 선택하고 삭제 를 클릭합니다.
  3. 대화상자에서 프로젝트 ID를 입력한 다음 종료를 클릭하여 프로젝트를 삭제합니다.

클러스터 삭제

  • 클러스터를 삭제하는 방법은 다음과 같습니다.
    gcloud dataproc clusters delete --project=${PROJECT} presto-cluster \
        --region=${REGION}
    

버킷 삭제

  • 시작하기 전에에서 만든 Cloud Storage 버킷과 그 안에 저장된 데이터 파일을 삭제하는 방법은 다음과 같습니다.
    gsutil -m rm -r gs://${BUCKET_NAME}