Dataproc에 Apache Hive 배포

Last reviewed 2023-05-08 UTC

이 문서에서는 Dataproc에서 Apache Hive 사용에서 아키텍처를 배포하는 방법을 설명합니다.

이 문서는 Dataproc에 Apache Hive를 배포하고 Cloud SQL에 Hive 메타스토어를 배포하는 데 관심이 있는 클라우드 설계자와 데이터 엔지니어를 대상으로 작성되었습니다.

아키텍처

이 배포 가이드에서는 모든 컴퓨팅 및 스토리지 서비스를 같은 Google Cloud 리전에 배포하여 네트워크 지연 시간과 네트워크 전송 비용을 최소화합니다.

다음은 Hive 쿼리의 수명 주기를 보여주는 다이어그램입니다.

단일 리전 아키텍처의 다이어그램

이 다이어그램에서 Hive 클라이언트는 쿼리를 제출하고 쿼리는 처리, 가져오기, 반환됩니다. 처리는 Hive 서버에서 수행됩니다. 데이터는 Cloud Storage의 리전 버킷에 저장된 Hive 웨어하우스에서 요청되고 반환됩니다.

목표

  • Cloud SQL에 Hive 메타스토어에 사용할 MySQL 인스턴스 만들기
  • Dataproc에 Hive 서버 배포하기
  • Dataproc 클러스터 인스턴스에 Cloud SQL 프록시 설치
  • Cloud Storage에 Hive 데이터 업로드하기
  • 여러 Dataproc 클러스터에서 Hive 쿼리 실행하기

비용

이 배포는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다

  • Dataproc
  • Cloud Storage
  • Cloud SQL

가격 계산기를 사용하여 예상 사용량을 기준으로 예상 비용을 산출할 수 있습니다.

Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

이 배치를 마친 후에 계속 비용이 청구되지 않도록 하려면 만든 리소스를 삭제하면 됩니다. 자세한 내용은 삭제를 참조하세요.

시작하기 전에

  1. Google Cloud 콘솔의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 만들거나 선택합니다.

    프로젝트 선택기로 이동

  2. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

환경 초기화

  1. Cloud Shell 인스턴스를 시작합니다.

    Cloud Shell로 이동

  2. Cloud Shell에서 기본 Compute Engine 영역을 Dataproc 클러스터를 만들려는 영역으로 설정합니다.

    export PROJECT=$(gcloud info --format='value(config.project)')
    export REGION=REGION
    export ZONE=ZONE
    gcloud config set compute/zone ${ZONE}

    다음을 바꿉니다.

    • REGION: us-central1과 같은 클러스터를 만들려는 리전입니다.
    • ZONE: us-central1-a와 같은 클러스터를 만들려는 영역입니다.
  3. Cloud Shell에서 다음 명령어를 실행하여 Dataproc 및 Cloud SQL Admin API를 사용 설정합니다.

    gcloud services enable dataproc.googleapis.com sqladmin.googleapis.com

(선택사항) 웨어하우스 버킷 만들기

Hive 데이터를 저장할 Cloud Storage 버킷이 없으면 웨어하우스 버킷을 만들고(Cloud Shell에서 다음 명령어 실행 가능) BUCKET_NAME을 고유한 버킷 이름으로 바꿉니다.

export WAREHOUSE_BUCKET=BUCKET_NAME
gcloud storage buckets create gs://${WAREHOUSE_BUCKET} --location=${REGION}

Cloud SQL 인스턴스 만들기

이 섹션에서는 이후에 Hive 메타스토어를 호스팅하는 데 사용될 새 Cloud SQL 인스턴스를 만듭니다.

Cloud Shell에서 새 Cloud SQL 인스턴스를 만듭니다.

gcloud sql instances create hive-metastore \
    --database-version="MYSQL_5_7" \
    --activation-policy=ALWAYS \
    --zone ${ZONE}

이 명령어를 완료하는 데 몇 분이 걸릴 수 있습니다.

Dataproc 클러스터 만들기

첫 번째 Dataproc 클러스터를 만들고 CLUSTER_NAMEhive-cluster와 같은 이름으로 바꿉니다.

gcloud dataproc clusters create CLUSTER_NAME \
    --scopes sql-admin \
    --region ${REGION} \
    --initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/cloud-sql-proxy/cloud-sql-proxy.sh \
    --properties "hive:hive.metastore.warehouse.dir=gs://${WAREHOUSE_BUCKET}/datasets" \
    --metadata "hive-metastore-instance=${PROJECT}:${REGION}:hive-metastore" \
    --metadata "enable-cloud-sql-proxy-on-workers=false"

참고:

  • 클러스터 인스턴스가 Cloud SQL Admin API에 액세스할 수 있도록 sql-admin 액세스 범위를 제공합니다.
  • Cloud Storage 버킷에 저장하는 스크립트에 초기화 작업을 넣고 --initialization-actions 플래그를 사용하여 해당 버킷을 참조합니다. 자세한 내용은 초기화 작업 - 중요 고려사항 및 가이드라인을 참조하세요.
  • hive:hive.metastore.warehouse.dir 속성의 Hive 웨어하우스 버킷에 URI를 제공합니다. 이렇게 하면 Hive 서버가 올바른 위치에서 읽고 쓰도록 구성됩니다. 이 속성에는 디렉터리가 최소 한 개(예: gs://my-bucket/my-directory) 이상 포함되어야 합니다. 이 속성이 디렉터리 없는 버킷 이름(예: gs://my-bucket)에 설정되어 있으면 Hive가 적절하게 작동하지 않습니다
  • Cloud SQL 프록시가 마스터 노드에서만 실행되도록 enable-cloud-sql-proxy-on-workers=false를 지정합니다. 이는 Hive 메타스토어 서비스가 작동하는 데 충분하며 Cloud SQL에서 불필요한 부하를 방지합니다.
  • Dataproc이 모든 클러스터 인스턴스에서 자동으로 실행하는 Cloud SQL 프록시 초기화 작업을 제공합니다. 이 작업은 다음을 수행합니다.

    • Cloud SQL 프록시를 설치합니다.
    • hive-metastore-instance 메타데이터 매개변수에 지정된 Cloud SQL 인스턴스에 대한 보안 연결을 설정합니다.
    • hive 사용자 및 Hive 메타스토어의 데이터베이스를 만듭니다.

    GitHub에서 Cloud SQL 프록시 초기화 작업의 전체 코드를 확인할 수 있습니다.

  • 이 배포에서는 공개 IP 주소와 함께 Cloud SQL 인스턴스를 사용합니다. 대신 비공개 IP 주소만 있는 인스턴스를 사용할 경우에는 --metadata "use-cloud-sql-private-ip=true" 매개변수를 전달하여 프록시가 비공개 IP 주소를 사용하도록 강제할 수 있습니다.

Hive 테이블 만들기

이 섹션에서는 웨어하우스 버킷에 샘플 데이터세트를 업로드하고, 새 Hive 테이블을 만들고, 해당 데이터세트에서 몇 가지 HiveQL 쿼리를 실행합니다.

  1. 샘플 데이터세트를 웨어하우스 버킷에 복사합니다.

    gcloud storage cp gs://hive-solution/part-00000.parquet \
    gs://${WAREHOUSE_BUCKET}/datasets/transactions/part-00000.parquet

    샘플 데이터베이스는 Parquet 형식으로 압축되어 있으며 세 개의 열(날짜, 금액, 거래 유형)이 있는 수천 개의 가상적인 은행 거래 기록을 포함합니다.

  2. 데이터세트에 사용할 외부 Hive 테이블을 만듭니다.

    gcloud dataproc jobs submit hive \
        --cluster CLUSTER_NAME \
        --region ${REGION} \
        --execute "
          CREATE EXTERNAL TABLE transactions
          (SubmissionDate DATE, TransactionAmount DOUBLE, TransactionType STRING)
          STORED AS PARQUET
          LOCATION 'gs://${WAREHOUSE_BUCKET}/datasets/transactions';"

Hive 쿼리 실행

Dataproc 내에서 다양한 도구를 사용하여 Hive 쿼리를 실행할 수 있습니다. 이 섹션에서는 다음 도구를 사용하여 쿼리를 수행하는 방법을 알아봅니다.

  • Dataproc의 Hive jobs API
  • Beeline에 기초한 널리 사용되는 명령줄 클라이언트인 SQLLine
  • 구조화된 데이터를 쿼리하는 Apache Spark의 API인 SparkSQL

각 섹션에서 샘플 쿼리를 실행합니다.

Dataproc Jobs API로 Hive 쿼리

다음과 같은 간단한 HiveQL 쿼리를 실행하여 parquet 파일이 Hive 테이블에 올바르게 연결되었는지 확인합니다.

gcloud dataproc jobs submit hive \
    --cluster CLUSTER_NAME \
    --region ${REGION} \
    --execute "
      SELECT *
      FROM transactions
      LIMIT 10;"

출력은 다음과 같습니다.

+-----------------+--------------------+------------------+
| submissiondate  | transactionamount  | transactiontype  |
+-----------------+--------------------+------------------+
| 2017-12-03      | 1167.39            | debit            |
| 2017-09-23      | 2567.87            | debit            |
| 2017-12-22      | 1074.73            | credit           |
| 2018-01-21      | 5718.58            | debit            |
| 2017-10-21      | 333.26             | debit            |
| 2017-09-12      | 2439.62            | debit            |
| 2017-08-06      | 5885.08            | debit            |
| 2017-12-05      | 7353.92            | authorization    |
| 2017-09-12      | 4710.29            | authorization    |
| 2018-01-05      | 9115.27            | debit            |
+-----------------+--------------------+------------------+

Beeline으로 Hive 쿼리

  1. Dataproc의 마스터 인스턴스(CLUSTER_NAME-m)로 SSH 세션을 엽니다.

    gcloud compute ssh CLUSTER_NAME-m
  2. 마스터 인스턴스의 명령 프롬프트에서 Beeline 세션을 엽니다.

    beeline -u "jdbc:hive2://localhost:10000"

    참고:

    • 마스터 인스턴스의 이름을 localhost 대신 호스트로 참조할 수도 있습니다.

      beeline -u "jdbc:hive2://CLUSTER_NAME-m:10000"
    • 마스터가 3개인 고가용성 모드를 사용하는 경우 다음 명령어를 대신 사용해야 합니다.

      beeline -u "jdbc:hive2://CLUSTER_NAME-m-0:2181,CLUSTER_NAME-m-1:2181,CLUSTER_NAME-m-2:2181/;serviceDiscoveryMode=zooKeeper;zooKeeperNamespace=hiveserver2"
  3. Beeline 프롬프트가 표시되면 다음 HiveQL 쿼리를 실행합니다.

    SELECT TransactionType, AVG(TransactionAmount) AS AverageAmount
    FROM transactions
    WHERE SubmissionDate = '2017-12-22'
    GROUP BY TransactionType;

    출력은 다음과 같습니다.

    +------------------+--------------------+
    | transactiontype  |   averageamount    |
    +------------------+--------------------+
    | authorization    | 4890.092525252529  |
    | credit           | 4863.769269565219  |
    | debit            | 4982.781458176331  |
    +------------------+--------------------+
  4. Beeline 세션을 닫습니다.

    !quit
  5. SSH 연결을 닫습니다.

    exit

SparkSQL로 Hive 쿼리

  1. Dataproc의 마스터 인스턴스로 SSH 세션을 엽니다.

    gcloud compute ssh CLUSTER_NAME-m
  2. 마스터 인스턴스의 명령 프롬프트에서 새 PySpark 셸 세션을 엽니다.

    pyspark
  3. PySpark 셸 프롬프트가 표시되면 다음 Python 코드를 입력합니다.

    from pyspark.sql import HiveContext
    hc = HiveContext(sc)
    hc.sql("""
    SELECT SubmissionDate, AVG(TransactionAmount) as AvgDebit
    FROM transactions
    WHERE TransactionType = 'debit'
    GROUP BY SubmissionDate
    HAVING SubmissionDate >= '2017-10-01' AND SubmissionDate < '2017-10-06'
    ORDER BY SubmissionDate
    """).show()

    출력은 다음과 같습니다.

    +-----------------+--------------------+
    | submissiondate  |      avgdebit      |
    +-----------------+--------------------+
    | 2017-10-01      | 4963.114920399849  |
    | 2017-10-02      | 5021.493300510582  |
    | 2017-10-03      | 4982.382279569891  |
    | 2017-10-04      | 4873.302702503676  |
    | 2017-10-05      | 4967.696333583777  |
    +-----------------+--------------------+
  4. PySpark 세션을 닫습니다.

    exit()
  5. SSH 연결을 닫습니다.

    exit

Hive 메타스토어 검사

이제 Cloud SQL의 Hive 메타스토어에 transactions 테이블에 대한 정보가 포함되어 있는지 확인합니다.

  1. Cloud Shell에서 Cloud SQL 인스턴스로 새 MySQL 세션을 엽니다.

    gcloud sql connect hive-metastore --user=root

    root 사용자 비밀번호를 입력하라는 메시지가 표시되면 아무 것도 입력하지 말고 RETURN 키를 누릅니다. 이 배포에서는 편의상 root 사용자의 비밀번호를 설정하지 않았습니다. 비밀번호를 설정하여 메타스토어 데이터베이스의 보호를 강화하는 방법은 Cloud SQL 문서를 참조하세요. Cloud SQL 프록시 초기화 작업은 암호화를 통한 비밀번호 보호 메커니즘도 제공합니다. 자세한 내용은 작업의 코드 저장소를 참조하세요.

  2. MySQL 명령 프롬프트에서 hive_metastore를 나머지 세션의 기본 데이터베이스로 설정합니다.

    USE hive_metastore;
  3. 메타스토어에 웨어하우스 버킷의 위치가 기록되어 있는지 확인합니다.

    SELECT DB_LOCATION_URI FROM DBS;

    출력 형식은 다음과 같습니다.

    +-------------------------------------+
    | DB_LOCATION_URI                     |
    +-------------------------------------+
    | gs://[WAREHOUSE_BUCKET]/datasets   |
    +-------------------------------------+
  4. 메타스토어에서 테이블이 올바르게 참조되었는지 확인합니다.

    SELECT TBL_NAME, TBL_TYPE FROM TBLS;

    출력 형식은 다음과 같습니다.

    +--------------+----------------+
    | TBL_NAME     | TBL_TYPE       |
    +--------------+----------------+
    | transactions | EXTERNAL_TABLE |
    +--------------+----------------+
  5. 테이블의 열도 올바르게 참조되었는지 확인합니다.

    SELECT COLUMN_NAME, TYPE_NAME
    FROM COLUMNS_V2 c, TBLS t
    WHERE c.CD_ID = t.SD_ID AND t.TBL_NAME = 'transactions';

    출력 형식은 다음과 같습니다.

    +-------------------+-----------+
    | COLUMN_NAME       | TYPE_NAME |
    +-------------------+-----------+
    | submissiondate    | date      |
    | transactionamount | double    |
    | transactiontype   | string    |
    +-------------------+-----------+
  6. 입력 형식 및 위치도 올바르게 참조되었는지 확인합니다.

    SELECT INPUT_FORMAT, LOCATION
    FROM SDS s, TBLS t
    WHERE s.SD_ID = t.SD_ID AND t.TBL_NAME = 'transactions';

    출력 형식은 다음과 같습니다.

    +---------------------------------------------------------------+------------------------------------------------+
    | INPUT_FORMAT                                                  | LOCATION                                       |
    +---------------------------------------------------------------+------------------------------------------------+
    | org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat | gs://[WAREHOUSE_BUCKET]/datasets/transactions |
    +---------------------------------------------------------------+------------------------------------------------+
    
  7. MySQL 세션을 종료합니다.

    exit

다른 Dataproc 클러스터 만들기

이 섹션에서는 Hive 데이터와 Hive 메타스토어를 여러 클러스터에서 공유할 수 있는지 확인하기 위해 다른 Dataproc 클러스터를 만듭니다.

  1. 새 Dataproc 클러스터를 만듭니다.

    gcloud dataproc clusters create other-CLUSTER_NAME \
        --scopes cloud-platform \
        --image-version 2.0 \
        --region ${REGION} \
        --initialization-actions gs://goog-dataproc-initialization-actions-${REGION}/cloud-sql-proxy/cloud-sql-proxy.sh \
        --properties "hive:hive.metastore.warehouse.dir=gs://${WAREHOUSE_BUCKET}/datasets" \
        --metadata "hive-metastore-instance=${PROJECT}:${REGION}:hive-metastore"\
        --metadata "enable-cloud-sql-proxy-on-workers=false"
  2. 새 클러스터에서 데이터에 액세스할 수 있는지 확인합니다.

    gcloud dataproc jobs submit hive \
        --cluster other-CLUSTER_NAME \
        --region ${REGION} \
        --execute "
          SELECT TransactionType, COUNT(TransactionType) as Count
          FROM transactions
          WHERE SubmissionDate = '2017-08-22'
          GROUP BY TransactionType;"

    출력은 다음과 같습니다.

    +------------------+--------+
    | transactiontype  | count  |
    +------------------+--------+
    | authorization    | 696    |
    | credit           | 1722   |
    | debit            | 2599   |
    +------------------+--------+

수고하셨습니다. 배포 단계를 완료했습니다.

삭제

다음 섹션에서는 이 배포에서 사용한 Google Cloud 프로젝트와 Apache Hive 및 Dataproc 리소스에 향후 요금이 청구되지 않도록 방지하는 방법에 대해 설명합니다.

Google Cloud 프로젝트 삭제

이 배포에서 사용한 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 Google Cloud 프로젝트를 삭제합니다.

  1. In the Google Cloud console, go to the Manage resources page.

    Go to Manage resources

  2. In the project list, select the project that you want to delete, and then click Delete.
  3. In the dialog, type the project ID, and then click Shut down to delete the project.

개별 리소스 삭제

Cloud Shell에서 다음 명령어를 실행하여 전체 프로젝트를 삭제하는 대신 개별 리소스를 삭제합니다.

gcloud dataproc clusters delete CLUSTER_NAME --region ${REGION} --quiet
gcloud dataproc clusters delete other-CLUSTER_NAME --region ${REGION} --quiet
gcloud sql instances delete hive-metastore --quiet
gcloud storage rm gs://${WAREHOUSE_BUCKET}/datasets --recursive

다음 단계

  • 확장성과 경제성이 뛰어난 Google의 서버리스 엔터프라이즈 데이터 웨어하우스인 BigQuery 사용해 보기
  • 가이드에서 Hadoop 워크로드를 Google Cloud로 마이그레이션하는 방법 알아보기
  • 초기화 작업을 통해 Dataproc에서 Hive HCatalog를 사용하는 방법 자세히 알아보기
  • 고가용성을 위해 Cloud SQL을 구성하여 서비스 안정성을 높이는 방법 알아보기
  • 그 밖의 참조 아키텍처, 다이어그램, 튜토리얼, 권장사항을 알아보려면 Cloud 아키텍처 센터를 확인하세요.