Cloud Storage 커넥터

Cloud Storage 커넥터는 Cloud Storage의 데이터에서 직접 Apache Hadoop 또는 Apache Spark 작업을 실행할 수 있는 오픈소스 자바 라이브러리로, Hadoop 분산 파일 시스템(HDFS)을 선택하는 것보다 많은 이점을 제공합니다.

Cloud Storage 커넥터의 이점

  • 직접 데이터 액세스 – Cloud Storage에 데이터를 저장하고 직접 액세스합니다. 데이터를 HDFS로 먼저 전송할 필요가 없습니다.
  • HDFS 호환성hdfs:// 대신 gs:// 프리픽스를 사용하여 Cloud Storage의 데이터에 쉽게 액세스할 수 있습니다.
  • 상호 운용성 – Cloud Storage에 데이터를 저장하면 Spark, Hadoop, Google 서비스 간에 원활한 상호 운용이 가능합니다.
  • 데이터 접근성 – HDFS와 달리 Hadoop 클러스터를 종료하면 Cloud Storage의 데이터에 계속 액세스할 수 있습니다.
  • 높은 데이터 가용성 – Cloud Storage에 저장된 데이터는 가용성이 높고 성능 저하 없이 글로벌 단위로 복제됩니다.
  • 스토리지 관리 오버헤드 없음 - HDFS와 달리 Cloud Storage는 파일 시스템 확인, 파일 시스템 업그레이드, 이전 버전의 파일 시스템으로 롤백 등과 같은 일상적인 유지보수가 필요하지 않습니다.
  • 빠른 시작 – HDFS에서는 NameNode가 안전 모드에서 벗어나야 맵리듀스 작업을 시작할 수 있으며, 이 프로세스는 데이터 규모와 상태에 따라 몇 초에서 몇 분이 소요될 수 있습니다. 그러나 Cloud Storage에서는 작업 노드가 시작되면 바로 작업을 시작할 수 있으므로 시간 경과에 따라 상당한 비용 절감 효과를 볼 수 있습니다.

커넥터 얻기

Dataproc 클러스터

Cloud Storage 커넥터는 기본적으로 /usr/local/share/google/dataproc/lib/ 디렉터리의 모든 Dataproc 클러스터 노드에 설치됩니다.

애플리케이션에서 Dataproc 클러스터에 배포된 기본 커넥터 버전과 다른 버전의 커넥터를 사용하는 경우 다음 중 하나를 수행해야 합니다.

  1. --metadata GCS_CONNECTOR_VERSION=x.y.z 플래그를 사용하여 새 클러스터를 만듭니다. 이렇게 하면 애플리케이션에서 사용하는 커넥터를 지정된 커넥터 버전으로 업데이트합니다. 또는,
  2. 사용 중인 커넥터 버전이 Dataproc 클러스터에 배포된 커넥터 버전과 충돌하지 않도록 사용 중인 버전의 커넥터 등급 및 커넥터 종속 항목을 애플리케이션 JAR에 포함하고 재배치합니다(Maven의 종속 항목 재배치 예시 참조).

Dataproc 이외의 클러스터

  1. 커넥터를 다운로드합니다.

    Hadoop용 Cloud Storage 커넥터를 다운로드하려면 다음 안내를 따르세요.

  2. 커넥터를 설치합니다.

    Cloud Storage 커넥터를 설치, 구성, 테스트하려면 GitHub에서 커넥터 설치를 참조하세요.

커넥터 사용

Cloud Storage에 저장된 데이터에 액세스하는 방법은 다양합니다.

리소스

자바 버전

Cloud Storage 커넥터는 자바 8이 필요합니다.

Apache Maven 종속 항목 정보

<dependency>
    <groupId>com.google.cloud.bigdataoss</groupId>
    <artifactId>gcs-connector</artifactId>
    <version>insert "hadoopX-X.X.X" connector version number here</version>
    <scope>provided</scope>
</dependency>

또는 음영 처리된 버전의 경우에는 다음과 같습니다.

<dependency>
    <groupId>com.google.cloud.bigdataoss</groupId>
    <artifactId>gcs-connector</artifactId>
    <version>insert "hadoopX-X.X.X" connector version number here</version>
    <scope>provided</scope>
    <classifier>shaded</classifier>
</dependency>

자세한 내용은 Cloud Storage 커넥터 출시 노트Javadoc 참조 자료를 참조하세요.

다음 단계