Cloud Storage 커넥터

Cloud Storage 커넥터는 Cloud Storage의 데이터에서 직접 Apache Hadoop 또는 Apache Spark 작업을 실행할 수 있는 오픈소스 자바 라이브러리로, Hadoop 분산 파일 시스템(HDFS)을 선택하는 것보다 많은 이점을 제공합니다.

Cloud Storage 커넥터의 이점

  • 직접 데이터 액세스 – Cloud Storage에 데이터를 저장하고 직접 액세스합니다. 데이터를 HDFS로 먼저 전송할 필요가 없습니다.
  • HDFS 호환성hdfs:// 대신 gs:// 프리픽스를 사용하여 Cloud Storage의 데이터에 쉽게 액세스할 수 있습니다.
  • 상호 운용성 – Cloud Storage에 데이터를 저장하면 Spark, Hadoop, Google 서비스 간에 원활한 상호 운용이 가능합니다.
  • 데이터 접근성 – HDFS와 달리 Hadoop 클러스터를 종료하면 Cloud Storage의 데이터에 계속 액세스할 수 있습니다.
  • 높은 데이터 가용성 – Cloud Storage에 저장된 데이터는 가용성이 높고 성능 저하 없이 글로벌 단위로 복제됩니다.
  • 스토리지 관리 오버헤드 없음 - HDFS와 달리 Cloud Storage는 파일 시스템 확인, 파일 시스템 업그레이드, 이전 버전의 파일 시스템으로 롤백 등과 같은 일상적인 유지보수가 필요하지 않습니다.
  • 빠른 시작 – HDFS에서는 NameNode가 안전 모드에서 벗어나야 맵리듀스 작업을 시작할 수 있으며, 이 프로세스는 데이터 규모와 상태에 따라 몇 초에서 몇 분이 소요될 수 있습니다. 그러나 Cloud Storage에서는 작업 노드가 시작되면 바로 작업을 시작할 수 있으므로 시간 경과에 따라 상당한 비용 절감 효과를 볼 수 있습니다.

커넥터 얻기

Dataproc 클러스터

Cloud Storage 커넥터는 기본적으로 /usr/lib/hadoop/lib/의 모든 Dataproc 클러스터 노드에 설치됩니다. 참고: 이미지 버전 1.4 이상에서는 위치가 /usr/local/share/google/dataproc/lib/입니다. 이는 Spark 환경과 PySpark 환경 모두에서 사용할 수 있습니다.

기타 Spark/Hadoop 클러스터

Hadoop용 Cloud Storage 커넥터를 다운로드하려면 다음 안내를 따르세요.

커넥터를 설치하고 구성하려면 Cloud Storage 커넥터 설치를 참조하세요.

커넥터 사용

Cloud Storage에 저장된 데이터에 액세스하는 방법은 다양합니다.

리소스

자바 버전

Cloud Storage 커넥터는 자바 8이 필요합니다.

Apache Maven 종속 항목 정보

<dependency>
    <groupId>com.google.cloud.bigdataoss</groupId>
    <artifactId>gcs-connector</artifactId>
    <version>insert "hadoopX-X.X.X" connector version number here</version>
    <scope>provided</scope>
</dependency>

자세한 내용은 Cloud Storage 커넥터 출시 노트Javadoc 참조 자료를 참조하세요.

다음 단계