Apache Spark용 자바 및 Scala 종속 항목 관리

Spark 애플리케이션은 타사 자바 또는 Scala 라이브러리에 의존하는 경우가 많습니다. 다음은 Dataproc 클러스터에 Spark 작업을 제출할 때 이러한 종속 항목을 포함하는 경우에 권장되는 방법입니다.

gcloud dataproc jobs submit 명령어로 로컬 머신에서 작업을 제출할 때 --properties spark.jars.packages=[DEPENDENCIES] 플래그를 사용합니다.

예:

gcloud dataproc jobs submit spark \
    --cluster=my-cluster \
    --region=region \
    --properties=spark.jars.packages='com.google.cloud:google-cloud-translate:1.35.0,org.apache.bahir:spark-streaming-pubsub_2.11:2.2.0'

클러스터에서 직접 작업을 제출할 때 spark-submit 명령어를 --packages=[DEPENDENCIES] 매개변수와 함께 사용합니다.

예:
```
spark-submit --packages='com.google.cloud:google-cloud-translate:1.35.0,org.apache.bahir:spark-streaming-pubsub_2.11:2.2.0'
```

종속 항목 충돌 방지

Spark 애플리케이션 종속 항목이 Hadoop의 종속 항목과 충돌하면 위의 방법이 실패할 수 있습니다. 이 충돌은 Hadoop이 종속 항목을 애플리케이션의 classpath에 삽입하여 종속 항목이 애플리케이션의 종속 항목보다 우선하기 때문에 발생할 수 있습니다. 충돌이 발생하면 NoSuchMethodError 또는 기타 오류가 발생할 수 있습니다.

예:
Guava는 Hadoop을 포함한 여러 라이브러리와 프레임워크에서 사용되는 자바용 Google 핵심 라이브러리입니다. 작업 또는 종속 항목에 Hadoop에서 사용하는 버전보다 새로운 버전의 Guava가 필요한 경우에 종속 항목 충돌이 발생할 수 있습니다.

Hadoop v3.0에서는 이 문제가 해결되었지만 이전 Hadoop 버전을 사용하는 애플리케이션에서는 다음의 2단계 해결 방법으로 종속 항목 충돌을 방지해야 합니다.

애플리케이션의 패키지 및 모든 종속 항목을 포함하는 단일 JAR을 만듭니다.
충돌하는 종속 항목 패키지를 uber JAR 내에 재배치하여 경로 이름이 Hadoop의 종속 항목 패키지의 경로 이름과 충돌하지 않도록 합니다. 코드를 수정하는 대신 플러그인(아래 참조)을 사용하여 패키징 프로세스의 일부로 이 재배치('음영 처리'라고도 함) 작업을 자동으로 수행하세요.

Maven으로 음영 처리된 uber JAR 만들기

Maven은 자바 애플리케이션을 빌드하기 위한 패키지 관리 도구입니다. Maven Scala 플러그인을 사용하여 Spark 애플리케이션에서 사용하는 언어인 Scala로 작성된 애플리케이션을 빌드할 수 있습니다. Maven Shade 플러그인을 사용하여 음영 처리된 JAR을 만들 수 있습니다.

다음은 com.google.common 패키지에 있는 Guava 라이브러리를 음영 처리하는 샘플 pom.xml 구성 파일입니다. 이 설정은 com.google.common 패키지의 이름을 repackaged.com.google.common로 변경하고 원래 패키지의 클래스에 대한 모든 참조를 업데이트하도록 Maven에 지시합니다.

<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
  xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
  xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>

  <properties>
    <maven.compiler.source>1.8</maven.compiler.source>
    <maven.compiler.target>1.8</maven.compiler.target>
  </properties>

  <groupId><!-- YOUR_GROUP_ID --></groupId>
  <artifactId><!-- YOUR_ARTIFACT_ID --></artifactId>
  <version><!-- YOUR_PACKAGE_VERSION --></version>

  <dependencies>

    <dependency>
      <groupId>org.apache.spark</groupId>
      <artifactId>spark-sql_2.11</artifactId>
      <version><!-- YOUR_SPARK_VERSION --></version>
      <scope>provided</scope>
    </dependency>

    <!-- YOUR_DEPENDENCIES -->

  </dependencies>

  <build>
    <plugins>

      <plugin>
        <groupId>net.alchim31.maven</groupId>
        <artifactId>scala-maven-plugin</artifactId>
        <executions>
          <execution>
            <goals>
              <goal>compile</goal>
              <goal>testCompile</goal>
            </goals>
          </execution>
        </executions>
        <configuration>
          <scalaVersion><!-- YOUR_SCALA_VERSION --></scalaVersion>
        </configuration>
      </plugin>

      <plugin>
        <groupId>org.apache.maven.plugins</groupId>
        <artifactId>maven-shade-plugin</artifactId>
        <executions>
          <execution>
            <phase>package</phase>
            <goals>
              <goal>shade</goal>
            </goals>
            <configuration>
              <transformers>
                <transformer implementation="org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">
                  <mainClass><!-- YOUR_APPLICATION_MAIN_CLASS --></mainClass>
                </transformer>
                <!-- This is needed if you have dependencies that use Service Loader. Most Google Cloud client libraries do. -->
                <transformer implementation="org.apache.maven.plugins.shade.resource.ServicesResourceTransformer"/>
              </transformers>
              <filters>
                <filter>
                  <artifact>*:*</artifact>
                  <excludes>
                    <exclude>META-INF/maven/**</exclude>
                    <exclude>META-INF/*.SF</exclude>
                    <exclude>META-INF/*.DSA</exclude>
                    <exclude>META-INF/*.RSA</exclude>
                  </excludes>
                </filter>
              </filters>
              <relocations>
                <relocation>
                  <pattern>com</pattern>
                  <shadedPattern>repackaged.com.google.common</shadedPattern>
                  <includes>
                    <include>com.google.common.**</include>
                  </includes>
                </relocation>
              </relocations>
            </configuration>
          </execution>
        </executions>
      </plugin>

    </plugins>
  </build>

</project>

빌드를 실행하려면 다음을 사용하세요.

mvn package

pom.xml에 대한 참고 사항:

ManifestResourceTransformer는 uber JAR의 매니페스트 파일(MANIFEST.MF)에서 속성을 처리합니다. 매니페스트에서 애플리케이션의 진입점을 지정할 수도 있습니다.
Spark의 범위는 provided입니다. Spark가 Dataproc에 설치되었기 때문입니다.
Dataproc 클러스터에 설치된 Spark 버전을 지정합니다(Dataproc 버전 목록). 애플리케이션에 Dataproc 클러스터에 설치된 버전과 다른 Spark 버전이 필요한 경우 초기화 작업을 작성하거나 애플리케이션에서 사용할 Spark 버전을 설치하는 커스텀 이미지를 작성할 수 있습니다.
<filters>은 종속 항목의 META-INF 디렉터리에서 서명 파일을 제외합니다. 이 항목이 없으면 서명 파일이 uber JAR 컨텍스트에서 유효하지 않기 때문에 java.lang.SecurityException: Invalid signature file digest for Manifest main attributes 런타임 예외가 발생할 수 있습니다.

여러 라이브러리를 음영 처리해야 할 수도 있습니다. 이렇게 하려면 여러 경로를 포함하세요. 다음 예는 Guava 및 Protobuf 라이브러리를 음영 처리합니다.

<relocation>
  <pattern>com</pattern>
  <shadedPattern>repackaged.com</shadedPattern>
  <includes>
    <include>com.google.protobuf.**</include>
    <include>com.google.common.**</include>
  </includes>
</relocation>

SBT를 사용하여 음영 처리된 uber JAR 만들기

SBT는 Scala 애플리케이션을 빌드하는 도구입니다. SBT를 사용하여 음영 처리된 JAR을 만들려면 project/ 디렉터리 아래에 assembly.sbt라는 파일을 만들어 sbt-assembly 플러그인을 빌드 정의에 추가합니다.

├── src/
└── build.sbt
└── project/
    └── assembly.sbt

그런 다음 assembly.sbt에 다음 줄을 추가합니다.

addSbtPlugin("com.eed3si9n" % "sbt-assembly" % "0.14.6")

다음은 com.google.common package에 있는 Guava 라이브러리를 음영 처리하는 샘플 build.sbt 구성 파일입니다.

lazy val commonSettings = Seq(
 organization := "YOUR_GROUP_ID",
 name := "YOUR_ARTIFACT_ID",
 version := "YOUR_PACKAGE_VERSION",
 scalaVersion := "YOUR_SCALA_VERSION",
)

lazy val shaded = (project in file("."))
 .settings(commonSettings)

mainClass in (Compile, packageBin) := Some("YOUR_APPLICATION_MAIN_CLASS")

libraryDependencies ++= Seq(
 "org.apache.spark" % "spark-sql_2.11" % "YOUR_SPARK_VERSION" % "provided",
 // YOUR_DEPENDENCIES
)

assemblyShadeRules in assembly := Seq(
  ShadeRule.rename("com.google.common.**" -> "repackaged.com.google.common.@1").inAll
)

빌드를 실행하려면 다음을 사용하세요.

sbt assembly

build.sbt에 대한 참고 사항:

SBT는 엄격한 충돌 해결 전략을 사용하기 때문에 위 예제의 음영 처리 규칙으로 모든 종속 항목 충돌을 해결하지 못할 수도 있습니다. 따라서 MergeStrategy.first, last, concat, filterDistinctLines, rename, discard 전략을 사용하여 특정 유형의 충돌 파일을 명시 적으로 병합하는 보다 세부적인 규칙을 제공해야 할 수 있습니다. 자세한 내용은 sbt-assembly의 병합 전략을 참조하세요.

assemblyShadeRules in assembly := Seq(
  ShadeRule.rename("com.google.common.**" -> "repackaged.com.google.common.@1").inAll,
  ShadeRule.rename("com.google.protobuf.**" -> "repackaged.com.google.protobuf.@1").inAll
)

Dataproc에 uber JAR 제출

Spark 애플리케이션과 종속 항목을 포함하는 음영 처리된 uber JAR을 만든 후에는 Dataproc에 작업을 제출할 수 있습니다.

다음 단계

Maven 및 SBT 모두에 대한 구성 파일이 포함된 샘플 Spark 애플리케이션인 spark-translate를 참조합니다.
Dataproc에서 Spark Scala 작업을 작성 및 실행합니다. 이 빠른 시작에서는 Dataproc 클러스터에서 Spark Scala 작업을 작성하고 실행하는 방법을 알아볼 수 있습니다.