Cloud Data Fusion에서 Dataproc 이미지 버전 변경

이 페이지에서는 Cloud Data Fusion 인스턴스에서 사용하는 Dataproc 이미지 버전을 변경하는 방법을 설명합니다.

시작하기 전에

Cloud Data Fusion 인스턴스에서 모든 실시간 파이프라인 및 복제 작업을 중지합니다. Dataproc 이미지 버전을 변경할 때 실시간 파이프라인 또는 복제가 실행 중인 경우 변경사항이 파이프라인 실행에 적용되지 않습니다.

실시간 파이프라인의 경우 체크포인트를 사용 설정하면 파이프라인을 중지해도 데이터가 손실되지 않습니다. 복제 작업 역시 데이터베이스 로그를 사용할 수 있는 한 복제 작업을 중지했다가 시작해도 데이터가 손실되지 않습니다.

콘솔

  1. Cloud Data Fusion 인스턴스 페이지(CDAP에서 인스턴스 보기 클릭)로 이동하여 파이프라인을 중지해야 하는 인스턴스를 엽니다.

    인스턴스로 이동

  2. Pipeline Studio에서 각 실시간 파이프라인을 열고 중지를 클릭합니다.

  3. 복제 페이지에서 각 복제 작업을 열고 중지를 클릭합니다.

REST API

  • 모든 파이프라인을 검색하려면 다음 REST API 호출을 사용합니다.

    GET -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps"
    

    NAMESPACE_ID를 네임스페이스의 이름으로 바꿉니다.

  • 실시간 파이프라인을 중지하려면 다음 REST API 호출을 사용합니다.

    POST -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/PIPELINE_NAME/spark/DataStreamsSparkStreaming/stop"
    

    NAMESPACE_ID를 네임스페이스 이름으로 바꾸고 PIPELINE_NAME을 실시간 파이프라인 이름으로 바꿉니다.

  • 복제 작업을 중지하려면 다음 REST API 호출을 사용합니다.

    POST -H "Authorization: Bearer ${AUTH_TOKEN}" \
    "${CDAP_ENDPOINT}/v3/namespaces/NAMESPACE_ID/apps/REPLICATION_JOB_NAME/workers/DeltaWorker/stop"
    

    NAMESPACE_ID를 네임스페이스 이름으로 바꾸고 REPLICATION_JOB_NAME을 복제 작업 이름으로 바꿉니다.

    자세한 내용은 실시간 파이프라인 중지복제 작업 중지를 참조하세요.

Cloud Data Fusion에서 Dataproc 기본 버전을 확인하고 재정의하기

  1. Google Cloud Console에서 인스턴스 페이지(CDAP에서 인스턴스 보기 클릭)로 이동하고 인스턴스를 엽니다.

    인스턴스로 이동

  2. 시스템 관리자 > 구성 > 시스템 환경설정을 클릭합니다.

    시스템 환경설정 수정

  3. 시스템 환경설정에 Dataproc 이미지가 지정되지 않았거나 환경설정을 변경하려면 시스템 환경설정 수정을 클릭합니다.

    1. 필드에 다음 텍스트를 입력합니다.

      system.profile.properties.imageVersion

    2. 값 필드에 원하는 Dataproc 이미지를 입력합니다(예: 1.5-debian10).

    3. 저장 후 닫기를 클릭합니다.

시스템 환경설정 설정

이 변경사항은 인스턴스의 네임스페이스, 파이프라인 또는 런타임 인수에서 이미지 버전 속성을 재정의하지 않는 한 모든 네임스페이스 및 파이프라인 실행을 포함한 전체 Cloud Data Fusion 인스턴스에 영향을 줍니다.

네임스페이스 또는 파이프라인 런타임 인수에서 Dataproc 이미지 버전 변경

네임스페이스 환경설정 또는 파이프라인 런타임 인수에서 Dataproc 이미지 버전을 재정의하지 않은 경우 다음 단계를 건너뛸 수 있습니다.

네임스페이스 환경설정

네임스페이스 속성에서 이미지 버전을 재정의한 경우 다음 단계를 따르세요.

  1. Cloud Data Fusion UI에서 인스턴스를 엽니다.

  2. 시스템 관리자 > 구성 > 네임스페이스를 클릭합니다.

  3. 각 네임스페이스를 열고 환경설정을 클릭합니다.

    1. 잘못된 이미지 버전 값이 있는 system.profile.properties.imageVersion 키를 사용하여 재정의하지 않도록 합니다.

    2. 마침을 클릭합니다.

파이프라인 런타임 인수

파이프라인의 런타임 인수에서 속성으로 이미지 버전을 재정의한 경우 다음 단계를 따르세요.

  1. Cloud Data Fusion UI에서 인스턴스를 엽니다.

  2. 파이프라인 > 목록을 클릭하고 원하는 파이프라인을 선택합니다.

    Pipeline Studio 페이지에서 파이프라인이 열립니다.

  3. 실행 옆에 있는 드롭다운 메뉴 를 클릭합니다.

    런타임 인수 창이 열립니다.

  4. system.profile.properties.imageVersion 키와 잘못된 이미지 버전 값으로 재정의되지 않았는지 확인합니다.

  5. 저장을 클릭합니다.

    파이프라인 런타임 인수 설정

Cloud Data Fusion에서 사용하는 정적 Dataproc 클러스터를 원하는 이미지 버전으로 다시 만들기

기존 Dataproc 클러스터를 Cloud Data Fusion과 함께 사용하는 경우 Dataproc 가이드에 따라 Cloud Data Fusion 버전에 대해 원하는 Dataproc 이미지 버전으로 클러스터를 다시 만듭니다.

클러스터를 다시 만들 때 실행 중인 파이프라인이 있는 경우 파이프라인은 실패합니다. 후속 실행은 다시 생성된 클러스터에서 실행되어야 합니다.

또는 원하는 Dataproc 이미지 버전으로 새 Dataproc 클러스터를 만들고 동일한 컴퓨팅 프로필 이름과 업데이트된 Dataproc 클러스터 이름으로 Cloud Data Fusion에서 컴퓨팅 프로필을 삭제하고 다시 만들 수 있습니다. 이렇게 하면 일괄 파이프라인을 실행하여 기존 클러스터에서 실행을 완료할 수 있고 새 파이프라인 실행은 새 Dataproc 클러스터에서 수행됩니다. 모든 파이프라인 실행이 완료된 것을 확인한 후 이전 Dataproc 클러스터를 삭제할 수 있습니다.

Dataproc 이미지 버전이 업데이트되었는지 확인

콘솔

  1. Google Cloud Console에서 Dataproc 클러스터 페이지로 이동합니다.

    클러스터로 이동

  2. 새 버전을 지정할 때 Cloud Data Fusion이 만든 새 클러스터의 클러스터 세부정보 페이지를 엽니다.

    이미지 버전 필드에는 Cloud Data Fusion에서 지정한 새 값이 있습니다.

REST API

  1. 메타데이터와 함께 클러스터 목록을 가져옵니다.

    GET -H "Authorization: Bearer ${AUTH_TOKEN}" \
    https://dataproc.googleapis.com/v1/projects/PROJECT_ID/regions/REGION_ID/clusters
    

    다음을 바꿉니다.

    • NAMESPACE_ID를 네임스페이스 이름으로 바꿉니다.
    • REGION_ID를 클러스터가 있는 리전 이름으로 바꿉니다.
  2. 파이프라인 이름(클러스터 이름)을 검색합니다.

  3. 해당 JSON 객체 아래에서 config > softwareConfig > imageVersion에 있는 이미지를 확인합니다.