Dataproc Hub 사용


목표

  1. Dataproc Hub를 사용하여 Dataproc 클러스터에서 실행되는 단일 사용자 JupyterLab 노트북 환경을 만듭니다.

  2. 메모장 만들기 및 Dataproc 클러스터에서 Spark 작업 실행하기

  3. 클러스터 삭제 및 Cloud Storage에 메모장 보존하기

시작하기 전에

  1. 관리자는 notebooks.instances.use 권한을 부여해야 합니다(Identity and Access Management(IAM) 역할 설정 참조).

Dataproc Hub에서 Dataproc JupyterLab 클러스터 만들기

  1. Google Cloud 콘솔의 Dataproc→Workbench 페이지에서 사용자 관리 노트북 탭을 선택합니다.

  2. 관리자가 만든 Dataproc Hub 인스턴스가 나열된 행에서 JupyterLab 열기를 클릭합니다.

    1. Google Cloud 콘솔에 액세스할 수 없으면 관리자가 공유한 Dataproc Hub 인스턴스 URL을 웹브라우저에 입력합니다.
  3. Jupyterhub→Dataproc 옵션 페이지에서 클러스터 구성과 영역을 선택합니다. 사용 설정되면 맞춤설정을 지정한 후 만들기를 클릭합니다.

    Dataproc 클러스터가 생성되면 클러스터에서 실행 중인 JupyterLab 인터페이스로 리디렉션됩니다.

메모장 만들기 및 Spark 작업 실행

  1. JupyterLab 인터페이스 왼쪽 패널에서 GCS(Cloud Storage)를 클릭합니다.

  2. JupyterLab 런처에서 PySpark 노트북을 만듭니다.

  3. PySpark 커널은 SparkContext를 초기화합니다(sc 변수 사용). SparkContext를 검사하고 메모장에서 Spark 작업을 실행할 수 있습니다.

    rdd = (sc.parallelize(['lorem', 'ipsum', 'dolor', 'sit', 'amet', 'lorem'])
           .map(lambda word: (word, 1))
           .reduceByKey(lambda a, b: a + b))
    print(rdd.collect())
    
  4. 메모장의 이름을 지정하고 저장합니다. 메모장은 Dataproc 클러스터가 삭제된 후에도 Cloud Storage에 저장되고 유지됩니다.

Dataproc 클러스터 종료

  1. JupyterLab 인터페이스에서 파일→Hub 제어판을 선택하여 Jupyterhub 페이지를 엽니다.

  2. 내 클러스터 중지를 클릭하여 Dataproc 클러스터를 삭제하는 JupyterLab 서버를 종료(삭제)합니다.

다음 단계