Dataproc Jupyter 구성요소

선택적 구성요소 기능을 사용하여 Dataproc 클러스터를 만들 때 추가 구성요소를 설치할 수 있습니다. 이 페이지에서는 Jupyter 구성요소에 대해 설명합니다.

Jupyter 구성요소는 대화형 데이터 분석을 위한 웹 기반 메모장이며 JupyterLab 웹 UI를 지원합니다. Jupyter 웹 UI는 클러스터의 첫 번째 마스터 노드에 있는 포트 8123에서 사용할 수 있습니다.

Jupyter 메모장은 Spark 코드를 실행하는 Python 커널과 PySpark 커널을 제공합니다. 기본적으로 메모장은 사용자가 지정하거나 클러스터를 만들 때 자동 생성되는 Cloud Dataproc 스테이징 버킷의 Cloud Storage에 저장됩니다. 위치는 클러스터 생성 시 dataproc:jupyter.notebook.gcs.dir 속성을 통해 변경할 수 있습니다.

Jupyter 및 Anaconda 설치

Dataproc 클러스터를 만들 때 구성요소를 설치합니다. 구성요소는 Dataproc 버전 1.3 이상으로 만든 클러스터에 추가할 수 있습니다. Jupyter 구성요소를 사용하려면 Anaconda 구성요소가 설치되어 있어야 합니다(아래 gcloud 명령줄 도구 예시 참조).

각 Dataproc 이미지 출시에 포함된 구성요소 버전은 지원되는 Dataproc 버전을 참조하세요.

gcloud 명령어

Jupyter 구성요소가 포함된 Dataproc 클러스터를 만들려면 gcloud dataproc clusters create cluster-name 명령어를 --optional-components 플래그와 함께 사용합니다.

gcloud dataproc clusters create cluster-name \
    --optional-components=ANACONDA,JUPYTER \
    --region=region \
    --enable-component-gateway \
    ... other flags

REST API

Jupyter 및 Anaconda 구성요소는 SoftwareConfig.Componentclusters.create 요청에 사용하여 Dataproc API를 통해 지정할 수 있습니다.

콘솔

  1. 구성요소를 사용 설정합니다.
    • Cloud Console에서 Dataproc 클러스터 만들기 페이지를 엽니다. 페이지 하단에서 '고급 옵션'을 클릭하여 선택적 구성요소 섹션을 확인합니다.

    • '구성요소 선택'을 클릭하여 선택적 구성요소 선택 패널을 엽니다. 클러스터에 설치할 'Anaconda' 및 'Jupyter Notebook'과 기타 선택적 구성요소를 선택합니다.

  2. Google Cloud Console에서 Jupyter 메모장 및 기타 구성요소 웹 인터페이스에 쉽게 액세스할 수 있도록 구성요소 게이트웨이를 사용 설정합니다(이미지 버전 1.3.29 이상 필요)(구성요소 게이트웨이 URL 보기 및 액세스 참조).
    • 클러스터 만들기 양식에서 구성요소 게이트웨이 체크박스를 선택합니다.

Jupyter 및 JupyterLab UI 열기

로컬 브라우저에서 클러스터의 마스터 노드에서 실행되는 Jupyter 메모장과 JupyterLab UI를 열려면 Cloud Console 구성요소 게이트웨이 링크를 클릭합니다.

마스터 노드 또는 워커 노드에 GPU 연결

Jupyter 메모장을 사용하여 클러스터의 마스터 및 워커 노드에 GPU를 추가할 수 있습니다.

  1. Spark에서 데이터를 사전 처리한 다음 마스터에 DataFrame을 수집하고 TensorFlow를 실행합니다.
  2. Spark를 사용하여 TensorFlow 실행을 동시에 조정하기
  3. Tensorflow-on-YARN 실행하기
  4. GPU를 사용하는 다른 머신 러닝 시나리오에서 사용하기