Dataproc 클러스터에서 관리형 노트북 인스턴스 실행
이 페이지에서는 Dataproc 클러스터에서 관리형 노트북 인스턴스의 노트북 파일을 실행하는 방법을 보여줍니다.
시작하기 전에
- Sign in to your Google Cloud account. If you're new to Google Cloud, create an account to evaluate how our products perform in real-world scenarios. New customers also get $300 in free credits to run, test, and deploy workloads.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Notebooks and Dataproc APIs.
-
In the Google Cloud console, on the project selector page, select or create a Google Cloud project.
-
Make sure that billing is enabled for your Google Cloud project.
-
Enable the Notebooks and Dataproc APIs.
- 아직 관리형 노트북 인스턴스를 만들지 않은 경우 관리형 노트북 인스턴스를 만듭니다.
필요한 역할
Dataproc 서버리스 클러스터에서 노트북 파일을 실행하는 데 필요한 권한이 서비스 계정에 있는지 확인하려면 관리자에게 서비스 계정에 다음 IAM 역할을 부여해 달라고 요청하세요.
-
프로젝트에 대한 Dataproc 작업자(
roles/dataproc.worker
) -
dataproc.clusters.use
권한용 클러스터에 대한 권한 편집자(roles/dataproc.editor
)
역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.
이러한 사전 정의된 역할에는 Dataproc 서버리스 클러스터에서 노트북 파일을 실행하는 데 필요한 권한이 포함되어 있습니다. 필요한 정확한 권한을 보려면 필수 권한 섹션을 펼치세요.
필수 권한
Dataproc 서버리스 클러스터에서 노트북 파일을 실행하려면 다음 권한이 필요합니다.
-
dataproc.agents.create
-
dataproc.agents.delete
-
dataproc.agents.get
-
dataproc.agents.update
-
dataproc.tasks.lease
-
dataproc.tasks.listInvalidatedLeases
-
dataproc.tasks.reportStatus
-
dataproc.clusters.use
관리자는 커스텀 역할이나 다른 사전 정의된 역할을 사용하여 서비스 계정에 이러한 권한을 부여할 수도 있습니다.
Dataproc 클러스터 만들기
Dataproc 클러스터에서 관리형 노트북 인스턴스의 노트북 파일을 실행하려면 클러스터가 다음 기준을 충족해야 합니다.
클러스터의 구성요소 게이트웨이를 사용 설정해야 합니다.
클러스터에 Jupyter 구성요소가 있어야 합니다.
클러스터는 관리형 노트북 인스턴스와 동일한 리전에 있어야 합니다.
Dataproc 클러스터를 만들려면 Cloud Shell에서 또는 Google Cloud CLI가 설치된 다른 환경에서 다음 명령어를 입력합니다.
gcloud dataproc clusters create CLUSTER_NAME\ --region=REGION \ --enable-component-gateway \ --optional-components=JUPYTER
다음을 바꿉니다.
REGION
: 관리형 노트북 인스턴스의 Google Cloud 위치입니다.CLUSTER_NAME
: 새 클러스터의 이름입니다.
몇 분 후 Dataproc 클러스터를 사용할 수 있습니다. Dataproc 클러스터 만들기 자세히 알아보기
JupyterLab 열기
아직 관리형 노트북 인스턴스가 없는 경우 Dataproc 클러스터가 있는 리전과 동일한 리전에 관리형 노트북 인스턴스를 만듭니다.
Google Cloud Console에서 관리형 노트북 페이지로 이동합니다.
관리형 노트북 인스턴스 이름 옆에 있는 JupyterLab 열기를 클릭합니다.
Dataproc 클러스터에서 노트북 파일 실행
동일한 프로젝트 및 리전의 모든 관리형 노트북 인스턴스에서 Dataproc 클러스터의 노트북 파일을 실행할 수 있습니다.
새 노트북 파일 실행
관리형 노트북 인스턴스의 JupyterLab 인터페이스에서 파일 > 새로 만들기 > 노트북을 선택합니다.
Dataproc 클러스터에서 사용 가능한 커널이 커널 선택 메뉴에 표시되면 사용할 커널을 선택한 다음 선택을 클릭합니다.
새 노트북 파일이 열립니다.
새 노트북 파일에 코드를 추가하고 코드를 실행합니다.
노트북 파일을 만든 후 사용하려는 커널을 변경하려면 다음 섹션을 참조하세요.
기존 노트북 파일 실행
관리형 노트북 인스턴스의 JupyterLab 인터페이스에서
파일 브라우저 버튼을 클릭하고, 실행하려는 노트북 파일로 이동하고, 파일을 엽니다.커널 선택 대화상자를 열려면 노트북 파일의 커널 이름을 클릭합니다. 예를 들면 Python(로컬)입니다.
Dataproc 클러스터에서 커널을 선택하려면 끝부분에 클러스터 이름이 포함된 커널 이름을 선택합니다. 예를 들어
mycluster
라는 Dataproc 클러스터에서 PySpark 커널 이름은 PySpark on mycluster입니다.선택을 클릭하여 대화상자를 닫습니다.
이제 Dataproc 클러스터에서 노트북 파일의 코드를 실행할 수 있습니다.
다음 단계
- Dataproc 자세히 알아보기