Dataproc 클러스터에서 관리형 노트북 인스턴스 실행

이 페이지에서는 Dataproc 클러스터에서 관리형 노트북 인스턴스의 노트북 파일을 실행하는 방법을 보여줍니다.

시작하기 전에

  1. Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
  2. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  3. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

  4. Enable the Notebooks and Dataproc APIs.

    Enable the APIs

  5. In the Google Cloud console, on the project selector page, select or create a Google Cloud project.

    Go to project selector

  6. Google Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다.

  7. Enable the Notebooks and Dataproc APIs.

    Enable the APIs

  8. 아직 관리형 노트북 인스턴스를 만들지 않은 경우 관리형 노트북 인스턴스를 만듭니다.

필요한 역할

Dataproc 서버리스 클러스터에서 노트북 파일을 실행하는 데 필요한 권한이 서비스 계정에 있는지 확인하려면 관리자에게 서비스 계정에 다음 IAM 역할을 부여해 달라고 요청하세요.

역할 부여에 대한 자세한 내용은 프로젝트, 폴더, 조직에 대한 액세스 관리를 참조하세요.

이러한 사전 정의된 역할에는 Dataproc 서버리스 클러스터에서 노트북 파일을 실행하는 데 필요한 권한이 포함되어 있습니다. 필요한 정확한 권한을 보려면 필수 권한 섹션을 펼치세요.

필수 권한

Dataproc 서버리스 클러스터에서 노트북 파일을 실행하려면 다음 권한이 필요합니다.

  • dataproc.agents.create
  • dataproc.agents.delete
  • dataproc.agents.get
  • dataproc.agents.update
  • dataproc.tasks.lease
  • dataproc.tasks.listInvalidatedLeases
  • dataproc.tasks.reportStatus
  • dataproc.clusters.use

관리자는 커스텀 역할이나 다른 사전 정의된 역할을 사용하여 서비스 계정에 이러한 권한을 부여할 수도 있습니다.

Dataproc 클러스터 만들기

Dataproc 클러스터에서 관리형 노트북 인스턴스의 노트북 파일을 실행하려면 클러스터가 다음 기준을 충족해야 합니다.

  • 클러스터의 구성요소 게이트웨이를 사용 설정해야 합니다.

  • 클러스터에 Jupyter 구성요소가 있어야 합니다.

  • 클러스터는 관리형 노트북 인스턴스와 동일한 리전에 있어야 합니다.

Dataproc 클러스터를 만들려면 Cloud Shell에서 또는 Google Cloud CLI가 설치된 다른 환경에서 다음 명령어를 입력합니다.

gcloud dataproc clusters create CLUSTER_NAME\
    --region=REGION \
    --enable-component-gateway \
    --optional-components=JUPYTER

다음을 바꿉니다.

  • REGION: 관리형 노트북 인스턴스의 Google Cloud 위치입니다.

  • CLUSTER_NAME: 새 클러스터의 이름입니다.

몇 분 후 Dataproc 클러스터를 사용할 수 있습니다. Dataproc 클러스터 만들기 자세히 알아보기

JupyterLab 열기

  1. 아직 관리형 노트북 인스턴스가 없는 경우 Dataproc 클러스터가 있는 리전과 동일한 리전에 관리형 노트북 인스턴스를 만듭니다.

  2. Google Cloud Console에서 관리형 노트북 페이지로 이동합니다.

    관리형 노트북으로 이동

  3. 관리형 노트북 인스턴스 이름 옆에 있는 JupyterLab 열기를 클릭합니다.

Dataproc 클러스터에서 노트북 파일 실행

동일한 프로젝트 및 리전의 모든 관리형 노트북 인스턴스에서 Dataproc 클러스터의 노트북 파일을 실행할 수 있습니다.

새 노트북 파일 실행

  1. 관리형 노트북 인스턴스의 JupyterLab 인터페이스에서 파일 > 새로 만들기 > 노트북을 선택합니다.

  2. Dataproc 클러스터에서 사용 가능한 커널이 커널 선택 메뉴에 표시되면 사용할 커널을 선택한 다음 선택을 클릭합니다.

    새 노트북 파일이 열립니다.

  3. 새 노트북 파일에 코드를 추가하고 코드를 실행합니다.

노트북 파일을 만든 후 사용하려는 커널을 변경하려면 다음 섹션을 참조하세요.

기존 노트북 파일 실행

  1. 관리형 노트북 인스턴스의 JupyterLab 인터페이스에서  파일 브라우저 버튼을 클릭하고, 실행하려는 노트북 파일로 이동하고, 파일을 엽니다.

  2. 커널 선택 대화상자를 열려면 노트북 파일의 커널 이름을 클릭합니다. 예를 들면 Python(로컬)입니다.

  3. Dataproc 클러스터에서 커널을 선택하려면 끝부분에 클러스터 이름이 포함된 커널 이름을 선택합니다. 예를 들어 mycluster라는 Dataproc 클러스터에서 PySpark 커널 이름은 PySpark on mycluster입니다.

  4. 선택을 클릭하여 대화상자를 닫습니다.

    이제 Dataproc 클러스터에서 노트북 파일의 코드를 실행할 수 있습니다.

다음 단계