Dataproc Hub 개요

Dataproc Hub를 사용하면 Vertex AI Workbench 및 Dataproc을 활용하여 Jupyter 노트북, Hadoop 및 Spark 생태계를 사용한 대화형 ML 및 데이터 처리 태스크를 대규모로 실행할 수 있습니다.

Dataproc Hub 노트북은 관리자가 조정하는 단일 사용자 노트북이며 생성된 Dataproc JupyterLab 클러스터와 사용자 프로젝트에서 실행됩니다.

  • Dataproc Hub는 JupyterHub를 활용하여 다음을 수행합니다.

    • 관리자가 다양한 데이터 그룹 및 ML 사용자 그룹용으로 선별된 노트북 템플릿 목록을 만드는 것이 가능하므로 조직에 일관성을 유지할 수 있습니다.
    • 데이터 및 ML 사용자에게 소프트웨어 및 하드웨어 요구사항에 맞춰 사전 구성된 환경을 제공하여 메모장 만들기를 가속화합니다.
  • Dataproc Hub는 관리자와 사용자를 위한 개별 인터페이스를 제공합니다.

    • 관리자가 Google Cloud 콘솔에서 Dataproc→Workbench→사용자 관리 노트북 페이지를 사용하여 Dataproc Hub 인스턴스를 만듭니다. 각 허브 인스턴스에는 YAML 클러스터 구성 파일로 정의된 사전 정의된 노트북 환경 집합이 포함됩니다.
    • 데이터 및 ML 사용자는 Google Cloud 콘솔에서 노트북→인스턴스 UI를 사용하여 사전 정의된 메모장 환경을 선택하여 Dataproc 클러스터에 메모장 서버를 생성합니다.
      • 콘솔 액세스 권한이 없는 사용자는 관리자가 제공한 Dataproc Hub 인스턴스 URL을 사용하여 웹 브라우저에서 Dataproc Hub 인스턴스에 액세스하여 Dataproc 클러스터를 생성할 수 있습니다.
  • Dataproc Hub 사용 사례:

    • 데이터 및 ML 사용자는 공통 소프트웨어 및 하드웨어 요구사항을 갖춘 그룹으로 구성됩니다(사용자를 여러 그룹에 배치 가능).
    • 제한된 Dataproc 콘솔 액세스: 사용자는 Google Cloud 콘솔에서 Dataproc에 액세스할 수 없습니다.
  • Dataproc Hub 기능:

    • 사전 정의된 사용자 환경
    • 클러스터 및 메모장 격리: 그룹 구성원은 다른 그룹 구성원의 클러스터 및 메모장에 쉽게 액세스할 수 없습니다.

추가 정보