BigQuery JupyterLab 플러그인 사용

이 기능에 대한 의견이나 지원을 요청하려면 bigquery-ide-plugin@google.com으로 이메일을 보내세요.

이 문서에서는 다음을 수행하기 위해 BigQuery JupyterLab 플러그인을 설치하고 사용하는 방법을 보여줍니다.

  • BigQuery 데이터를 탐색합니다.
  • BigQuery DataFrames API를 사용합니다.
  • BigQuery DataFrames 노트북을 Cloud Composer에 배포합니다.

BigQuery JupyterLab 플러그인에는 Dataproc Serverless 런타임 템플릿 만들기, 노트북 시작 및 관리, Apache Spark로 개발, 코드 배포, 리소스 관리 등 Dataproc JupyterLab 플러그인의 모든 기능이 포함되어 있습니다.

BigQuery JupyterLab 플러그인 설치

BigQuery JupyterLab 플러그인을 설치하고 사용하려면 다음 단계를 수행합니다.

  1. 로컬 터미널에서 시스템에 Python 3.8 이상이 설치되어 있는지 확인합니다.

    python3 --version
    
  2. gcloud CLI를 설치합니다.

  3. 로컬 터미널에서 gcloud CLI를 초기화합니다.

    gcloud init
    
  4. Python 가상 환경 도구인 Pipenv를 설치합니다.

    pip3 install pipenv
    
  5. 새 가상 환경을 만듭니다.

    pipenv shell
    
  6. 새 가상 환경에 JupyterLab을 설치합니다.

    pipenv install jupyterlab
    
  7. BigQuery JupyterLab 플러그인을 설치합니다.

    pipenv install bigquery-jupyter-plugin
    
  8. 설치된 JupyterLab 버전이 4.0.0보다 이전 버전인 경우 플러그인 확장 프로그램을 사용 설정합니다.

    jupyter server extension enable bigquery_jupyter_plugin
    
  9. JupyterLab을 실행합니다.

    jupyter lab
    

    JupyterLab은 브라우저에서 열립니다.

프로젝트 및 리전 설정 업데이트

기본적으로 세션은 gcloud init를 실행할 때 설정한 프로젝트 및 리전에서 실행됩니다. 세션의 프로젝트 및 리전 설정을 변경하려면 다음 안내를 따르세요.

  • JupyterLab 메뉴에서 설정 > Google BigQuery 설정을 클릭합니다.

변경사항을 적용하려면 플러그인을 다시 시작해야 합니다.

데이터 탐색

JupyterLab에서 BigQuery 데이터로 작업하려면 다음을 수행합니다.

  1. JupyterLab 사이드바에서 데이터 세트 탐색기 창을 엽니다. 데이터 세트 탐색기 아이콘 데이터 세트 아이콘을 클릭합니다.
  2. 프로젝트를 펼치려면 데이터 세트 탐색기 창에서 프로젝트 이름 옆에 있는 펼치기 화살표를 클릭합니다.

    데이터 세트 탐색기 창에는 펼쳐진 프로젝트와 데이터 세트 목록이 표시됩니다.

    데이터 세트 탐색기 창에는 세션에서 구성한 BigQuery 리전에 있는 프로젝트의 모든 데이터 세트가 표시됩니다. 다양한 방법으로 프로젝트 및 데이터 세트와 상호작용할 수 있습니다.

    • 데이터 세트에 대한 정보를 보려면 데이터 세트의 이름을 클릭합니다.
    • 데이터 세트의 모든 테이블을 표시하려면 데이터 세트 옆에 있는 펼치기 화살표를 클릭합니다.
    • 테이블에 대한 정보를 보려면 테이블의 이름을 클릭합니다.
    • 프로젝트 또는 BigQuery 리전을 변경하려면 설정을 업데이트합니다.

노트북 실행

JupyterLab에서 BigQuery 데이터를 쿼리하려면 다음을 수행합니다.

  1. 런처 페이지를 열려면 파일 > 새 런처를 클릭합니다.
  2. BigQuery 노트북 섹션에서 BigQuery DataFrames 카드를 클릭합니다. BigQuery DataFrames를 시작하는 방법을 보여주는 새 노트북이 열립니다.

BigQuery DataFrames 노트북은 로컬 Python 커널에서 Python 개발을 지원합니다. BigQuery DataFrames 작업은 BigQuery에서 원격으로 실행되지만 나머지 코드는 머신에서 로컬로 실행됩니다. BigQuery에서 작업이 실행되면 쿼리 작업 ID와 작업 링크가 코드 셀 아래에 표시됩니다.

  • Google Cloud 콘솔에서 작업을 보려면 작업 열기를 클릭합니다.

BigQuery DataFrames 노트북 배포

Dataproc Serverless 런타임 템플릿을 사용하여 BigQuery DataFrames 노트북을 Cloud Composer에 배포할 수 있습니다. 런타임 버전 2.1 이상을 사용해야 합니다.

  1. JupyterLab 노트북에서 calendar_month작업 스케줄러를 클릭합니다.
  2. 작업 이름에 작업의 고유한 이름을 입력합니다.
  3. 환경에 작업을 배포할 Cloud Composer 환경의 이름을 입력합니다.
  4. 노트북이 매개변수화된 경우 매개변수를 추가합니다.
  5. 서버리스 런타임 템플릿의 이름을 입력합니다.
  6. 노트북 실행 실패를 처리하려면 재시도 횟수에 정수를, 재시도 지연에 값(분)을 입력합니다.
  7. 전송할 실행 알림을 선택한 후 수신자를 입력합니다.

    알림은 Airflow SMTP 구성을 사용하여 전송됩니다.

  8. 노트북 일정을 선택합니다.

  9. 만들기를 클릭합니다.

노트북을 성공적으로 예약하면 선택한 Cloud Composer 환경의 예약된 작업 목록에 표시됩니다.

다음 단계