주요 개념 및 구성요소

이 페이지는 Cloud Datalab의 주요 개념 및 구성요소 세부정보를 설명합니다. 추가 개요 문서는 Cloud Datalab datalab/docs/notebooks/intro 메모장 디렉터리에서 확인할 수 있습니다.

Cloud Datalab과 메모장

Cloud Datalab은 컨테이너로 패키징되어 가상 머신(VM) 인스턴스에서 실행됩니다. 빠른 시작은 VM 생성, 해당 VM에서 컨테이너 실행 및 브라우저와 Cloud Datalab 컨테이너 간 연결 설정 방법을 설명합니다.이를 통해 기존 Cloud Datalab 메모장을 열고 새 메모장을 만들 수 있습니다. /docs/intro 디렉터리의 메모장 소개를 읽고 메모장이 어떻게 구성되고 실행되는지 알아보세요.

Cloud Datalab은 코드가 포함된 텍스트 파일 대신 메모장을 사용합니다. 메모장에는 코드, 마크다운으로 작성된 문서 그리고 텍스트, 이미지 또는 HTML/자바스크립트 여부에 관계없이 코드 실행 결과가 합쳐집니다. 코드 편집자 또는 IDE와 마찬가지로 메모장을 사용하여 코드를 작성할 수 있고 코드를 대화형으로 반복 실행하여 코드와 함께 결과를 렌더링할 수 있습니다. 또한 팀원과 메모장을 공유하는 경우 코드, 마크다운 형식의 문서, 대화형 차트가 포함된 결과를 포함하여 Python 또는 SQL 코드 파일 제공 이상의 컨텍스트를 제공할 수 있습니다.

Cloud Datalab 메모장을 git 저장소인 Google Cloud Source Repository에 저장할 수 있습니다. 이 git 저장소는 VM에 연결된 영구 디스크에 클론됩니다. 이 클론은 파일을 추가, 삭제, 수정할 수 있는 작업공간이 됩니다. 작업을 저장소의 다른 사용자와 공유하려면 git 클라이언트를 사용하여 변경 사항을 커밋하여 이 로컬 작업공간에서의 변경 사항을 저장소로 푸시합니다. 메모장은 자동으로 영구 디스크에 정기적으로 자동 저장되므로, 원할 때 언제든지 저장할 수 있습니다. 영구 디스크를 삭제하면 명시적으로 git 저장소에 푸시되지 않은 메모장이 손실될 수 있습니다. 따라서 절대로 영구 디스크를 삭제하지 않는 것이 좋습니다.

메모장을 열면 백엔드 '커널' 프로세스가 시작되어 세션 중에 정의된 변수를 관리하고 메모장 코드를 실행할 수 있습니다. 실행된 코드는 BigQuery 또는 Google Machine Learning Engine과 같은 Google Cloud 서비스에 액세스 할 때 VM에서 사용 가능한 서비스 계정을 사용합니다. 따라서 데이터에 액세스하거나 서비스를 요청하려면 서비스 계정이 승인되아야 합니다. 클라우드 프로젝트와 서비스 계정 이름을 표시하려면 Cloud Datalab 메모장 또는 브라우저의 메모장 등록 페이지 오른쪽 상단 모서리에 있는 사용자 아이콘 user-icon을 클릭합니다(브라우저 창 크기를 조정해야 할 수도 있음). Cloud Datalab을 실행하는 데 사용되는 VM은 연결된 클라우드 프로젝트의 모든 구성원이 액세스할 수 있는 공유 리소스입니다. 따라서 개인의 클라우드 사용자 인증 정보를 사용하여 데이터에 액세스하지 않는 것이 좋습니다.

메모장에서 코드를 실행하면 코드를 실행하는 프로세스 상태가 변경됩니다. 변수를 할당 또는 재할당하면 부작용으로 해당 값이 후속 계산에 사용됩니다. 실행 중인 각 메모장은 Cloud Datalab에서 하나의 세션으로 표시됩니다. Cloud Datalab 메모장 등록 페이지의 세션 아이콘 session-icon을 클릭하여 세션을 나열 및 중지할 수 있습니다. 세션이 실행되는 동안 기본 프로세스는 메모리 리소스를 사용합니다. 세션을 중지하면 기본 프로세스가 메모리 내 상태와 함께 사라지고 세션에서 사용하는 메모리가 해제됩니다. 메모장에 저장된 결과는 디스크에 영구 형식으로 보존됩니다.

Cloud Datalab 사용 시나리오

Cloud Datalab은 Google Cloud Platform용으로 설계된 대화형 데이터 분석 및 머신러닝 환경이며, 대화식으로 데이터를 탐색, 분석, 변환, 시각화하고 데이터에서 머신러닝 모델을 빌드하는 데 사용될 수 있습니다. Cloud Datalab /docs 폴더에는 수행 가능한 몇 가지 작업을 보여주는 다양한 가이드와 샘플이 있습니다. Cloud Datalab에는 일반적으로 데이터 분석, 시각화, 머신러닝에 사용되는 오픈소스 Python 라이브러리 세트가 포함되어 있습니다. 또한 Google BigQuery, Google Machine Learning Engine, Google Dataflow, Google Cloud Storage와 같은 Google Cloud Platform 주요 서비스에 액세스하기 위한 라이브러리가 추가되어 있습니다. 자세한 내용은 포함된 라이브러리를 참조하세요.

Python 라이브러리 정보는 pydatalab 참조 문서를 참조하세요.

다음은 시작하기 위한 몇 가지 팁입니다.

  • BigQuery에서 데이터를 탐색하기 위한 몇 가지 SQL 쿼리를 작성합니다. 결과를 데이터 프레임에 넣고 히스토그램 또는 선 차트로 시각화합니다.
  • Google Cloud Storage의 CSV 파일에서 데이터를 읽고 데이터 프레임에 넣으면 Python을 사용하여 평균, 표준 편차, 분위수와 같은 통계 측정 값을 계산할 수 있습니다.
  • TensorFlow 또는 scikit-learn 모델을 사용하여 결과를 예측하거나 데이터를 분류할 수 있습니다.

포함된 라이브러리

다음은 Cloud Datalab 메모장에 포함되어 있고 사용할 수 있는 라이브러리 목록입니다(라이브러리 목록 및 버전 정보는 변경될 수 있음).

Conda와 함께 설치됨:

crcmod at version 1.7
dask at version 0.17.1
dill at version 0.2.6
future at version 0.16.0
futures at version 3.2.0
google-api-python-client at version 1.6.2
httplib2 at version 0.10.3
h5py at version 2.7.1
ipykernel at version 4.8.2
ipywidgets at version 7.2.1
jinja2 at version 2.8
jsonschema at version 2.6.0
matplotlib at version 2.1.2
mock at version 2.0.0
nltk at version 3.2.1
numpy at version 1.14.0
oauth2client at version 2.2.0
pandas-gbq at version 0.3.0
pandas at version 0.22.0
pandocfilters at version 1.4.2
pillow at version 5.0.0
pip at version 18.1
plotly at version 1.12.5
psutil at version 4.3.0
pygments at version 2.1.3
python-dateutil at version 2.5.0
python-snappy at version 0.5.1
pytz at version 2018.4
pyzmq at version 17.1.0
requests at version 2.18.4
scikit-image at version 0.13.0
scikit-learn at version 0.19.1
scipy at version 1.0.0
seaborn at version 0.7.0
six at version 1.11.0
statsmodels at version 0.8.0
sympy at version 0.7.6.1
tornado at version 4.5.1
widgetsnbextension at version 3.2.1
xgboost at version 0.6a2

pip와 함께 설치됨:

apache-airflow at version 1.9.0
apache-beam[gcp] at version 2.7.0
bs4 at version 0.0.1
ggplot at version 0.6.8
google-cloud-monitoring at version 0.28.0
lime at version 0.1.1.23
protobuf at version 3.5.2
tensorflow at version 1.8.0

future, futures, apache-beam\[gcp\]은 Python 2 커널에만 설치되고 notebook은 Python 3 커널에만 설치됩니다.