Cloud TPU에서 NCF 학습(TF 2.x)

개요

이는 신경망 협업 필터링 자료에 설명된 신경망 행렬 분해(NeuMF) 모델을 사용하는 신경망 협업 필터링(NCF) 프레임워크의 구현입니다. 현재 구현은 작성자의 NCF 코드 및 MLPerf 저장소에 있는 스탠퍼드 구현을 기반으로 합니다.

NCF는 사용자 항목 상호작용을 모델링하는 데 신경망 아키텍처가 사용되는 추천의 협업 필터링을 위한 일반 프레임워크입니다. 기존 모델과 달리 NCF는 사용자 및 항목의 잠재 특성에 내부 제품이 포함된 행렬 분해(MF)를 사용하지 않습니다. 내부 제품을 데이터로부터 임의의 기능을 학습할 수 있는 멀티 레이어 퍼셉트론으로 대체합니다.

NCF의 두 가지 구현에는 일반화 행렬 분해(GMF)와 멀티 레이어 퍼셉트론(MLP)이 있습니다. GMF는 선형 커널을 적용하여 잠재 특성 상호작용을 모델링하고 MLP는 비선형 커널을 사용하여 데이터에서 상호작용 함수를 학습합니다. NeutMF는 GMF 및 MLP의 융합 모델로서 복잡한 사용자 항목 상호작용을 더 효과적으로 모델링하고 MF의 비선형성 및 MLP의 비선형성을 통합하여 사용자 항목 잠재 구조를 모델링합니다. NegaMF에서는 GMF 및 MLP가 별도의 임베딩을 학습하고 마지막 히든 레이어를 연결하여 두 모델을 결합합니다. neum_model.py는 아키텍처 세부정보를 정의합니다.

아래에 안내되어 있는 내용은 개발자가 Cloud TPU에서 모델을 익숙하게 학습할 수 있다고 가정합니다. Cloud TPU를 처음 사용한다면 빠른 시작에서 기본적인 정보를 먼저 살펴보세요.

데이터 세트

MovieLens 데이터 세트는 모델 학습 및 평가에 사용됩니다. 구체적으로는 두 개의 데이터 세트, ml-1m(MovieLens 1백만 개)과 ml-20m(MovieLens 2천만 개)을 사용합니다.

ml-1m

ml-1m 데이터 세트에는 2000년에 MovieLens에 조인한 6,040명의 사용자가 약 3,706개의 영화에 대해 작성한 1,000,209개의 익명 평가가 포함되어 있습니다. 모든 평점은 헤더 행 없이 'ratings.dat' 파일에 포함되며 다음 형식으로 표시됩니다.

UserID::MovieID::Rating::Timestamp

  • UserID의 범위는 1에서 6040 사이입니다.
  • MovieID의 범위는 1에서 3952 사이입니다.
  • 평점은 별 5개 등급(꽉 찬 별표만 사용)으로 평가됩니다.

ml-20m

ml-20m 데이터 세트에는 138493명의 사용자가 26,744편의 영화에 대해 작성한 20,000,263개의 평점이 포함되어 있습니다. 모든 평점은 'ratings.csv' 파일에 포함되어 있습니다. 헤더 행 다음에 있는 이 파일의 각 줄은 사용자 한 명이 한 편의 영화에 대해 작성한 평점 한 개를 나타내며 다음과 같은 형식으로 표시됩니다.

userId,movieId,rating,timestamp

이 파일 내 줄은 먼저 userId로 정렬되며 사용자 내에서는 movieId로 정렬됩니다. 평점은 별표 반 개씩 증가하는 별 5개 등급(별표 0.5개 - 별표 5.0개)으로 평가됩니다. 두 데이터 세트 모두에서 타임스탬프는 1970년 1월 1일 자정 협정 세계시(UTC) 이후 초 단위로 표시됩니다. 각 사용자당 20개 이상의 평가가 있습니다.

목표

  • 데이터 세트와 모델 출력을 저장할 Cloud Storage 버킷을 만듭니다.
  • MovieLens 데이터 세트 준비
  • 학습과 평가를 위한 Compute Engine VM과 Cloud TPU 노드 설정
  • 학습 및 평가를 실행합니다.

비용

이 가이드에서는 비용이 청구될 수 있는 다음과 같은 Google Cloud 구성요소를 사용합니다.

  • Compute Engine
  • Cloud TPU
  • Cloud Storage

가격 계산기를 사용하면 예상 사용량을 기준으로 예상 비용을 산출할 수 있습니다. Google Cloud를 처음 사용하는 사용자는 무료 체험판을 사용할 수 있습니다.

시작하기 전에

이 가이드를 시작하기 전에 Google Cloud 프로젝트가 올바르게 설정되었는지 확인하세요.

  1. Google Cloud 계정에 로그인합니다. Google Cloud를 처음 사용하는 경우 계정을 만들고 Google 제품의 실제 성능을 평가해 보세요. 신규 고객에게는 워크로드를 실행, 테스트, 배포하는 데 사용할 수 있는 $300의 무료 크레딧이 제공됩니다.
  2. Google Cloud Console의 프로젝트 선택기 페이지에서 Google Cloud 프로젝트를 선택하거나 만듭니다.

    프로젝트 선택기로 이동

  3. Cloud 프로젝트에 결제가 사용 설정되어 있는지 확인합니다. 프로젝트에 결제가 사용 설정되어 있는지 확인하는 방법을 알아보세요.

  4. 이 둘러보기에서는 비용이 청구될 수 있는 Google Cloud 구성요소를 사용합니다. 예상 비용은 Cloud TPU 가격 책정 페이지에서 확인하세요. 리소스 사용을 마쳤으면 불필요한 비용이 청구되지 않도록 생성한 리소스를 삭제하세요.

리소스 설정

이 섹션에서는 이 가이드에 사용할 Cloud Storage, VM, Cloud TPU 리소스 설정에 대한 정보를 제공합니다.

  1. Cloud Shell 창을 엽니다.

    Cloud Shell 열기

  2. 프로젝트 ID의 환경 변수를 만듭니다.

    export PROJECT_ID=project-id
  3. Cloud TPU를 만들려는 프로젝트를 사용하도록 gcloud 명령줄 도구를 구성합니다.

    gcloud config set project ${PROJECT_ID}
    

    새 Cloud Shell VM에서 이 명령어를 처음 실행하면 Authorize Cloud Shell 페이지가 표시됩니다. 페이지 하단에서 Authorize를 클릭하여 gcloud가 사용자 인증 정보로 GCP API 호출을 수행하도록 허용합니다.

  4. Cloud TPU 프로젝트의 서비스 계정을 만듭니다.

    gcloud beta services identity create --service tpu.googleapis.com --project $PROJECT_ID
    

    이 명령어는 다음 형식의 Cloud TPU 서비스 계정을 반환합니다.

    service-PROJECT_NUMBER@cloud-tpu.iam.gserviceaccount.com
    
  5. 다음 명령어를 사용하여 Cloud Storage 버킷을 만듭니다.

    gsutil mb -p ${PROJECT_ID} -c standard -l europe-west4 -b on gs://bucket-name
    

    이 Cloud Storage 버킷은 사용자가 모델 및 학습 결과를 학습시키기 위해 사용하는 데이터를 저장합니다. 이 가이드에서 사용하는 ctpu up 도구는 이전 단계에서 설정한 Cloud TPU 서비스 계정에 대한 기본 권한을 설정합니다. 권한을 더 세분화해야 하는 경우 액세스 수준 권한을 참조하세요.

    버킷 위치는 가상 머신(VM) 및 TPU 노드와 동일한 리전에 있어야 합니다. VM 및 TPU 노드는 리전 내 구획인 특정 영역에 있습니다.

  6. ctpu up 명령어를 사용하여 Compute Engine VM을 실행합니다.

    $ ctpu up --project=${PROJECT_ID} \
     --zone=europe-west4-a \
     --vm-only \
     --disk-size-gb=300 \
     --machine-type=n1-standard-8 \
     --name=ncf-tutorial \
     --tf-version=2.5.0
    

    명령어 플래그 설명

    project
    GCP 프로젝트 ID
    zone
    Cloud TPU를 생성하려는 영역입니다.
    vm-only
    VM만 만듭니다. 기본적으로 ctpu up 명령어는 VM과 Cloud TPU를 생성합니다.
    disk-size-gb
    VM의 디스크 크기(GB)입니다.
    machine_type
    ctpu up 명령어로 만든 VM의 머신 유형입니다.
    name
    생성할 Compute Engine VM의 이름입니다.
    tf-version
    Tensorflow ctpu 버전이 VM에 설치됩니다.
  7. 설정한 구성이 표시됩니다. 승인하려면 y를, 취소하려면 n을 누릅니다.

  8. ctpu up 명령어 실행이 끝나면 셸 프롬프트가 username@projectname에서 username@vm-name으로 변경되었는지 확인합니다. 변경되었다면 Compute Engine VM에 로그인되었다는 의미입니다.

    gcloud compute ssh ncf-tutorial --zone=europe-west4-a
    

    안내를 계속 따르면서 (vm)$으로 시작하는 각 명령어를 VM 세션 창에서 실행합니다.

데이터 준비

  1. 스토리지 버킷의 환경 변수를 추가합니다. 여기에서 bucket-name을 내 버킷 이름으로 바꿉니다.

    (vm)$ export STORAGE_BUCKET=gs://bucket-name
    
  2. 데이터 디렉터리에 환경 변수를 추가합니다.

    (vm)$ export DATA_DIR=${STORAGE_BUCKET}/ncf_data
    
  3. Python 경로에 대한 환경 변수를 추가합니다.

    (vm)$ export PYTHONPATH="${PYTHONPATH}:/usr/share/models"
    
  4. DATA_DIR의 ml-20m 데이터 세트에 대한 학습 및 평가 데이터를 생성합니다.

    (vm)$ python3 /usr/share/models/official/recommendation/create_ncf_data.py \
        --dataset ml-20m \
        --num_train_epochs 4 \
        --meta_data_file_path ${DATA_DIR}/metadata \
        --eval_prebatch_size 160000 \
        --data_dir ${DATA_DIR}
    

이 스크립트는 VM에서 데이터 세트를 생성하고 사전 처리합니다. 사전 처리는 데이터를 모델에 필요한 TFRecord 형식으로 변환합니다. 다운로드 및 사전 처리에는 약 25분이 걸리며 다음과 비슷한 출력이 생성됩니다.

I0804 23:03:02.370002 139664166737728 movielens.py:124] Successfully downloaded /tmp/tmpicajrlfc/ml-20m.zip 198702078 bytes
I0804 23:04:42.665195 139664166737728 data_preprocessing.py:223] Beginning data preprocessing.
I0804 23:04:59.084554 139664166737728 data_preprocessing.py:84] Generating user_map and item_map...
I0804 23:05:20.934210 139664166737728 data_preprocessing.py:103] Sorting by user, timestamp...
I0804 23:06:39.859857 139664166737728 data_preprocessing.py:194] Writing raw data cache.
I0804 23:06:42.375952 139664166737728 data_preprocessing.py:262] Data preprocessing complete. Time: 119.7 sec.
%lt;BisectionDataConstructor(Thread-1, initial daemon)>
General:
  Num users: 138493
  Num items: 26744

Training:
  Positive count:          19861770
  Batch size:              99000
  Batch count per epoch:   1004

Eval:
  Positive count:          138493
  Batch size:              160000
  Batch count per epoch:   866

I0804 23:07:14.137242 139664166737728 data_pipeline.py:887] Negative total vector built. Time: 31.8 seconds
I0804 23:11:25.013135 139664166737728 data_pipeline.py:588] Epoch construction complete. Time: 250.9 seconds
I0804 23:15:46.391308 139664166737728 data_pipeline.py:674] Eval construction complete. Time: 261.4 seconds
I0804 23:19:54.345858 139664166737728 data_pipeline.py:588] Epoch construction complete. Time: 248.0 seconds
I0804 23:24:09.182484 139664166737728 data_pipeline.py:588] Epoch construction complete. Time: 254.8 seconds
I0804 23:28:26.224653 139664166737728 data_pipeline.py:588] Epoch construction complete. Time: 257.0 seconds

Cloud TPU 설정 및 학습 시작

  1. 다음 명령어를 실행하여 Cloud TPU를 만듭니다.

    (vm)$ ctpu up --project=${PROJECT_ID} \
      --tpu-only \
      --tpu-size=v3-8 \
      --zone=europe-west4-a \
      --name=ncf-tutorial \
      --tf-version=2.5.0

    명령어 플래그 설명

    project
    GCP 프로젝트 ID
    tpu-only
    VM을 만들지 않고 Cloud TPU를 생성합니다. 기본적으로 ctpu up 명령어는 VM과 Cloud TPU를 생성합니다.
    tpu-size
    생성할 Cloud TPU의 유형입니다.
    zone
    Cloud TPU를 생성하려는 영역입니다.
    name
    생성할 Cloud TPU의 이름입니다.
    tf-version
    Tensorflow ctpu 버전이 VM에 설치됩니다.
  2. 설정한 구성이 표시됩니다. 승인하려면 y를, 취소하려면 n을 누릅니다.

    Operation success; not ssh-ing to Compute Engine VM due to --tpu-only flag 메시지가 표시됩니다. 이전에 SSH 키 적용을 완료했으므로 이 메시지를 무시해도 됩니다.

  3. Cloud TPU 이름에 대한 환경 변수를 추가합니다.

    (vm)$ export TPU_NAME=ncf-tutorial
    

학습 및 평가 실행

다음 스크립트는 3세대 동안 샘플 학습을 실행합니다.

  1. 체크포인트 및 텐서보드 요약을 저장하려면 모델 디렉터리의 환경 변수를 추가합니다.

    (vm)$ export MODEL_DIR=${STORAGE_BUCKET}/ncf
    
  2. 다음 명령어를 실행하여 NCF 모델을 학습시킵니다.

    (vm)$ python3 /usr/share/models/official/recommendation/ncf_keras_main.py \
         --model_dir=${MODEL_DIR} \
         --data_dir=${DATA_DIR} \
         --train_dataset_path=${DATA_DIR}/training_cycle_*/* \
         --eval_dataset_path=${DATA_DIR}/eval_data/* \
         --input_meta_data_path=${DATA_DIR}/metadata \
         --learning_rate=3e-5 \
         --train_epochs=3 \
         --dataset=ml-20m \
         --eval_batch_size=160000 \
         --learning_rate=0.00382059 \
         --beta1=0.783529 \
         --beta2=0.909003 \
         --epsilon=1.45439e-07 \
         --dataset=ml-20m \
         --num_factors=64 \
         --hr_threshold=0.635 \
         --keras_use_ctl=true \
         --layers=256,256,128,64 \
         --use_synthetic_data=false \
         --distribution_strategy=tpu \
         --download_if_missing=false
     

학습 및 평가에는 약 2분이 소요되며 다음과 유사한 최종 출력이 생성됩니다.

I0805 21:23:05.134161 139825684965184 ncf_keras_main.py:493] Done training epoch 3, epoch loss=0.097
I0805 21:23:06.722786 139825684965184 ncf_keras_main.py:506] Done eval epoch 3, hit_rate=0.585
I0805 21:23:16.005549 139825684965184 ncf_keras_main.py:523] Saving model as TF checkpoint: gs://gm-bucket-eu/ncf/ctl_checkpoint
I0805 21:23:16.058367 139825684965184 ncf_keras_main.py:562] Result is {'loss': <tf.Tensor: shape=(), dtype=float32, numpy=0.09678721>, 'eval_loss': None, 'eval_hit_rate': , 'step_timestamp_log': ['BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTim
estamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp',
 'BatchTimestamp', 'BatchTimestamp', 'BatchTimestamp', 'BatchTime
stamp', 'BatchTimestamp', 'BatchTimestamp'], 'train_finish_time': 1596662568.102817, 'avg_exp_per_second': 4474047.406912873}

삭제

이 가이드에서 사용된 리소스 비용이 Google Cloud 계정에 청구되지 않도록 하려면 리소스가 포함된 프로젝트를 삭제하거나 프로젝트를 유지하고 개별 리소스를 삭제하세요.

Compute Engine VM 인스턴스와 Cloud TPU 리소스를 삭제합니다.

  1. Compute Engine 인스턴스에서 연결을 해제합니다.

    (vm)$ exit
    

    프롬프트가 username@projectname으로 바뀌면 Cloud Shell에 있는 것입니다.

  2. VM 또는 Cloud Shell에서 Cloud TPU를 삭제하기 위해 Cloud TPU를 설정할 때 사용한 --name--zone 플래그를 사용하여 ctpu delete를 실행합니다.

    $ ctpu delete --project=${PROJECT_ID} \
      --name=ncf-tutorial \
      --zone=europe-west4-a
    
  3. 다음 명령어를 실행하여 Compute Engine VM 및 Cloud TPU가 종료되었는지 확인합니다.

    $ ctpu status --project=${PROJECT_ID} \
      --name=ncf-tutorial \
      --zone=europe-west4-a
    

    삭제하는 데 몇 분 정도 걸릴 수 있습니다. 다음과 같은 응답이 나타나면 더 이상 할당된 인스턴스가 없다는 의미입니다.

    2018/04/28 16:16:23 WARNING: Setting zone to "europe-west4-a"
    No instances currently exist.
            Compute Engine VM:     --
            Cloud TPU:             --
    
  4. 아래와 같이 gsutil을 실행하여 bucket-name을 이 가이드에서 만든 Cloud Storage 버킷 이름으로 바꿉니다.

    $ gsutil rm -r gs://bucket-name
    

다음 단계

이 가이드에서는 샘플 데이터 세트를 사용하여 NCF 모델을 학습시켰습니다. 이 학습 결과는 (대부분의 경우) 추론에 사용할 수 없습니다. 추론에 모델을 사용하려면 일반에 공개된 데이터 세트 또는 자체 데이터 세트에서 데이터를 학습시킵니다. Cloud TPU에서 학습된 모델은 데이터 세트가 TFRecord 형식이어야 합니다.

데이터 세트 변환 도구 샘플을 사용하여 이미지 분류 데이터 세트를 TFRecord 형식으로 변환할 수 있습니다. 이미지 분류 모델을 사용하지 않는 경우 데이터 세트를 직접 TFRecord 형식으로 변환해야 합니다. 자세한 내용은 TFRecord 및 tf.Example을 참조하세요.

초매개변수 조정

데이터 세트로 모델의 성능을 개선하려면 모델의 초매개변수를 조정하면 됩니다. GitHub에서 모든 TPU 지원 모델에 공통된 초매개변수에 대한 정보를 확인할 수 있습니다. 모델별 초매개변수에 대한 정보는 각 모델의 소스 코드에서 확인할 수 있습니다. 초매개변수 조정에 대한 자세한 내용은 초매개변수 조정 개요, 초매개변수 조정 서비스 사용, 초매개변수 조정을 참조하세요.

추론

일단 모델을 학습시키면 추론(예측이라고도 함)에 사용할 수 있습니다. AI Platform은 머신러닝 모델을 개발, 학습, 배포하기 위한 클라우드 기반 솔루션입니다. 모델이 배포되면 AI Platform Prediction 서비스를 사용할 수 있습니다.