로컬에서 학습을 수행하여 생성되었거나, Vertex AI 외부에서 학습했거나, 동료가 생성했거나, 예시 로그이거나, 다른 Vertex AI 텐서보드 인스턴스를 사용하여 생성된 Vertex AI 텐서보드 인스턴스에 기존 로그를 업로드할 수 있습니다. 여러 Vertex AI 텐서보드 인스턴스 간에 로그를 공유할 수 있습니다.
Vertex AI 텐서보드는 텐서보드 로그를 업로드할 수 있도록 Google Cloud CLI 및 Python용 Vertex AI SDK를 제공합니다. Google Cloud에 연결할 수 있는 모든 환경에서 로그를 업로드할 수 있습니다.
Python용 Vertex AI SDK
지속적 모니터링
지속적인 모니터링을 위해서는 학습을 시작할 때 aiplatform.start_upload_tb_log
을(를) 호출합니다.
SDK는 업로드를 위해 새 스레드를 엽니다. 이 스레드는 디렉터리의 새 데이터를 모니터링한 후 Vertex AI 텐서보드 실험에 업로드합니다.
학습이 완료되면 end_upload_tb_log
를 호출하여 업로더 스레드를 종료합니다.
start_upload_tb_log()
를 호출하면 예외가 발생해도 스레드가 활성 상태로 유지됩니다. 스레드가 종료되도록 하려면 try
문에서 start_upload_tb_log()
뒤와 end_upload_tb_log()
앞에 코드를 삽입하고 finally
에서 end_upload_tb_log()
를 호출합니다.
Python
tensorboard_experiment_name
: 업로드할 텐서보드 실험의 이름입니다.logdir
: 텐서보드 로그를 확인할 디렉터리 위치입니다.tensorboard_id
: 텐서보드 인스턴스 ID입니다. 설정하지 않으면aiplatform.init
의tensorboard_id
이(가) 사용됩니다.project
: 프로젝트 ID Google Cloud 콘솔 시작 페이지에서 내 프로젝트 ID를 찾을 수 있습니다.location
: 텐서보드 인스턴스가 있는 리전입니다.experiment_display_name
: 실험의 표시 이름입니다.run_name_prefix
: 있는 경우, 이 호출로 생성되는 모든 실행의 이름에는 이 값이 접두어로 추가됩니다.description
: 실험에 할당할 문자열 설명입니다.
일회성 로깅
텐서보드 로그 업로드
aiplatform.upload_tb_log
을(를) 호출하여 텐서보드 로그 1회 업로드를 실시합니다.
logdir의 기존 데이터가 업로드된 후 즉시 반환됩니다.
Python
tensorboard_experiment_name
: 텐서보드 실험의 이름입니다.logdir
: 텐서보드 로그를 확인할 디렉터리 위치입니다.tensorboard_id
: 텐서보드 인스턴스 ID입니다. 설정하지 않으면aiplatform.init
의tensorboard_id
이(가) 사용됩니다.project
: 프로젝트 ID 이러한 프로젝트 ID는 Google Cloud 콘솔 시작 페이지에서 찾을 수 있습니다.location
: 텐서보드 인스턴스가 있는 리전입니다.experiment_display_name
: 실험의 표시 이름입니다.run_name_prefix
: 있는 경우, 이 호출로 생성되는 모든 실행의 이름에는 이 값이 접두어로 추가됩니다.description
: 실험에 할당할 문자열 설명입니다.verbosity
: 통계 세부정보 수준(정수)입니다. 지원되는 값: 0 - 업로드 통계가 출력되지 않습니다. 1 - 데이터를 업로드하는 동안 업로드 통계를 출력합니다(기본값).
프로필 로그 업로드
aiplatform.upload_tb_log
를 호출하여 실험에 텐서보드 프로필 로그를 업로드합니다.
Python
experiment_name
: 텐서보드 실험의 이름입니다.logdir
: 텐서보드 로그를 확인할 디렉터리 위치입니다.project
: 프로젝트 ID 이러한 프로젝트 ID는 Google Cloud 콘솔 시작 페이지에서 찾을 수 있습니다.location
: 텐서보드 인스턴스가 있는 리전입니다.run_name_prefix
: 프로필 데이터의 실행 접두어입니다. LOG_DIR 내의 디렉터리 형식은 다음과 일치해야 합니다./RUN_NAME_PREFIX/plugins/profile/YYYY_MM_DD_HH_SS/
allowed_plugins
: 허용할 추가 플러그인 목록입니다. 프로필 데이터를 업로드하려면"profile"
이(가) 포함되어야 합니다.
gcloud CLI
- (선택사항) Vertex AI 텐서보드 업로더 Python CLI를 설치할 전용 가상 환경을 만듭니다.
python3 -m venv PATH/TO/VIRTUAL/ENVIRONMENT source PATH/TO/VIRTUAL/ENVIRONMENT/bin/activate
PATH/TO/VIRTUAL/ENVIRONMENT
: 전용 가상 환경입니다.
- Vertex AI SDK를 통해 Vertex AI 텐서보드 패키지를 설치합니다.
pip install -U pip pip install google-cloud-aiplatform[tensorboard]
- 텐서보드 로그 업로드
- 시계열 및 BLOB 데이터
tb-gcp-uploader --tensorboard_resource_name \
TENSORBOARD_RESOURCE_NAME
\ --logdir=LOG_DIR
\ --experiment_name=TB_EXPERIMENT_NAME
--one_shot=True - 프로필 데이터
tb-gcp-uploader \ --tensorboard_resource_name
TENSORBOARD_RESOURCE_NAME
\ --logdir=LOG_DIR
--experiment_name=TB_EXPERIMENT_NAME
\ --allowed_plugins="profile" --run_name_prefix=RUN_NAME_PREFIX
\ --one_shot=True
- 시계열 및 BLOB 데이터
-
TENSORBOARD_RESOURCE_NAME
: Vertex AI 텐서보드 인스턴스를 완전히 식별하는 데 사용되는 텐서보드 리소스 이름입니다. LOG_DIR
: 로컬 파일 시스템 또는 Cloud Storage에 상주하는 이벤트 로그의 위치입니다.TB_EXPERIMENT_NAME
: 텐서보드 실험의 이름(예:test-experiment
)입니다.RUN_NAME_PREFIX
: 프로필 데이터의 실행 프리픽스입니다.LOG_DIR
내의 디렉터리 형식은 다음과 일치해야 합니다./RUN_NAME_PREFIX/plugins/profile/YYYY_MM_DD_HH_SS/
기본적으로 업로더 CLI는 무기한으로 실행되어 LOG_DIR
의 변경사항을 모니터링하고 새로 추가된 로그를 업로드합니다. --one_shot=True
은(는) 동작을 중지합니다. 자세한 내용을 보려면 tb-gcp-uploader --help
을(를) 실행하세요.