콘텐츠로 이동하기
데이터 분석

Dataflow ML Starter 프로젝트: Dataflow ML 작업을 개발하고 배포하기 위한 실용적인 템플릿

2024년 2월 1일
Xiangqian (XQ) Hu

Engineering Manager

Gemini 1.5 모델 사용해 보기

Google Vertex AI의 가장 진보한 멀티모달 모델

사용해 보기

*본 아티클의 원문은 2024년 1월 9일 Google Cloud 블로그(영문)에 게재되었습니다.

BigQuery의 통합 기능 제품군에 속하는 Dataflow ML은 배치 파이프라인과 스트리밍 파이프라인을 통해 확장 가능한 로컬 및 원격 추론을 지원하고, 모델 학습을 위한 데이터 준비와 모델 예측 결과 처리를 쉽게 만듭니다. Google Cloud가 새롭게 선보이는 Dataflow ML Starter 프로젝트는 Beam 파이프라인을 쉽고 빠르게 만들고 실행하는 데 필요한 모든 필수 스캐폴딩과 상용구를 제공합니다. 자세히 살펴보자면, Dataflow ML Starter 프로젝트에는 특정 이미지를 분류할 수 있도록 이미지 분류 모델을 배포하는 기본 Beam RunInference 파이프라인이 포함되어 있습니다. 파이프라인은 그림 1에 나타난 것처럼 이미지 GCS 경로가 포함된 Cloud Storage(GCS) 파일을 읽거나 Pub/Sub 소스를 구독하여 이미지 GCS 경로를 수신하고, 입력 이미지를 사전 처리하고, PyTorch 또는 TensorFlow 이미지 분류 모델을 실행한 다음, 결과를 후처리하며, 마지막으로 모든 예측을 GCS 출력 파일에 작성합니다.

https://storage.googleapis.com/gweb-cloudblog-publish/images/Dataflow_ML_Starter_project.max-2000x2000.jpg

이 프로젝트는 사용자에게 다음을 포함한 각 단계를 설명하여 Dataflow ML 개발 프로세스의 전반을 보여줍니다.

  • 로컬 Python 환경에서 Beam 파이프라인을 개발하고 파이프라인 검증을 위한 단위 테스트 생성
  • CPU로 DataflowRunner를 사용하여 Beam RunInference 작업 실행
  • 추론 속도 향상 및 GPU 사용, GCE VM을 사용한 커스텀 컨테이너 빌드 및 테스트, Dockerfile 샘플 제공
  • 스트리밍 소스로 Pub/Sub를 사용하여 이미지를 분류하는 방법 설명
  • 전체 코드를 패키징하고 Dataflow Flex 템플릿을 적용하는 방법 설명

쉽게 말하면 이 프로젝트는 상용구 역할을 하며 특정 니즈에 맞춰 쉽게 수정할 수 있는 표준 템플릿을 생성합니다.

시작하려면 GitHub 저장소를 방문하여 안내를 따르세요. Google Cloud는 이 Starter 프로젝트가 Dataflow ML을 사용하는 모든 사람에게 유용한 리소스가 되리라 믿고 있습니다. 이 지식을 커뮤니티의 많은 분들에게 공유하게 되어 기쁘게 생각하며, 개발자와 데이터 엔지니어 여러분이 목표를 달성하는 데 도움이 되기를 기대합니다.

게시 위치