콘텐츠로 이동하기
데이터 분석

차세대 Dataflow: Dataflow Prime, Dataflow Go, Dataflow ML

2022년 10월 6일
Frank Guan

Product Marketing Lead, Google Cloud

Google Cloud 사용해 보기

$300의 무료 크레딧과 20개 이상의 항상 무료인 제품으로 Google Cloud 사용을 시작해보세요.

무료 체험

* 본 아티클의 원문은 2022년 7월 21일 Google Cloud 블로그(영문)에 게재되었습니다.


IDC에 따르면 2024년 말까지 기업의 75%가 시범 운영에서 인공지능 운영으로 전환할 것으로 예상됩니다. 하지만 데이터 유형, 이기종 데이터 스택, 프로그래밍 언어의 복잡성이 커지면서 이러한 전환이 모든 데이터 엔지니어에게 도전과제가 되고 있습니다. 현재의 경제 상황에서는 많은 조직이 더 낮은 비용과 높은 효율성으로 보다 많은 작업을 처리하는 것을 핵심 고려사항으로 삼고 있습니다.

오늘 Google에서는 더 많은 개발자가 Google Cloud의 Dataflow를 확장된 사용 사례와 많은 데이터 처리 워크로드에 활용하면서도 비용을 낮게 유지하도록 지원하는 3개의 주요 버전을 발표합니다. 이번 출시는 모든 개발자가 어디서나 빅데이터, 실시간 스트리밍, ML/AI를 사용할 수 있도록 범용화한다는 목표 아래 발표되는 것입니다.

정식 버전으로 출시되는 3개의 Dataflow 주요 버전은 다음과 같습니다.

  • Dataflow Prime - Dataflow Prime은 Dataflow의 노옵스(no-ops) 서버리스 방식이 가진 이점을 한 단계 업그레이드한 버전입니다. Dataflow Prime을 사용하면 스트리밍 데이터 처리 워크로드에 수평 자동 확장(더 많은 머신) 및 수직 자동 확장(더 많은 메모리를 갖춘 큰 머신)을 모두 활용할 수 있으며 조만간 일괄 처리도 지원될 예정입니다. Dataflow Prime에서는 더욱 효율적인 파이프라인이 제공되어 유용한 정보를 실시간으로 적용할 수 있습니다.
  • Dataflow Go - Dataflow Go는 Go를 위한 기본 지원을 제공합니다. Go는 유연성, 사용 편의성, 차별화된 개념을 바탕으로 사용이 급증하고 있는 프로그래밍 언어로서 일괄 및 스트리밍 데이터 처리 워크로드 모두에 사용할 수 있습니다. Apache Beam 고유의 다수 언어 모델을 사용하는 Dataflow Go 파이프라인은 ML 변환에 대한 광범위한 자바 I/O 커넥터는 물론 곧 제공될 예정인 Python의 I/O 커넥터에서 제공하는 널리 인정받은 동급 최고의 성능을 활용할 수 있습니다.
  • Dataflow ML - ML 변환과 관련해 이제 파이프라인 내에서 직접 PyTorch 및 scikit-learn 모델을 실행할 수 있는 즉시 사용 가능한 지원 기능이 Dataflow에 추가되었습니다. 새로운 RunInference 변환에서는 소수의 코드만으로 모델을 프로덕션 파이프라인에서 사용할 수 있어 작업이 간소화됩니다. 이러한 기능은 GPU 지원, ML 학습을 위한 전처리 및 후처리 시스템과 같은 Dataflow의 기존 ML 기능에 직접 추가되거나 Tensorflow Extended(TFX)와 같은 프레임워크를 통해 추가로 제공됩니다.

더욱 향상된 Dataflow를 선보이게 되어 매우 기쁩니다. Apache Beam에서 제공하며 전 세계에서 유일하게 진정으로 통합된 일괄 및 스트리밍 데이터 처리 모델, ML 프레임워크에 대한 광범위한 지원, Beam 모델의 고유한 교차 언어 기능에 힘입어 Dataflow가 모든 데이터 처리 요구사항을 충족하는 더욱 우수한 사용 편의성, 속도, 접근성을 갖추게 되었습니다.

시작하기

자체 데이터를 사용한 개념 증명의 실행에 관심이 있나요? Google Cloud 영업팀에 실무형 워크숍에 대해 문의하거나 여기에서 신청하세요.


게시 위치