Dataflow 시작하기

Dataflow 서비스는 Apache Beam SDK로 정의된 파이프라인을 실행합니다. 하지만 많은 사용 사례에서는 SDK로 코드를 작성할 필요가 없습니다. Dataflow에서는 노 코드 및 로우 코드 옵션을 제공하기 때문입니다.

서로 다른 제품 간에 데이터를 이동할 때 Dataflow는 Google Cloud 콘솔 또는 명령줄에서 실행할 수 있는 사전 빌드된 템플릿을 제공합니다. 예를 들어 Pub/Sub에서 BigQuery로 데이터를 이동하는 데 이 템플릿을 사용할 수 있습니다.
간단한 사용 사례의 경우 해당 작업에 맞는 템플릿이 없거나 소규모 맞춤설정이 필요한 경우에는 작업 빌더를 사용하는 것이 좋습니다. 작업 빌더는Google Cloud 콘솔 내에서 Dataflow 파이프라인을 시각적으로 빌드할 수 있는 UI 도구입니다. 데이터 소스와 싱크를 선택하고, 조인, Python 함수, SQL 변환과 같은 변환 단계를 추가할 수 있습니다. 단, 작업 빌더는 일부 제한된 소스 및 싱크만 지원합니다. 사용하려는 소스 또는 싱크가 지원되지 않는 경우에는 Apache Beam SDK를 사용하세요.
머신러닝(ML) 파이프라인의 경우 Dataflow는 최소한의 코드만으로 구성할 수 있는 턴키 변환 기능을 제공합니다. 시작하려면 Google Colab에서 제공하는 ML 노트북 예시를 실행해 보세요. 자세한 내용은 Dataflow ML 개요를 참조하세요.
Apache Beam의 모든 기능을 활용하려면 SDK를 사용해 Python, Java, Go로 커스텀 파이프라인을 작성하세요.

결정에 도움이 되도록 아래 표에 몇 가지 일반적인 예시를 정리해 두었습니다.

원하는 작업	권장 방법
소스에서 싱크로 데이터를 이동하고 Python 함수 또는 SQL을 사용하여 커스텀 로직을 적용합니다. 현재 이 사용 사례가 없더라도, 향후 가능성이 있다면 이 옵션을 사용하는 것이 좋습니다.	작업 빌더
커스텀 로직 없이 소스에서 싱크로 데이터를 이동합니다.	템플릿
파이프라인에서 ML 모델을 사용하거나 학습 또는 추론을 위한 데이터를 준비합니다.	Dataflow ML 턴키 변환
고급 Apache Beam 기능이 필요한 경우, Java, Python, Go로 직접 파이프라인을 작성합니다.	Apache Beam SDK

다음 단계