작업 빌더를 사용하여 파이프라인 만들기

작업 빌더는 Google Cloud 콘솔에서 코드를 작성하지 않고 Dataflow 파이프라인을 빌드하고 실행할 수 있는 시각적 UI입니다.

다음 이미지에서는 작업 빌더 UI의 세부정보를 보여줍니다. 이 이미지에서 사용자는 Pub/Sub에서 BigQuery로 읽을 파이프라인을 만들고 있습니다.

작업 빌더 UI 스크린샷

개요

작업 빌더는 다음 유형의 데이터를 읽고 쓸 수 있습니다.

  • Pub/Sub 메시지
  • BigQuery 테이블 데이터
  • Cloud Storage의 CSV 파일, JSON 파일, 텍스트 파일

필터, 조인, 매핑, 그룹화, 분할(배열 평탄화)을 포함한 파이프라인 변환을 지원합니다.

작업 빌더는 파이프라인을 Apache Beam YAML 파일로 저장할 수도 있습니다. 이 기능을 사용하면 작업 빌더에서 파이프라인을 설계한 후 재사용할 수 있도록 YAML 파일을 Cloud Storage 또는 소스 제어 저장소에 저장할 수 있습니다.

다음과 같은 사용 사례에 작업 빌더를 사용하는 것이 좋습니다.

  • 코드를 작성하지 않고도 파이프라인을 빠르게 빌드하려는 경우
  • 재사용할 수 있도록 파이프라인을 YAML에 저장하려는 경우
  • 지원되는 소스, 싱크, 변환을 사용하여 파이프라인을 표현할 수 있는 경우
  • 사용 사례에 맞는 Google 제공 템플릿이 없는 경우

새 파이프라인 만들기

작업 빌더에서 새 파이프라인을 만들려면 다음 단계를 수행합니다.

  1. Google Cloud 콘솔에서 작업 페이지로 이동합니다.

    작업으로 이동

  2. 빌더에서 작업 만들기를 클릭합니다.

  3. 작업 이름에 작업 이름을 입력합니다.

  4. 일괄 또는 스트리밍을 선택합니다.

  5. 스트리밍을 선택하는 경우 윈도잉 모드를 선택합니다. 그런 다음 다음과 같이 윈도우 사양을 입력합니다.

    • 고정 윈도우: 윈도우 크기를 초 단위로 입력합니다.
    • 슬라이딩 윈도우: 윈도우 크기와 윈도우 기간을 초 단위로 입력합니다.
    • 세션 윈도우: 세션 간격을 초 단위로 입력합니다.

    윈도잉에 대한 자세한 내용은 윈도우 및 윈도우 함수를 참조하세요.

다음으로 다음 섹션의 설명대로 소스, 변환, 싱크를 파이프라인에 추가합니다.

파이프라인에 소스 추가

파이프라인에는 소스가 최소 하나 이상 있어야 합니다. 처음에는 작업 빌더가 빈 소스로 채워집니다. 소스를 구성하려면 다음 단계를 수행합니다.

  1. 소스 이름 상자에 소스 이름을 입력하거나 기본 이름을 사용합니다. 이 이름은 작업을 실행할 때 작업 그래프에 표시됩니다.

  2. 소스 유형 목록에서 데이터 소스 유형을 선택합니다.

  3. 소스 유형에 따라 추가 구성 정보를 제공합니다. 예를 들어 BigQuery를 선택하면 읽을 테이블을 지정합니다.

    Pub/Sub를 선택하면 메시지 스키마를 지정합니다. Pub/Sub 메시지에서 읽으려는 각 필드의 이름과 데이터 유형을 입력합니다. 파이프라인은 스키마에 지정되지 않은 모든 필드를 삭제합니다.

  4. (선택사항) 일부 소스 유형의 경우 소스 데이터 미리보기를 클릭하여 소스 데이터를 미리 볼 수 있습니다.

파이프라인에 다른 소스를 추가하려면 소스 추가를 클릭합니다. 여러 소스의 데이터를 결합하려면 파이프라인에 Join 변환을 추가합니다.

파이프라인에 변환 추가

원하는 경우 파이프라인에 변환을 하나 이상 추가합니다. 변환을 추가하려면 다음 안내를 따르세요.

  1. 변환 추가를 클릭합니다.

  2. 변환 이름 상자에 변환 이름을 입력하거나 기본 이름을 사용합니다. 이 이름은 작업을 실행할 때 작업 그래프에 표시됩니다.

  3. 변환 유형 목록에서 변환 유형을 선택합니다.

  4. 변환 유형에 따라 추가 구성 정보를 제공합니다. 예를 들어 필터(Python)를 선택하면 필터로 사용할 Python 표현식을 입력합니다.

  5. 변환 입력 단계를 선택합니다. 입력 단계는 출력에서 이 변환 입력을 제공하는 소스나 변환입니다.

파이프라인에 싱크 추가

파이프라인에는 싱크가 최소 하나 이상 있어야 합니다. 처음에는 작업 빌더가 빈 싱크로 채워집니다. 싱크를 구성하려면 다음 단계를 수행합니다.

  1. 싱크 이름 상자에 싱크 이름을 입력하거나 기본 이름을 사용합니다. 이 이름은 작업을 실행할 때 작업 그래프에 표시됩니다.

  2. 싱크 유형 목록에서 싱크 유형을 선택합니다.

  3. 싱크 유형에 따라 추가 구성 정보를 제공합니다. 예를 들어 BigQuery 싱크를 선택하면 쓸 BigQuery 테이블을 선택합니다.

  4. 싱크 입력 단계를 선택합니다. 입력 단계는 출력에서 이 변환 입력을 제공하는 소스나 변환입니다.

  5. 파이프라인에 다른 싱크를 추가하려면 싱크 추가를 클릭합니다.

파이프라인 실행

작업 빌더에서 파이프라인을 실행하려면 다음 단계를 수행합니다.

  1. (선택사항) Dataflow 작업 옵션을 설정합니다. Dataflow 옵션 섹션을 펼치려면 펼치기 화살표를 클릭합니다.

  2. 작업 실행을 클릭합니다. 작업 빌더가 제출된 작업의 작업 그래프로 이동합니다. 작업 그래프를 사용하여 작업 상태를 모니터링할 수 있습니다.

파이프라인 저장

파이프라인을 Beam YAML에 저장하려면 다음 안내를 따르세요.

  1. 저장을 클릭하여 YAML 저장 창을 엽니다.

  2. 다음 작업 중 하나를 수행합니다.

    • YAML을 클립보드에 복사하려면 복사를 클릭합니다.
    • Cloud Storage에 저장하려면 Cloud Storage 경로를 입력하고 저장을 클릭합니다.
    • 로컬 파일을 다운로드하려면 다운로드를 클릭합니다.

파이프라인 로드

파이프라인을 Beam YAML에 저장한 후 작업 빌더에 다시 로드할 수 있습니다. 그런 다음 작업 빌더를 사용하여 파이프라인을 수정하거나 실행할 수 있습니다.

Cloud Storage 또는 텍스트에서 Beam YAML을 로드할 수 있습니다.

Cloud Storage에서 파이프라인 로드

Cloud Storage에서 파이프라인을 로드하려면 다음 안내를 따르세요.

  1. 로드를 클릭합니다.
  2. Cloud Storage에서 로드를 클릭합니다.
  3. YAML 파일 위치 상자에 YAML 파일의 Cloud Storage 위치를 입력하거나 찾아보기를 클릭하여 파일을 선택합니다.
  4. 로드를 클릭합니다.

텍스트에서 파이프라인 로드

텍스트에서 파이프라인을 로드하려면 다음 안내를 따르세요.

  1. 로드를 클릭합니다.
  2. 텍스트에서 로드를 클릭합니다.
  3. YAML을 창에 붙여넣습니다.
  4. 로드를 클릭합니다.

시작하기 전에 파이프라인 유효성 검사

Python 필터 및 SQL 표현식과 같이 구성이 복잡한 파이프라인의 경우 실행하기 전에 파이프라인 구성에 구문 오류가 있는지 확인하는 것이 좋습니다. 파이프라인 문법을 확인하려면 다음 단계를 따르세요.

  1. 유효성 검사를 클릭하여 Cloud Shell을 열고 유효성 검사 서비스를 시작합니다.
  2. 확인 시작을 클릭합니다.
  3. 유효성 검사 중에 오류가 발견되면 빨간색 느낌표가 표시됩니다.
  4. 감지된 오류를 수정하고 검증을 클릭하여 수정사항을 확인합니다. 오류가 발견되지 않으면 녹색 체크표시가 나타납니다.

다음 단계