이 페이지에서는 Cloud Data Fusion에서 파이프라인을 배포하고 실행하는 방법에 대한 기본사항을 설명합니다.
파이프라인 배포
데이터 파이프라인 설계 및 디버깅을 완료하고 미리보기에 표시되는 데이터에 만족하면 파이프라인을 배포할 준비가 된 것입니다.
파이프라인을 배포하면 Cloud Data Fusion 스튜디오에서 백그라운드에 워크플로와 해당 Apache Spark 작업을 만듭니다.
파이프라인 실행
파이프라인을 배포한 후 다음과 같은 방법으로 파이프라인을 실행할 수 있습니다.
- 파이프라인을 주문형으로 실행하려면 배포된 파이프라인을 열고 실행을 클릭합니다.
- 특정 시간에 파이프라인이 실행되도록 예약하려면 배포된 파이프라인을 열고 예약을 클릭합니다.
- 다른 파이프라인이 완료된 시기를 기준으로 파이프라인을 트리거하려면 배포된 파이프라인을 열고 수신 트리거를 클릭합니다.
Pipeline Studio는 실행할 때마다 파이프라인 기록을 저장합니다. 파이프라인의 여러 런타임 버전 사이에서 전환할 수 있습니다.
파이프라인에 매크로가 있으면 매크로마다 런타임 인수를 설정합니다. 배포된 파이프라인을 실행하기 전에 파이프라인 구성을 검토하고 변경할 수도 있습니다. 프로비저닝, 시작, 실행 중, 성공과 같은 파이프라인 실행 단계 중에 상태 변경사항을 확인할 수 있습니다. 언제든지 파이프라인을 중지할 수도 있습니다.
계측을 사용 설정하면 소스, 변환, 싱크와 같은 파이프라인의 노드에서 속성을 클릭하여 파이프라인에서 생성된 측정항목을 살펴볼 수 있습니다.
파이프라인 실행 방법에 대한 자세한 내용을 보려면 요약을 클릭합니다.
실행 기록 보기
파이프라인 실행이 완료되면 실행 기록을 볼 수 있습니다. 기본적으로 지난 30일 동안의 실행 기록을 볼 수 있습니다. 이 기간이 지나면 Cloud Data Fusion에서 실행 기록을 삭제합니다. REST API를 사용하여 이 기간을 연장할 수 있습니다.
REST API
실행 기록을 30일 넘게 보관하려면 다음 명령어를 사용하여 app.run.records.ttl
옵션을 업데이트합니다.
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/PROJECT_NAME/locations/REGION_NAME/instances/INSTANCE_NAME?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "DAYS", "app.run.records.ttl.frequency.hours": "HOURS" } }'
다음을 바꿉니다.
PROJECT_NAME
: Google Cloud 프로젝트 이름REGION_NAME
: Cloud Data Fusion 인스턴스의 리전(예:us-east4
)INSTANCE_NAME
: Cloud Data Fusion 인스턴스 IDDAYS
: 이전 파이프라인 실행의 실행 기록을 보관하는 기간(일)(예:30
)HOURS
: 이전 실행 기록을 확인하고 삭제하는 빈도(시간)(예:24
)
예:
curl -X PATCH -H 'Content-Type: application/json' -H "Authorization: Bearer $(gcloud auth print-access-token)" '
https://datafusion.googleapis.com/v1beta1/projects/project-1/locations/us-east4/instances/data-fusion-instance-1?updateMask=options'
-d '{ "options": { "app.run.records.ttl.days": "30", "app.run.records.ttl.frequency.hours": "24" } }'
다음 단계
- 파이프라인 구성 자세히 알아보기