Dataflow의 병목 현상 문제 해결

병목 현상은 한 단계, 스테이지 또는 작업자가 전체 작업 속도를 저하시킬 때 발생합니다. 병목 현상으로 인해 유휴 작업자가 발생하고 지연 시간이 증가할 수 있습니다.

Dataflow가 병목 현상을 감지하면 작업 그래프에 알림이 표시되고 단계 정보 패널에 병목 현상의 종류와 원인(알려진 경우)이 나열됩니다. Dataflow는 병목 현상 감지 정보를 Stackdriver 측정항목으로 내보내기도 하며, 이 측정항목은 데이터를 시계열로 표시합니다. 이를 통해 시간 경과에 따른 병목 현상이나 과거의 병목 현상을 확인할 수 있습니다.

병목 현상 이해

Dataflow가 스트리밍 파이프라인을 실행하면 작업은 스트리밍 셔플, 사용자 정의 함수(DoFn) 처리 스레드, 영구 상태 체크포인트와 같은 일련의 구성요소로 구성됩니다. 데이터 흐름을 원활하게 하기 위해 Dataflow는 큐를 사용하여 이러한 구성요소를 연결합니다. 데이터는 업스트림에서 다운스트림으로 푸시됩니다.

많은 파이프라인에서 전체 처리량 용량은 단일 구성요소에 의해 제한되어 파이프라인에 병목 현상이 발생합니다. 데이터가 병목 현상을 통과할 수 있는 속도에 따라 파이프라인이 입력 데이터를 수락하고 처리할 수 있는 속도가 제한됩니다.

예를 들어 스트리밍 셔플의 다운스트림에서 DoFn 처리가 발생하는 파이프라인을 가정해 보겠습니다. 이들 사이의 큐는 셔플링되었지만 처리되지 않은 데이터를 버퍼링합니다. DoFn 처리가 스트리밍 셔플에서 데이터를 생성하는 속도만큼 빠르게 데이터를 소비할 수 없는 경우 큐가 증가합니다. 병목 현상이 오래 지속되면 큐가 용량에 도달할 수 있습니다. 이 시점에서 추가 셔플링이 일시중지되고 백로그가 업스트림으로 전파됩니다. 업스트림 큐에도 백로그가 누적되어 결국 데이터 소스까지 느려지므로 전체 파이프라인이 입력 속도를 따라갈 수 없습니다.

병목 현상이 발생하면 파이프라인의 단일 지점에서 백로그가 발생하더라도 파이프라인의 상당 부분이 비정상으로 표시될 수 있습니다. 이 동작으로 인해 병목 현상을 디버깅하기 어려울 수 있습니다. 병목 현상 감지의 목표는 정확한 위치와 원인을 파악하여 추측을 없애 근본 원인을 해결할 수 있도록 하는 것입니다.

지연 시간이 5분 기준점을 초과하면 Dataflow에서 병목 현상을 감지합니다. 지연 시간이 이 기준점을 넘지 않으면 Dataflow에서 병목 현상을 감지하지 않습니다.

병목 현상 감지 시 항상 조치를 취해야 하는 것은 아니며, 사용 사례에 따라 다릅니다. 파이프라인은 5분을 초과하는 일시적인 지연이 발생하더라도 정상적으로 작동할 수 있습니다. 사용 사례에서 허용되는 경우 표시된 병목 현상을 해결하지 않아도 됩니다.

병목 현상의 종류

Dataflow에서 병목 현상을 감지하면 모니터링 인터페이스에 문제의 심각도가 표시됩니다. 병목 현상은 다음과 같은 카테고리로 분류됩니다.

처리가 중단되어 진행되지 않음: 이 단계에서 파이프라인 진행이 완전히 중단됩니다.
처리가 진행 중이지만 속도가 느림: 파이프라인이 수신 데이터를 도착하는 속도만큼 빠르게 처리할 수 없습니다. 그 결과 백로그가 증가합니다.
처리가 진행 중이지만 백로그가 꾸준함: 파이프라인이 진행 중이며 처리 속도가 입력 속도와 비슷합니다. 처리 속도가 충분히 빨라 백로그가 증가하지 않지만 누적된 백로그도 크게 감소하지는 않습니다.
처리가 진행 중이며 백로그를 따라잡고 있음: 백로그가 감소하고 있지만 현재 병목 현상으로 인해 파이프라인이 더 빨리 따라잡지 못하고 있습니다. 백로그가 있는 파이프라인을 시작하는 경우 이 상태가 정상일 수 있으며 개입이 필요하지 않을 수 있습니다. 진행 상황을 모니터링하여 백로그가 계속 감소하는지 확인합니다.

병목 현상의 원인

이 섹션에는 감지할 수 있는 병목 현상의 원인이 나열되어 있습니다. 이 정보를 사용하여 문제를 해결하세요. 경우에 따라 여러 원인이 있을 수 있으며, 서로 관련이 있을 수도 있습니다. 예를 들어 작업자가 과소 프로비저닝된 경우 vCPU 사용률이 높을 수 있습니다. vCPU 사용률이 높으면 작업 속도가 느려질 수 있으며, 이는 큐 지연 증가로 이어질 수 있습니다. 가능한 원인 분석에서는 이러한 모든 원인이 병목 현상의 원인으로 표시될 수 있습니다.

처리 시간이 긴 작업

계산의 처리 시간이 깁니다. 이 문제는 DoFn을 실행하는 작업자에게 입력 번들이 전송되고 결과가 제공되지 않은 채 상당한 시간이 경과할 때마다 발생합니다.

이는 사용자 코드에서 단일 장기 실행 작업의 결과인 경우가 가장 많습니다. 다른 문제는 처리 시간이 긴 작업으로 나타날 수 있습니다. 예를 들어 DoFn 내에서 오류가 발생하고 재시도되거나, 장시간 재시도되거나, OOM과 같은 요인으로 인해 작업자 하네스가 비정상 종료되면 처리 시간이 길어질 수 있습니다.

영향을 받는 계산이 사용자 코드에 있는 경우 코드를 최적화하거나 실행 시간을 제한하는 방법을 찾아보세요. 디버깅을 지원하기 위해 작업자 로그에는 5분 이상 중단된 작업의 스택 트레이스가 표시됩니다.

영구 상태 읽기가 느림

계산에서 DoFn 실행의 일부로 영구 상태를 읽는 데 상당한 시간을 소비합니다. 이는 영구 상태가 지나치게 크거나 읽기가 너무 많기 때문일 수 있습니다. 영구 상태 크기 또는 읽기 빈도를 줄이는 것이 좋습니다. 기본 영구 상태가 느려서 발생하는 일시적인 문제일 수도 있습니다.

영구 상태 쓰기가 느림

계산에서 처리 결과 커밋 중에 영구 상태를 쓰는 데 상당한 시간을 소비합니다. 이는 지나치게 큰 영구 상태로 인해 발생한 것일 수 있습니다. 영구 상태 크기를 줄이는 것이 좋습니다. 기본 영구 상태가 느려서 발생하는 일시적인 문제일 수도 있습니다.

커밋 거부됨

데이터 처리가 잘못되어 영구 상태로 커밋할 수 없습니다. 이는 일반적으로 운영 한도 중 하나를 초과하기 때문입니다. 자세한 내용은 로그를 확인하거나 지원팀에 문의하세요.

Apache Kafka 소스 파티션 부족

Apache Kafka 소스 계산에 파티션이 부족합니다. 이 문제를 해결하려면 다음을 시도해 보세요.

Kafka 파티션 수를 늘립니다.
Kafka IO 읽기를 구성하여 데이터를 더 효율적으로 병렬 처리할 때 .withRedistribute()를 사용하여 재분산을 포함합니다. N > partitions을 사용하여 키의 총 수에 상한을 제공하는 .withRedistributeNumKeys(N)를 포함합니다. 키 수가 제한되어 있으면 레코드를 번들로 묶어 효율성을 높일 수 있습니다.
재분산 셔플 비용을 최소화하려면 .withOffsetDeduplication()을 사용합니다. 이 모드는 셔플의 일부로 유지해야 하는 데이터 양을 최소화하면서도 정확히 한 번 처리를 제공합니다.

자세한 내용은 Apache Kafka에서 Dataflow로 읽기 페이지의 병렬 처리를 참조하세요.

Apache Kafka 소스에 영구 상태가 많음

Apache Kafka 소스 계산이 지연 시간과 비용이 많이 발생할 수 있는 대량의 데이터를 재분산하고 있습니다. 이 문제를 해결하려면 다음을 시도해 보세요.

파이프라인에 정확히 한 번 처리가 필요한 경우 오프셋 중복 삭제 모드를 활용하여 재분산 셔플의 비용을 최소화합니다. 이 모드는 셔플의 일부로 유지해야 하는 데이터 양을 최소화하면서도 정확히 한 번 처리를 제공합니다.
파이프라인에 최소 한 번 처리가 충분한 경우 중복 허용 구성을 사용 설정할 수 있습니다.

자세한 내용은 Apache Kafka에서 Dataflow로 읽기를 참조하세요.

소스 병렬 처리 부족

소스 계산의 병렬 처리가 부족합니다. 가능한 경우 소스 내에서 병렬 처리를 늘립니다. 병렬 처리를 늘릴 수 없고 작업에서 최소 한 번 모드를 사용하는 경우 파이프라인에 Redistribute 변환을 추가해 보세요.

키 병렬 처리 부족 또는 핫키

작업에 핫키가 있거나 키 병렬 처리가 부족합니다.

Dataflow는 각 샤딩 키에 대해 메시지를 순차적으로 처리합니다. Dataflow가 특정 키의 메시지 배치를 처리하는 동안 해당 키의 다른 수신 메시지는 현재 배치가 완료될 때까지 큐에 추가됩니다.

Dataflow가 충분한 고유 키를 병렬로 처리할 수 없으면 병목 현상이 발생할 수 있습니다. 예를 들어 데이터에 고유 키가 너무 적거나 특정 키가 데이터에 과도하게 표현될 수 있습니다('핫키'). 자세한 내용은 느리거나 중단된 스트리밍 작업 문제 해결을 참조하세요.

과소 프로비저닝된 vCPU

작업에 작업자 vCPU가 충분하지 않습니다. 이 상황은 작업이 이미 최대로 확장되었고 vCPU 사용률이 높으며 여전히 백로그가 있는 경우에 발생합니다. 이 작업에 프로비저닝된 최대 작업자 수를 늘려야 할 수도 있습니다. 예를 들어 자동 확장 범위 업데이트를 통해 이 숫자를 늘릴 수 있습니다. 또는 파이프라인 코드나 워크로드를 변경하여 vCPU 사용량을 줄일 수 있는 방법을 찾아보세요. Cloud Profiler를 사용하여 최적화 기회를 찾을 수 있습니다.

높은 vCPU 사용률, 업스케일링 대기 중

작업의 vCPU 사용률이 높지만 업스케일링할 여지가 있습니다. 이 조건은 업스케일링이 발생할 때까지 일시적일 수 있습니다. 자동 확장을 모니터링하여 자동 확장 결정을 확인할 수 있습니다. 이 조건이 오랫동안 지속되거나 자주 발생하는 경우 작업이 더 적극적으로 업스케일링되도록 다른 작업자 사용률 힌트를 설정하여 자동 확장 구성을 변경해야 할 수 있습니다.

작업자 통신 문제

Dataflow가 일부 작업자 VM과 통신할 수 없습니다. 작업의 작업자 VM 상태를 확인합니다. 다음과 같은 이유로 발생할 수 있습니다.

작업자 VM 프로비저닝에 문제가 있습니다.
작업이 실행되는 동안 작업자 VM 풀이 삭제됩니다.
네트워킹 문제가 있습니다.

Pub/Sub 소스에 가져오기 오류가 있음

Pub/Sub 소스에서 가져오는 중에 오류가 발생했습니다. 필요한 주제와 구독이 있는지 확인하고 할당량과 구성을 확인합니다. 로그에서 오류를 확인할 수도 있습니다.

Pub/Sub 소스의 병렬 처리 부족

Pub/Sub 소스 계산에 Pub/Sub 키가 충분하지 않습니다. 이 경고가 표시되면 지원팀에 문의하세요.

알 수 없는 이유로 Pub/Sub 소스 제한됨

Pub/Sub에서 읽는 동안 알 수 없는 이유로 Pub/Sub 소스 계산이 제한됩니다. 일시적인 문제일 수 있습니다. Pub/Sub 구성 문제, 누락된 IAM 권한 또는 할당량 한도를 확인합니다. 하지만 이전 영역 중 어느 것도 근본 원인이 아니고 문제가 계속되면 지원팀에 문의하세요.

Pub/Sub 싱크 게시가 느리거나 중단됨

Pub/Sub 싱크 계산이 느리거나 중단되었습니다. 이 문제는 구성 문제 또는 할당량 한도로 인해 발생할 수 있습니다.

긴 작업 큐 시간

키가 많고 키가 처리되는 속도로 인해 가장 오래된 적격 작업 기간이 깁니다. 이 경우 각 작업이 비정상적으로 길지 않을 수 있지만 전체 큐 지연이 깁니다.

Dataflow는 샤딩 키당 단일 처리 스레드를 사용하며 처리 스레드 수가 제한됩니다. 큐 지연은 키 대 스레드의 비율에 키의 각 처리 번들의 스레드 내 지연 시간을 곱한 값과 거의 같습니다.

(key count / total harness threads) * latency per bundle

다음 해결 방법을 시도해 보세요.

작업자 수를 늘립니다. 스트리밍 자동 확장을 참조하세요.
작업자 하네스 스레드 수를 늘립니다. numberOfWorkerHarnessThreads / number_of_worker_harness_threads 파이프라인 옵션을 설정합니다.
키 수를 줄입니다.
작업 지연 시간을 줄입니다.

Streaming Engine 백엔드의 일시적인 문제입니다.

Streaming Engine 백엔드에 구성 또는 운영 문제가 있습니다. 일시적인 문제일 수 있습니다. 문제가 지속되면 지원팀에 문의하세요.

확인할 수 없는 원인

백로그의 원인을 확실하게 파악할 수 없습니다. 일시적인 문제일 수 있습니다. 문제가 지속되면 지원팀에 문의하세요.

Dataflow의 병목 현상 문제 해결 컬렉션을 사용해 정리하기 내 환경설정을 기준으로 콘텐츠를 저장하고 분류하세요.

병목 현상 이해

병목 현상의 종류

병목 현상의 원인

다음 단계

Dataflow의 병목 현상 문제 해결