Dataflow 자동 확장 모니터링

Dataflow 모니터링 인터페이스에서 스트리밍 작업에 대한 자동 확장 모니터링 차트를 볼 수 있습니다. 이러한 차트에는 파이프라인 작업 기간 동안의 측정항목이 표시되며 다음 정보를 포함합니다.

  • 특정 시점에 작업에서 사용한 작업자 인스턴스의 수
  • 로그 파일 자동 확장
  • 시간 경과에 따른 예상 백로그
  • 시간 경과에 따른 평균 CPU 사용률

차트는 수직으로 정렬되어 백로그 및 CPU 사용률 측정항목을 작업자 확장 이벤트와 연결할 수 있습니다.

Dataflow가 자동 확장을 결정하는 방법에 대한 자세한 내용은 자동 확장 기능 문서를 참조하세요. Dataflow 모니터링 및 측정항목에 대한 자세한 내용은 Dataflow 모니터링 인터페이스 사용을 참조하세요.

자동 확장 모니터링 차트 액세스

Google Cloud Console을 사용하여 Dataflow 모니터링 인터페이스에 액세스할 수 있습니다. 자동 확장 측정항목 탭에 액세스하려면 다음 단계를 따르세요.

  1. Google Cloud 콘솔에 로그인합니다.
  2. Google Cloud 프로젝트를 선택합니다.
  3. 탐색 메뉴를 엽니다.
  4. 애널리틱스에서 Dataflow를 클릭합니다. Dataflow 작업 목록이 상태와 함께 표시됩니다.
  5. 모니터링할 작업을 클릭한 후 자동 확장 탭을 클릭합니다.

자동 확장 측정항목 모니터링

Dataflow 서비스는 자동 확장 작업을 실행하는 데 필요한 작업자 인스턴스 수를 자동으로 선택합니다. 작업자 인스턴스 수는 작업 요구사항에 따라 시간이 경과하면서 변경될 수 있습니다.

Dataflow 인터페이스의 자동 확장 탭에서 자동 확장 측정항목을 볼 수 있습니다. 각 측정항목은 다음 차트로 구성됩니다.

자동 확장 작업 표시줄에 현재 자동 확장 상태와 작업자 수가 표시됩니다.

자동 확장

자동 확장 차트에는 현재 작업자 수, 대상 작업자 수, 최소 및 최대 작업자 수의 시계열 그래프가 표시됩니다.

파이프라인의 작업자 수를 보여주는 데이터 시각화

자동 확장 로그를 보려면 자동 확장 로그 표시를 클릭합니다.

자동 확장 변경 기록을 확인하려면 기록 더보기를 클릭합니다. 파이프라인의 작업자 기록에 대한 정보가 있는 표가 표시됩니다. 기록에는 작업자 수가 최소 또는 최대 작업자 수에 도달했는지 여부를 비롯한 자동 확장 이벤트가 포함됩니다.

파이프라인의 작업자 기록을 보여주는 표

자동 확장 근거(Streaming Engine만 해당)

자동 확장 근거 차트에서는 자동 확장 처리가 지정된 기간 동안 수직 확장 또는 축소되거나 조치를 취하지 않은 이유를 보여줍니다.

자동 확장 근거를 보여주는 데이터 시각화

특정 지점에서 근거에 대한 설명을 확인하려면 차트 위에 마우스 포인터를 놓습니다.

자동 확장 근거에 대한 설명을 보여주는 데이터 시각화

다음 표에는 확장 작업과 가능한 확장 근거가 나와 있습니다.

확장 작업 사유 설명
확장 변동 없음 결정을 위해 더 많은 데이터 수집 자동 확장 처리에 수직 확장 또는 축소할 신호가 부족합니다. 예를 들어 작업자 풀 상태가 최근에 변경되었거나 백로그 또는 사용률 측정항목이 변동합니다.
확장 변경 없음, 안정적인 신호 리소스 이외의 관련 한도에 도달 확장은 키 동시 로드 또는 구성된 최소 및 최대 작업자 수와 같은 한도에 의해 제한됩니다.
낮은 백로그 및 높은 작업자 사용률 파이프라인의 자동 확장이 현재 트래픽과 구성을 고려하여 안정적인 값으로 수렴되었습니다. 확장을 변경할 필요가 없습니다.
수직 확장 높은 백로그 수직 확장하여 백로그를 줄입니다.
높은 작업자 사용률 대상 CPU 사용률이 달성되도록 수직 확장합니다.
비 리소스 관련 한도에 도달 최소 작업자 수가 업데이트되었으며 현재 작업자 수가 구성된 최솟값 이하입니다.
축소 낮은 작업자 사용률 대상 CPU 사용률이 달성되도록 축소합니다.
비 리소스 관련 한도에 도달 최대 작업자 수가 업데이트되었으며 현재 작업자 수가 구성된 최댓값을 초과합니다.

작업자 CPU 사용률

CPU 사용량은 사용 중인 CPU의 양을 처리에 사용할 수 있는 CPU의 양으로 나눈 값입니다. 평균 CPU 사용률 차트에는 시간 경과에 따른 모든 작업자의 평균 CPU 사용률, 작업자 사용률 힌트, Dataflow에서 힌트를 대상으로 적극적으로 사용했는지 여부가 표시됩니다.

모든 Dataflow 작업자의 평균 CPU 사용률을 보여주는 데이터 시각화

백로그(Streaming Engine만 해당)

최대 백로그 차트는 처리 대기 중인 요소에 대한 정보를 제공합니다. 차트에서는 새 데이터가 도착하지 않고 처리량이 변경되지 않는 경우 현재 백로그를 사용하는 데 필요한 시간(초)을 예측하여 보여줍니다. 예상 백로그 시간은 아직 처리해야 하는 입력 소스의 처리량과 백로그 바이트로부터 계산됩니다. 이 측정항목은 스트리밍 자동 확장 기능에서 수직 확장이나 축소 시기를 결정하는 데 사용됩니다.

이 차트의 데이터는 Streaming Engine을 사용하는 작업에만 사용할 수 있습니다. 스트리밍 작업이 Streaming Engine을 사용하지 않는 경우 차트는 비어 있습니다.

스트리밍 파이프라인의 최대 백로그 차트를 보여주는 데이터 시각화

권장사항

다음은 파이프라인에서 관찰할 수 있는 몇 가지 동작과 자동 확장 매개변수를 조정하는 방법에 대한 권장사항입니다.

  • 과도한 축소. 대상 CPU 사용률이 너무 높게 설정되면 Dataflow가 축소되고 백로그가 증가하기 시작하고 Dataflow가 안정적인 숫자를 수렴하는 대신 보완을 위해 다시 확장되는 패턴이 나타납니다. 이 문제를 완화하려면 작업자 사용률 힌트를 낮게 설정해 보세요. 백로그 증가가 시작되는 지점에서 CPU 사용률을 관찰하고 사용률 힌트를 해당 값으로 설정합니다.

  • 확장 속도가 너무 느림. 확장이 너무 느리면 트래픽 급증이 지연되어 지연 시간이 늘어날 수 있습니다. Dataflow가 더 빠르게 수직 확장되도록 작업자 사용률 힌트를 줄여보세요. 백로그 증가가 시작되는 지점에서 CPU 사용률을 관찰하고 사용률 힌트를 해당 값으로 설정합니다. 더 많은 작업자가 프로비저닝된 경우 힌트 값이 작을수록 총 파이프라인 비용이 증가할 수 있으므로 지연 시간과 비용을 모두 모니터링합니다.

  • 과도한 확장. 과도한 확장으로 인해 비용이 증가하는 경우에는 작업자 사용률 힌트를 늘리는 것이 좋습니다. 지연 시간을 모니터링하여 시나리오에서 허용되는 범위 내에 있는지 확인합니다.

새 작업자 사용률 힌트 값을 실험할 때마다 각 조정 후 파이프라인이 안정화될 때까지 몇 분 정도 기다립니다.

다음 단계