사용 사례: 네트워크 연결 문제 해결

이 사용 사례에서 여러 부하 분산 애플리케이션이 포함된 네트워크를 지원하는 네트워크 관리자라고 가정합니다. 지연 시간 문제에 대한 알림을 받았으며 조직의 모바일 애플리케이션이 간헐적으로 느리고 시간이 초과되었다는 메시지를 받았습니다. 여러 사용자가 영향을 받고 있으며 최근에 애플리케이션을 배포하지 않았음을 알고 있습니다. 이 문제는 애플리케이션이 아닌 환경의 변화와 관련이 있을 수 있습니다.

다음 사용 사례에서는 네트워크 토폴로지를 사용하여 배포 문제를 신속하게 해결하고 조사할 수 있는 방법을 보여줍니다.

토폴로지 세부정보

배포는 Google Cloud 리전 세 개(us-central1, europe-west1, asia-east1)에 걸쳐 있습니다. 모든 외부 클라이언트 요청은 리전 세 개 각각에 백엔드가 여러 개 있는 단일 외부 HTTP(S) 부하 분산기에서 처리됩니다. 3개의 비즈니스 리전(미주, EMEA, APAC) 중 하나에서 온 클라이언트 요청은 가장 가까운 Google Cloud 리전의 애플리케이션 인스턴스에서 제공됩니다.

다음 그래프는 배포의 최상위 계층 구조를 보여줍니다.

네트워크 지연 시간

이 시나리오에서는 이름이 shopping-site-lb인 부하 분산기가 있다고 가정합니다. 외부 클라이언트와 로드 밸런서 간의 지연 시간을 확인하여 클라이언트 간의 지연 시간이 변경되었는지 확인합니다. 부하 분산기의 백엔드를 추가로 조사하기로 결정했습니다.

  1. 외부 부하 분산기 shopping-site-lb에 대한 트래픽만 표시하도록 그래프를 필터링합니다.

    필터를 적용하면 다음 예시와 같이 네트워크 토폴로지에 부하 분산기와 관련된 연결만 표시됩니다.

  2. 미주 지역의 외부 클라이언트부터 시작하여 미주 비즈니스 리전과 부하 분산기 사이의 트래픽 측정항목을 클릭합니다.

    네트워크 토폴로지는 세부정보 창에 차트를 표시합니다. 이 정보에는 선택한 항목과 연결된 항목 간의 수신 및 송신 트래픽이 포함됩니다. 예를 들어 네트워크 토폴로지는 초당 쿼리 수(QPS) 및 HTTP 요청 지연 시간에 대한 최신 값을 제공합니다.

    요청 지연 시간 차트에는 50번째, 95번째, 99번째 백분위수 값이 표시됩니다. 이 예시에서는 모든 지연 시간 값이 예상보다 높다고 가정합니다.

  3. 세부정보 창의 상단에서 6시간을 클릭하여 시계열 차트를 6시간으로 확장합니다.

    1그림은 참조용입니다. 데이터에는 사용 사례가 반영되어 있지 않습니다.

    약 2시간 전에 발생한 첫 번째 문제가 보고되었을 때 크게 증가한 것을 확인했습니다. 이 문제는 부하 분산기의 지연 시간 증가와 관련이 있다고 확신합니다.

  4. 문제를 개략적으로 파악하고 Google Cloud Console의 부하 분산 페이지로 이동하여 부하 분산기를 더 자세히 조사합니다. 최종적으로 부하 분산기의 백엔드 서비스에 있는 인스턴스가 응답하는 데 평소보다 시간이 오래 걸리고 있습니다. 이 인스턴스를 서비스에서 제거하면 문제가 해결됩니다.

다음 단계