네트워크 연결 문제해결

이 사용 사례에서 여러 부하 분산 애플리케이션이 포함된 네트워크를 지원하는 네트워크 관리자라고 가정합니다. 지연 시간 문제에 대한 알림을 받았으며 조직의 모바일 애플리케이션이 간헐적으로 느리고 시간이 초과되었다는 메시지를 받았습니다. 여러 사용자가 영향을 받고 있으며 최근에 애플리케이션을 배포하지 않았음을 알고 있습니다. 이 문제는 애플리케이션이 아닌 환경의 변화와 관련이 있을 수 있습니다.

다음 사용 사례는 네트워크 토폴로지를 사용하여 배포 문제를 신속하게 해결하고 조사하는 방법을 보여줍니다.

토폴로지 세부정보

배포는 3개의 Google Cloud 리전(us-central1, europe-west1, asia-east1)에 걸쳐 있습니다. 모든 외부 클라이언트 요청은 단일 HTTP(S) 부하 분산기에 의해 제공되며, 부하 분산기의 백엔드는 3개의 각 리전에 여러 개가 있습니다. 3개의 비즈니스 리전(미주, EMEA, APAC) 중 하나에서 온 클라이언트 요청은 가장 가까운 Google Cloud 리전의 애플리케이션 인스턴스에서 제공됩니다.

다음 그래프는 배포의 최상위 계층 구조를 보여줍니다.

네트워크 지연 시간

이 시나리오에서는 이름이 shopping-site-lb인 부하 분산기가 있다고 가정합니다. 외부 클라이언트와 로드 밸런서 간의 지연 시간을 확인하여 클라이언트 간의 지연 시간이 변경되었는지 확인합니다. 부하 분산기의 백엔드를 추가로 조사하기로 결정했습니다.

  1. 외부 부하 분산기 shopping-site-lb에 대한 트래픽만 표시하도록 그래프를 필터링합니다.

    필터를 적용하면 다음 예시와 같이 네트워크 토폴로지에 부하 분산기와 관련된 연결만 표시됩니다.

  2. 미주 지역의 외부 클라이언트부터 시작하여 미주 비즈니스 리전과 부하 분산기 사이의 트래픽 측정항목을 클릭합니다.

    네트워크 토폴로지는 세부정보 창에 차트를 표시합니다. 이 정보에는 선택한 항목과 연결된 항목 간의 수신 및 송신 트래픽이 포함됩니다. 예를 들어 네트워크 토폴로지는 초당 쿼리 수(QPS) 및 HTTP 요청 지연 시간에 대한 최신 값을 제공합니다.

    요청 지연 시간 차트에는 50번째, 95번째, 99번째 백분위 수 값이 표시됩니다. 이 예시에서는 모든 지연 시간 값이 예상보다 높다고 가정합니다.

  3. 세부정보 창의 상단에서 6시간을 클릭하여 시계열 차트를 6시간으로 확장합니다.

    1 그림은 참조용입니다. 데이터에는 사용 사례가 반영되어 있지 않습니다.

    약 2시간 전에 발생한 첫 번째 문제가 보고되었을 때 크게 증가한 것을 확인했습니다. 이 문제는 부하 분산기의 지연 시간 증가와 관련이 있다고 확신합니다.

  4. 문제에 대한 높은 수준의 견해를 가지면서 부하 분산 콘솔로 이동하여 부하 분산기를 추가로 조사합니다. 결국 부하 분산기 백엔드 서비스의 인스턴스가 응답하는 데 평소보다 오래 걸리는 것을 알게 되었습니다. 해당 인스턴스를 사용하지 않으면 문제가 해결됩니다.

다음 단계