AWS용 GKE의 알려진 문제

이 페이지에서는 AWS용 GKE에 대해 알려진 문제 및 영향을 줄이기 위해 취할 수 있는 단계를 보여줍니다.

추가 지원이 필요하면 Cloud Customer Care에 문의하세요.

운영

클러스터 자동 확장 처리가 노드 0개에서 잘못 확장될 수 있음

다음은 이 문제의 영향을 받는 버전입니다.

  • 1.27 이전의 모든 버전
  • 1.27.0-gke.0 ~ 최대 1.27.12-gke.800(비포함) 사이의 1.27 버전
  • 1.28.0-gke.0 ~ 최대 1.28.8-gke.800(비포함) 사이의 1.28 버전

클러스터 자동 확장 처리가 커스텀 라벨 또는 taint가 있는 노드 풀에서 노드 0개부터 올바르게 확장되지 않습니다.

이 문제는 AWS용 GKE 클러스터 자동 확장 처리가 노드 풀 프로비저닝 중에 해당 노드 풀 자동 확장 그룹에서 노드 풀 라벨과 taint 태그를 구성하지 않았기 때문에 발생합니다. 노드가 0개인 노드 풀의 경우 이렇게 누락된 태그로 인해 클러스터 자동 확장 처리가 노드 템플릿을 올바르게 만들 수 없습니다. 이로 인해 포드가 적용 가능한 노드에 예약되지 않거나 실제로 필요하지 않은 노드가 프로비저닝되는 등 잘못된 확장 결정이 발생할 수 있습니다. 자세한 내용은 자동 검색 설정을 참조하세요.

네트워킹

conntrack 테이블 삽입 실패로 인한 애플리케이션 시간 초과

다음은 이 문제의 영향을 받는 버전입니다.

  • 1.23.8-gke.1700부터 시작하는 모든 1.23 버전
  • 1.24.0-gke.0부터 시작하는 모든 1.24 버전
  • 1.25.0-gke.0 ~ 최대 1.25.10-gke.1200(비포함) 범위의 1.25 버전
  • 1.26.0-gke.0 ~ 최대 1.26.4-gke.2200(비포함) 사이의 버전

커널 5.15 이상을 사용하는 Ubuntu OS에서 실행 중인 클러스터는 netfilter 연결 추적(conntrack) 테이블 삽입 실패에 취약합니다. conntrack 테이블에 새 항목을 위한 공간이 있는 경우에도 삽입 실패가 발생할 수 있습니다. 이러한 실패는 체인 길이를 기준으로 테이블 삽입을 제한하는 커널 5.15 이상의 변경사항으로 인해 발생합니다.

이 문제의 영향을 받는지 확인하려면 다음 명령어를 사용하여 커널 내 연결 추적 시스템 통계를 확인하세요.

sudo conntrack -S

응답은 다음과 같습니다.

cpu=0       found=0 invalid=4 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=1       found=0 invalid=0 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=2       found=0 invalid=16 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=3       found=0 invalid=13 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=4       found=0 invalid=9 insert=0 insert_failed=0 drop=0 early_drop=0
error=0 search_restart=0 clash_resolve=0 chaintoolong=0
cpu=5       found=0 invalid=1 insert=0 insert_failed=0 drop=0 early_drop=0
error=519 search_restart=0 clash_resolve=126 chaintoolong=0

응답의 chaintoolong 값이 0이 아닌 값이면 이 문제의 영향을 받습니다.

해결책

버전 1.26.2-gke.1001을 실행하는 경우 버전 1.26.4-gke.2200 이상으로 업그레이드하세요.

사용성

UI에서 연결할 수 없는 클러스터 감지

이 문제의 영향을 받는 버전은 1.25.5-gke.1500 및 1.25.4-gke.1300입니다.

Google Cloud 콘솔의 일부 UI 표시는 클러스터에 승인할 수 없으며, 클러스터에 연결할 수 없다고 표시할 수 있습니다.

해결책

클러스터를 버전 1.25의 사용 가능한 최신 패치로 업그레이드합니다. 이 문제는 1.25.5-gke.2000 버전에서 해결되었습니다.

API 오류

Kubernetes 1.22는 여러 API의 지원을 중단하고 대체합니다. 클러스터를 버전 1.22 이상으로 업그레이드한 경우 애플리케이션에서 지원 중단된 API 중 하나를 호출하면 실패합니다.

해결책

최신 API 호출로 지원 중단된 API 호출을 대체하려면 애플리케이션을 업그레이드하세요.