설치
멀티 NIC, containerd
, 프록시를 사용할 때 클러스터 생성 실패
다음 조건 조합이 있으면 클러스터 생성이 실패합니다.
클러스터는 컨테이너 런타임으로
containerd
를 사용하도록 구성됩니다(클러스터 구성 파일에서containerd
이 Anthos clusters on bare metal 1.8의 기본값인nodeConfig.containerRuntime
로 설정됨).클러스터는 포드(클러스터 구성 파일에서
true
로 설정된spec.clusterNetwork.multipleNetworkInterfaces
)에 다중 네트워크 인터페이스인 멀티 NIC를 제공하도록 구성됩니다.클러스터가 프록시를 사용하도록 구성됩니다(
spec.proxy.url
이 클러스터 구성 파일에 지정됨). 클러스터 만들기가 실패하더라도 클러스터를 만들려고 하면 이 설정이 전파됩니다. 이 프록시 설정은HTTPS_PROXY
환경 변수 또는containerd
구성(/etc/systemd/system/containerd.service.d/09-proxy.conf
)으로 표시될 수 있습니다.
이 문제를 해결하려면 모든 노드 머신의 NO_PROXY
환경 변수에 서비스 CIDR(clusterNetwork.services.cidrBlocks
)을 추가합니다.
Control group v2 비호환성
Control group v2(cgroup v2)는 베어메탈용 Anthos 클러스터 1.6와 호환되지 않습니다.
Kubernetes 1.18은 cgroup v2를 지원하지 않습니다. 또한 Docker는 20.10부터 실험용 지원만 제공합니다. systemd는 기본적으로 버전 247.2-2에서 cgroup v2로 전환되었습니다.
/sys/fs/cgroup/cgroup.controllers
가 있으면 시스템이 cgroup v2를 사용한다는 의미입니다.
실행 전 검사에서 cgroup v2가 클러스터 머신에서 사용되지 않는지 확인합니다.
설치 중 무해한 오류 메시지
클러스터 생성 로그를 검사할 때 클러스터 등록 또는 웹훅 호출과 관련된 일시적인 실패가 발생할 수 있습니다. 설치 시 해당 작업을 성공할 때까지 재시도하므로 이러한 오류는 무시해도 안전합니다.
실행 전 검사 및 서비스 계정 사용자 인증 정보
관리자 또는 하이브리드 클러스터에 의해 트리거된 설치(즉, 사용자 클러스터와 같이 bmctl
로 생성되지 않은 클러스터)의 경우 실행 전 검사는 Google Cloud Platform 서비스 계정 사용자 인증 정보 또는 연결된 권한을 확인하지 않습니다.
실행 전 검사 및 권한이 거부됨
설치 중에 /bin/sh: /tmp/disks_check.sh: Permission denied
에 대한 오류가 표시될 수 있습니다.
이러한 오류 메시지는 /tmp
가 noexec
옵션으로 마운트된 경우에 발생합니다.
bmctl
이 작동하려면 /tmp
마운트 지점에서 noexec
옵션을 삭제해야 합니다.
애플리케이션 기본 사용자 인증 정보 및 bmctl
bmctl
은 global
로 설정되지 않은 경우 애플리케이션 기본 사용자 인증 정보(ADC)를 사용하여 cluster spec
에서 클러스터 작업의 위치 값을 검사합니다.
ADC가 작동하려면 GOOGLE_APPLICATION_CREDENTIALS
환경 변수가 서비스 계정 사용자 인증 정보 파일을 가리키거나 gcloud auth application-default login
을 실행해야 합니다.
Ubuntu 20.04 LTS 및 bmctl
1.8.2 이전의 베어메탈용 Anthos 클러스터에서 최신 Linux 커널(5.8 커널의 GCP Ubuntu 20.04 LTS 이미지 포함)을 사용하는 일부 Ubuntu 20.04 LTS 배포는 비초기화 네트워크 네임스페이스에서 /proc/sys/net/netfilter/nf_conntrack_max
를 읽기 전용으로 설정했습니다. 이로 인해 bmctl
에서 최대 연결 추적 테이블 크기를 설정할 수 없으므로 부트스트랩 클러스터가 시작되지 않습니다. 잘못된 테이블 크기로 인한 증상은 다음 샘플 오류 로그와 같이 부트스트랩 클러스터의 kube-proxy
포드가 비정상적으로 종료된다는 점입니다.
kubectl logs -l k8s-app=kube-proxy -n kube-system --kubeconfig ./bmctl-workspace/.kindkubeconfig
I0624 19:05:08.009565 1 conntrack.go:100] Set sysctl 'net/netfilter/nf_conntrack_max' to 393216
F0624 19:05:08.009646 1 server.go:495] open /proc/sys/net/netfilter/nf_conntrack_max: permission denied
해결 방법은 다음과 같이 호스트에서 net/netfilter/nf_conntrack_max
를 필요한 값으로 수동 설정하는 것입니다. sudo sysctl net.netfilter.nf_conntrack_max=393216
. 필요한 값은 노드의 코어 수에 따라 다릅니다. 위에 표시된 kubectl logs
명령어를 사용하여 kube-proxy
로그에서 원하는 값을 확인합니다.
이 문제는 Anthos clusters on bare metal 1.8.2 이상에서 수정되었습니다.
Docker 서비스
클러스터 노드 머신에서 Docker 실행 파일이 PATH
환경 변수에 있지만 Docker 서비스가 활성 상태가 아닌 경우 실행 전 검사가 실패하고 Docker service is not active
가 보고됩니다. 이 오류를 해결하려면 Docker를 삭제하거나 Docker 서비스를 사용 설정합니다.
레지스트리 미러 및 Cloud Audit Logging
베어메탈 버전 1.8.2 이전의 Anthos 클러스터에서는 bmctl
레지스트리 미러 패키지에 gcr.io/anthos-baremetal-release/auditproxy:gke_master_auditproxy_20201115_RC00
이미지가 없습니다. 레지스트리 미러를 사용할 때 Cloud Audit Logging 기능을 사용 설정하려면 누락된 이미지를 수동으로 다운로드하고 다음 명령어를 사용하여 레지스트리 서버에 푸시해야 합니다.
docker pull gcr.io/anthos-baremetal-release/auditproxy:gke_master_auditproxy_20201115_RC00
docker tag gcr.io/anthos-baremetal-release/auditproxy:gke_master_auditproxy_20201115_RC00 REGISTRY_SERVER/anthos-baremetal-release/auditproxy:gke_master_auditproxy_20201115_RC00
docker push REGISTRY_SERVER/anthos-baremetal-release/auditproxy:gke_master_auditproxy_20201115_RC00
Containerd는 PATH에 /usr/local/bin
필요
containerd 런타임이 있는 클러스터는 /usr/local/bin
이 SSH 사용자의 PATH에 있어야 kubeadm init
명령어로 crictl
바이너리를 찾을 수 있습니다.
crictl
을 찾을 수 없으면 클러스터 만들기가 실패합니다.
루트 사용자로 로그인되어 있지 않으면 sudo
가 kubeadm init
명령어를 실행하는 데 사용됩니다. sudo
PATH는 루트 프로필과 다를 수 있으며 /usr/local/bin
을 포함할 수 없습니다.
/usr/local/bin
이 포함되도록 /etc/sudoers
의 secure_path
를 업데이트하여 이 오류를 수정합니다. 또는 다른 /bin
디렉터리에 crictl
의 기호화된 링크를 만듭니다.
베어메탈용 Anthos 클러스터 1.8.2부터 명령어를 실행할 때 PATH에 /usr/local/bin
을 추가합니다. 그러나 루트가 아닌 사용자로 스냅샷을 실행하면 여전히 crictl: command not found
가 포함됩니다(위의 해결 방법으로 수정할 수 있음).
vSphere에 설치
vSphere VM에 베어메탈용 Anthos 클러스터을 설치할 때 tx-udp_tnl-segmentation
및 tx-udp_tnl-csum-segmentation
플래그를 사용 중지로 설정해야 합니다. 이 플래그는 vSphere 드라이버 VMXNET3에서 수행하는 하드웨어 세분화 오프로드와 관련이 있으며 베어메탈용 Anthos 클러스터의 GENEVE 터널과는 호환되지 않습니다.
각 노드에서 다음 명령어를 실행하여 이러한 플래그의 현재 값을 확인합니다.
ethtool -k NET_INTFC |grep segm
...
tx-udp_tnl-segmentation: on
tx-udp_tnl-csum-segmentation: on
...
NET_INTFC
를 노드의 IP 주소와 연결된 네트워크 인터페이스로 바꿉니다.
RHEL 8.4에서 ethtool
이 이러한 플래그가 사용 설정되었음에도 사용 중지된 것으로 표시하는 경우가 있습니다. 이 플래그를 명시적으로 사용 중지하려면 다음 명령어를 사용하여 플래그를 사용으로 전환한 후에 사용 중지합니다.
ethtool -K ens192 tx-udp_tnl-segmentation on
ethtool -K ens192 tx-udp_tnl-csum-segmentation on
ethtool -K ens192 tx-udp_tnl-segmentation off
ethtool -K ens192 tx-udp_tnl-csum-segmentation off
이 플래그 변경사항은 재부팅 후 유지되지 않습니다. 시스템을 부팅할 때 이러한 플래그를 명시적으로 설정하도록 시작 스크립트를 구성합니다.
노드 준비 플랩
경우에 따라 클러스터에서 노드 준비 플랩(Ready
및 NotReady
사이에 급격하게 변경되는 노드 상태) 동작이 나타날 수 있습니다. 비정상 포드 수명 주기 이벤트 생성기(PLEG)가 이 동작을 발생시킵니다. PLEG는 kubelet의 모듈입니다.
비정상 PLEG가 이 동작을 일으키는지 확인하려면 다음 journalctl
명령어를 사용하여 PLEG 로그 항목을 확인합니다.
journalctl -f | grep -i pleg
다음과 같은 로그 항목은 PLEG가 비정상임을 나타냅니다.
...
skipping pod synchronization - PLEG is not healthy: pleg was last seen active
3m0.793469
...
알려진 runc
경합 상태는 비정상 PLEG의 원인일 수 있습니다. 멈춘 runc
프로세스는 경합 상태의 증상입니다. 다음 명령어를 사용하여 runc init
프로세스 상태를 확인합니다.
ps aux | grep 'runc init'
문제 해결 방법
클러스터 런타임을 결정합니다.
runc
버전을 업데이트하려면 먼저 클러스터에서 사용하는 컨테이너 런타임을 결정해야 합니다. 클러스터 구성 파일의containerRuntime
필드는 클러스터가 사용하는 컨테이너 런타임을 식별합니다.containerRuntime
이containerd
로 설정되면 클러스터에서는 containerd 런타임을 사용합니다. 필드가docker
로 설정되거나 설정되지 않으면 클러스터는 Docker 런타임을 사용합니다.값을 가져오려면 원하는 편집기로 클러스터 구성 파일을 열거나 관리자 클러스터 kubeconfig에 액세스할 수 있는 경우 다음 명령어를 실행합니다.
kubctl describe cluster CLUSTER_NAME -n CLUSTER_NAMESPACE | grep -i runtime
다음을 바꿉니다.
CLUSTER_NAME
: 백업할 클러스터의 이름입니다.CLUSTER_NAMESPACE
: 클러스터의 네임스페이스입니다. 기본적으로 베어메탈용 Anthos 클러스터에 대한 클러스터 네임스페이스는cluster-
가 앞에 표시된 클러스터 이름입니다.
containerd.io 또는 docker-ce를 설치하고 최신
runc
명령줄 도구를 추출하려면 각 노드의 운영체제 및 컨테이너 런타임에 해당하는 명령어를 실행합니다.Ubuntu Containerd
sudo apt update sudo apt install containerd.io # Back up current runc cp /usr/local/sbin/runc ~/ sudo cp /usr/bin/runc /usr/local/sbin/runc # runc version should be > 1.0.0-rc93 /usr/local/sbin/runc --version
Ubuntu Docker
sudo apt update sudo apt install docker-ce # Back up current runc cp /usr/local/sbin/runc ~/ sudo cp /usr/bin/runc /usr/local/sbin/runc # runc version should be > 1.0.0-rc93 /usr/local/sbin/runc --version
CentOS/RHEL Containerd
sudo dnf install containerd.io # Back up current runc cp /usr/local/sbin/runc ~/ sudo cp /usr/bin/runc /usr/local/sbin/runc # runc version should be > 1.0.0-rc93 /usr/local/sbin/runc --version
CentOS/RHEL Docker
sudo dnf install docker-ce # Back up current runc cp /usr/local/sbin/runc ~/ sudo cp /usr/bin/runc /usr/local/sbin/runc # runc version should be > 1.0.0-rc93 /usr/local/sbin/runc --version
runc init
프로세스가 중단된 경우 노드를 재부팅합니다.또는 중단된 프로세스를 수동으로 삭제할 수 있습니다.
업그레이드 및 업데이트
.manifests
디렉터리가 없으면 bmctl update cluster
가 실패합니다.
bmctl update cluster
를 실행하기 전에 .manifests
디렉터리를 제거하면 명령어가 실패하고 다음과 비슷한 오류가 발생합니다.
Error updating cluster resources.: failed to get CRD file .manifests/1.9.0/cluster-operator/base/crd/bases/baremetal.cluster.gke.io_clusters.yaml: open .manifests/1.9.0/cluster-operator/base/crd/bases/baremetal.cluster.gke.io_clusters.yaml: no such file or directory
먼저 bmctl check cluster
를 실행하여 이 문제를 해결할 수 있습니다. 그러면 .manifests
디렉터리가 다시 생성됩니다.
이 문제는 베어메탈용 Anthos 클러스터 1.10 이하에 적용되며 버전 1.11 이상에서는 해결되었습니다.
error during manifests operations
에서 업그레이드 중단
경우에 따라 클러스터 업그레이드가 완료되지 않고 bmctl
CLI가 응답하지 않습니다. 이 문제는 잘못 업데이트된 리소스로 인해 발생할 수 있습니다. 이 문제의 영향을 받는지 확인하고 수정하려면 다음 단계를 따르세요.
anthos-cluster-operator
로그를 확인하고 다음 항목과 비슷한 오류를 찾으세요.controllers/Cluster "msg"="error during manifests operations" "error"="1 error occurred: ... {RESOURCE_NAME} is invalid: metadata.resourceVersion: Invalid value: 0x0: must be specified for an update
이러한 항목은 잘못 업데이트된 리소스의 증상이며, 여기서
{RESOURCE_NAME}
은 문제 리소스의 이름입니다.로그에 이러한 오류가 있으면
kubectl edit
를 사용하여 로그 메시지에 포함된 리소스에서kubectl.kubernetes.io/last-applied-configuration
주석을 삭제하세요.변경사항을 저장하고 리소스에 적용합니다.
클러스터 업그레이드를 다시 시도합니다.
유지보수 모드에서 버전 1.8 클러스터 업그레이드 실패
노드 머신이 이전에 유지보수 모드로 전환된 경우 버전 1.8.x 클러스터를 버전 1.9.x로 업그레이드하려는 시도가 실패합니다. 이러한 노드에 남아 있는 주석 때문입니다.
이 문제의 영향을 받는지 확인하려면 다음 단계를 따르세요.
다음 명령어를 실행하여 업그레이드하려는 클러스터 버전을 가져옵니다.
kubectl --kubeconfig ADMIN_KUBECONFIG get cluster CLUSTER_NAME \ -n CLUSTER_NAMESPACE --output=jsonpath="{.spec.anthosBareMetalVersion}"
반환된 버전 값이
1.8.3
과 같은 1.8 부 출시 버전에 대한 것이라면 계속합니다. 그렇지 않으면 이 문제가 사용자에게 적용되지 않습니다.다음 명령어를 실행하여 이전에 유지보수 모드로 전환된 노드가 클러스터에 있는지 확인합니다.
kubectl --kubeconfig ADMIN_KUBECONFIG get BareMetalMachines -n CLUSTER_NAMESPACE \ --output=jsonpath="{.items[*].metadata.annotations}"
반환된 주석에
baremetal.cluster.gke.io/maintenance-mode-duration
이 포함되어 있으면 이 알려진 문제의 영향을 받는 것입니다.
클러스터 업그레이드를 차단 해제하려면 영향을 받는 각 노드 머신에서 다음 명령어를 실행하여 baremetal.cluster.gke.io/maintenance-mode-duration
주석을 삭제합니다.
kubectl --kubeconfig ADMIN_KUBECONFIG annotate BareMetalMachine -n CLUSTER_NAMESPACE \
NODE_MACHINE_NAME baremetal.cluster.gke.io/maintenance-mode-duration-
bmctl update
는 유지보수 블록을 삭제하지 않습니다.
bmctl update
명령어는 클러스터 리소스 구성에서 maintenanceBlocks
섹션을 삭제하거나 수정할 수 없습니다. 유지보수 모드에서 노드를 삭제하는 방법 등 자세한 내용은 유지보수 모드로 노드 배치를 참조하세요.
특정 부하 분산기 구성에서 1.7.x의 클러스터 업그레이드 실패
다음 부하 분산기 구성에서 클러스터 버전을 1.7.x에서 1.8.y로 업그레이드하지 못할 수 있습니다.
수동으로 구성된 외부 부하 분산기(
loadBalancer.mode
가manual
로 설정됨)별도의 노드 풀(
loadBalancer.nodePoolSpec.nodes
가 지정됨)을 사용하여 번들 부하 분산(loadBalancer.mode
가bundled
로 설정됨)
이 실패의 증상은 제어 영역 노드의 cal-update
작업이 연결 거부 오류 메시지와 함께 Check apiserver health
작업에서 실패합니다.
다음은 cal-update
작업의 샘플 로그입니다.
TASK [cal-update : Check apiserver health] *************************************
Thursday 20 January 2022 13:50:46 +0000 (0:00:00.033) 0:00:09.316 ******
FAILED - RETRYING: Check apiserver health (30 retries left).
FAILED - RETRYING: Check apiserver health (29 retries left).
FAILED - RETRYING: Check apiserver health (28 retries left).
FAILED - RETRYING: Check apiserver health (27 retries left).
FAILED - RETRYING: Check apiserver health (26 retries left).
...
FAILED - RETRYING: Check apiserver health (3 retries left).
FAILED - RETRYING: Check apiserver health (2 retries left).
FAILED - RETRYING: Check apiserver health (1 retries left).
[WARNING]: Consider using the get_url or uri module rather than running 'curl'.
If you need to use command because get_url or uri is insufficient you can add
'warn: false' to this command task or set 'command_warnings=False' in
ansible.cfg to get rid of this message.
fatal: [10.50.116.79]: FAILED! => {"attempts": 30, "changed": true, "cmd": "curl
-k https://127.0.0.1/healthz", "delta": "0:00:00.008949", "end": "2022-01-20
19:22:30.381875", "msg": "non-zero return code", "rc": 7, "start": "2022-01-20
19:22:30.372926", "stderr": " % Total % Received % Xferd Average Speed
Time Time Time Current\n Dload Upload
Total Spent Left Speed\n\r 0 0 0 0 0 0 0 0 --
:--:-- --:--:-- --:--:-- 0curl: (7) Failed to connect to 127.0.0.1 port 443:
Connection refused", "stderr_lines": [" % Total % Received % Xferd Average
Speed Time Time Time Current", " Dload
Upload Total Spent Left Speed", "", " 0 0 0 0 0 0
0 0 --:--:-- --:--:-- --:--:-- 0curl: (7) Failed to connect to
127.0.0.1 port 443: Connection refused"], "stdout": "", "stdout_lines": []}
수동 해결 방법으로 업그레이드하기 전에 포트 443
(확인이 발생하는 위치)에서 포트 6444
(apiserver
가 리슨하는 위치)로 전달 포트를 만듭니다. 포트 전달을 만들려면 각 제어 영역 노드에서 다음 명령어를 실행합니다.
sudo iptables -t nat -I OUTPUT -p tcp -o lo --dport 443 -j REDIRECT --to-ports 6444
조정이 있으면 cal-update
작업이 실행되고 443
포트에서 확인되므로 1.8.x로 업그레이드된 클러스터에 대해 이 포트 전달을 계속 유지해야 합니다.
버전 1.9.0 이상으로 업그레이드한 후 각 제어 영역 노드에서 다음 명령어를 실행하여 포트 전달을 삭제합니다.
sudo iptables -t nat -D OUTPUT -p tcp -o lo --dport 443 -j REDIRECT --to-ports 6444
1.8.0 및 1.8.1 관리자, 하이브리드, 독립형 클러스터로의 업그레이드가 완료되지 않음
관리자, 하이브리드 또는 독립형 클러스터를 버전 1.7.x에서 버전 1.8.0 또는 1.8.1로 업그레이드하는 작업이 완료되지 않는 경우가 있습니다. 이 업그레이드 실패는 클러스터 생성 후 업데이트한 클러스터에 적용됩니다.
이 업그레이드 문제는 콘솔 출력 Waiting for upgrade
to complete ...
를 통해 업그레이드되는 노드를 알 수 없습니다. 또한 이 증상은 관리자 클러스터가 Anthos clusters on bare metal용 Kubernetes 버전 1.8.0 및 1.8.1인 Kubernetes 버전 v1.20.8-gke.1500으로 성공적으로 업그레이드되었음을 나타냅니다.
이 업그레이드 문제는 Anthos clusters on bare metal 1.8.2에서 수정되었습니다.
이 문제가 1.8.0 또는 1.8.1로의 클러스터 업그레이드에 영향을 미치는지 확인하려면 다음을 수행하세요.
다음 셸 스크립트를 만듭니다.
if [ $(kubectl get cluster <var>CLUSTER\_NAME -n <var>CLUSTER\_NAMESPACE --kubeconfig bmctl-workspace/.kindkubeconfig -o=jsonpath='{.metadata.generation}') -le $(kubectl get cluster CLUSTER_NAME -n CLUSTER_NAMESPACE --kubeconfig bmctl-workspace/.kindkubeconfig -o=jsonpath='{{.status.systemServiceConditions[?(@.type=="Reconciling")].observedGeneration}}') ]; then echo "Bug Detected"; else echo "OK"; fi
다음을 바꿉니다.
CLUSTER_NAME
: 확인할 클러스터의 이름CLUSTER_NAMESPACE
: 클러스터의 네임스페이스
업그레이드가 진행되는 동안 실행 전 검사가 완료되면 스크립트를 실행합니다.
observedGeneration
값이generation
값보다 작지 않으면 콘솔 출력에Bug Detected
가 기록됩니다. 이 출력은 클러스터 업그레이드가 영향을 받음을 나타냅니다.업그레이드 차단을 해제하려면 다음 명령어를 실행합니다.
kubectl get --raw=/apis/baremetal.cluster.gke.io/v1/namespaces/CLUSTER_NAMESPACE/clusters/CLUSTER_NAME/status \ --kubeconfig bmctl-workspace/.kindkubeconfig | \ sed -e 's/\("systemServiceConditions":\[{[^{]*"type":"DashboardReady"}\),{[^{}]*}/\1/g' | \ kubectl replace --raw=/apis/baremetal.cluster.gke.io/v1/namespaces/CLUSTER_NAMESPACE/clusters/CLUSTER_NAME/status \ --kubeconfig bmctl-workspace/.kindkubeconfig -f-
다음을 바꿉니다.
CLUSTER_NAME
: 확인할 클러스터의 이름CLUSTER_NAMESPACE
: 클러스터의 네임스페이스
1.8.3 또는 1.8.4로 업그레이드
Anthos clusters on bare metal을 버전 1.8.3 또는 1.8.4로 업그레이드하면 nil 컨텍스트 오류와 함께 실패합니다. nil 컨텍스트 오류로 클러스터 업그레이드가 실패하면 다음 단계를 수행하여 업그레이드를 완료합니다.
GOOGLE_APPLICATION_CREDENTIALS
환경 변수가 서비스 계정 키 파일을 가리키도록 설정합니다.export GOOGLE_APPLICATION_CREDENTIALS=KEY_PATH
KEY_PATH
를 서비스 계정 키가 포함된 JSON 파일의 경로로 바꿉니다.bmctl upgrade cluster
명령어를 다시 실행합니다
사용자 클러스터 패치 업그레이드 제한사항
관리자 클러스터에서 관리하는 사용자 클러스터는 동일한 Anthos clusters on bare metal 버전 이하 및 부 출시 버전 하나에 있어야 합니다. 예를 들어 버전 1.6.2 사용자 클러스터를 관리하는 버전 1.7.1(anthosBareMetalVersion: 1.7.1
) 관리자 클러스터가 허용됩니다.
업그레이드 제한사항으로 인해 관리자 클러스터가 사용 중인 출시 버전 이후의 패치가 출시될 때 사용자 클러스터가 새 보안 패치로 업그레이드될 수 없습니다. 예를 들어 관리자 클러스터가 2021년 6월 2일에 출시된 버전 1.7.2인 경우 사용자 클러스터를 2021년 8월 13일에 출시된 버전 1.6.4로 업그레이드할 수 없습니다.
Ubuntu 18.04 및 18.04.1 비호환성
1.8.1 또는 1.8.2로 업그레이드하려면 bmctl
을 실행하는 클러스터 노드 머신과 워크스테이션이 Linux 커널 버전 4.17.0 이상이어야 합니다. 그렇지 않으면 anetd
네트워킹 컨트롤러가 작동하지 않습니다. 증상으로는 kube-system
네임스페이스에서 anet
프리픽스가 있는 포드가 계속 다음 오류 메시지와 함께 비정상 종료됩니다.
BPF NodePort services needs kernel 4.17.0 or newer.
Ubuntu 18.04 및 18.04.1은 커널 버전 4.15에 있으므로 이 문제로 인한 영향을 받습니다.
이 문제는 Anthos clusters on bare metal 1.8.3에서 해결되었습니다.
containerd를 사용하는 1.7.x 클러스터 업그레이드
미리보기 containerd 기능을 사용하도록 구성된 1.7.x 클러스터는 1.8.x로 업그레이드되지 않습니다. containerd 미리보기는 권장 systemd
드라이버 대신 잘못된 제어 그룹(cgroup) 드라이버 cgroupfs
를 사용합니다. cgroupfs
드라이버를 사용하는 클러스터가 리소스 압력을 받을 때 클러스터 불안정이 보고되는 경우가 있습니다. 출시 버전 1.8.0의 GA containerd 기능은 올바른 systemd
드라이버를 사용합니다.
미리보기 containerd 컨테이너 런타임 기능을 사용하는 기존 1.7.x 클러스터가 있는 경우, containerd용으로 구성된 새 1.8.0 클러스터를 만들어 기존 앱 및 워크로드를 마이그레이션하는 것이 좋습니다. 이렇게 하면 containerd 컨테이너 런타임을 사용할 때 클러스터 안정성이 가장 높습니다.
SELinux 업그레이드 실패
containerd 컨테이너 런타임으로 구성된 1.7.1 클러스터 업그레이드 및 RHEL 또는 CentOS에서 SELinux 실행이 실패합니다. containerd를 사용하고 워크로드를 마이그레이션하도록 구성된 새 1.8.0 클러스터를 만드는 것이 좋습니다.
노드가 오프라인 상태일 때 노드 드레이닝을 시작할 수 없음
노드가 베어메탈용 Anthos 클러스터에서 벗어나면 노드의 드레이닝 프로세스가 시작되지 않습니다. 예를 들어 클러스터 업그레이드 프로세스 중에 노드가 오프라인 상태가 되면 업그레이드가 응답하지 않을 수 있습니다. 이러한 경우는 드뭅니다. 이 문제 발생 가능성을 최소화하려면 업그레이드를 시작하기 전에 노드가 올바르게 작동하는지 확인합니다.
작업
kubeconfig 보안 비밀을 덮어씀
bmctl check cluster
명령어는 사용자 클러스터에서 실행될 때 사용자 클러스터 kubeconfig 보안 비밀을 관리자 클러스터 kubeconfig로 덮어씁니다. 파일을 덮어쓰면 업데이트 및 업그레이드와 같은 표준 클러스터 작업이 영향을 받는 사용자 클러스터에 실패합니다. 이 문제는 베어메탈용 Anthos 클러스터 버전 1.11.1 이하에 적용됩니다.
사용자 클러스터가 이 문제의 영향을 받는지 확인하려면 다음 명령어를 실행합니다.
kubectl --kubeconfig ADMIN_KUBECONFIG get secret -n cluster-USER_CLUSTER_NAME \
USER_CLUSTER_NAME -kubeconfig -o json | jq -r '.data.value' | base64 -d
다음을 바꿉니다.
ADMIN_KUBECONFIG
: 관리자 클러스터 kubeconfig 파일의 경로USER_CLUSTER_NAME
: 확인할 사용자 클러스터의 이름
출력의 클러스터 이름(다음 샘플 출력의 contexts.context.cluster
참조)이 관리자 클러스터 이름인 경우 지정된 사용자 클러스터가 영향을 받습니다.
user-cluster-kubeconfig -o json | jq -r '.data.value' | base64 -d
apiVersion: v1
clusters:
- cluster:
certificate-authority-data:LS0tLS1CRU...UtLS0tLQo=
server: https://10.200.0.6:443
name: ci-aed78cdeca81874
contexts:
- context:
cluster: ci-aed78cdeca81874
user: ci-aed78cdeca81874-admin
name: ci-aed78cdeca81874-admin@ci-aed78cdeca81874
current-context: ci-aed78cdeca81874-admin@ci-aed78cdeca81874
kind: Config
preferences: {}
users:
- name: ci-aed78cdeca81874-admin
user:
client-certificate-data: LS0tLS1CRU...UtLS0tLQo=
client-key-data: LS0tLS1CRU...0tLS0tCg==
다음 단계에서는 영향을 받는 사용자 클러스터(USER_CLUSTER_NAME
)로 함수를 복원합니다.
사용자 클러스터 kubeconfig 파일을 찾습니다.
클러스터를 만들면 베어메탈용 Anthos 클러스터이 관리자 워크스테이션에 kubeconfig 파일을 생성합니다. 기본적으로 이 파일은
bmctl-workspace/USER_CLUSTER_NAME
디렉터리에 있습니다.kubeconfig가 올바른 사용자 클러스터 kubeconfig인지 확인하세요.
kubectl get nodes --kubeconfig PATH_TO_GENERATED_FILE
PATH_TO_GENERATED_FILE
를 사용자 클러스터 kubeconfig 파일의 경로로 바꿉니다. 응답으로 사용자 클러스터의 노드에 대한 세부정보가 반환됩니다. 클러스터의 머신 이름이 올바른지 확인합니다.다음 명령어를 실행하여 관리자 클러스터에서 손상된 kubeconfig 파일을 삭제합니다.
kubectl delete secret -n USER_CLUSTER_NAMESPACE USER_CLUSTER_NAME-kubeconfig
다음 명령어를 실행하여 올바른 kubeconfig 보안 비밀을 관리자 클러스터에 다시 저장합니다.
kubectl create secret generic -n USER_CLUSTER_NAMESPACE USER_CLUSTER_NAME-kubeconfig \ --from-file=value=PATH_TO_GENERATED_FILE
재설정/삭제
네임스페이스 삭제
네임스페이스를 삭제하면 머신을 재설정하기 위한 작업을 포함하여 해당 네임스페이스에 새 리소스가 생성되지 않습니다. 사용자 클러스터를 삭제할 때는 먼저 클러스터 객체를 삭제한 후 네임스페이스를 삭제해야 합니다. 그렇지 않으면 머신 재설정 작업을 생성할 수 없으며 삭제 프로세스는 머신 삭제 단계를 건너뜁니다.
containerd 서비스
bmctl reset
명령어는 containerd
구성 파일 또는 바이너리를 삭제하지 않습니다. containerd systemd
서비스는 계속 실행 중인 상태입니다.
이 명령어는 노드에 예약된 포드를 실행하는 컨테이너를 삭제합니다.
보안
업그레이드 중에 클러스터 CA 인증서가 순환됩니다. 주문형 순환 지원은 미리보기 기능입니다.
Anthos clusters on bare metal은 kubelet
제공 인증서를 자동으로 순환합니다.
인증서가 만료될 때 각 kubelet
노드 에이전트가 인증서 서명 요청(CSR)을 전송할 수 있습니다. 관리자 클러스터의 컨트롤러가 CSR을 검사하고 승인합니다.
클러스터 CA 순환(미리보기 기능)
클러스터에서 사용자 클러스터 인증 기관(CA) 순환을 수행하면 모든 사용자 인증 흐름이 실패합니다. 이러한 오류는 인증 흐름에 사용된 ClientConfig 커스텀 리소스가 CA 순환 중에 새 CA 데이터로 업데이트되지 않으므로 발생합니다. 클러스터에서 클러스터 CA 순환을 수행한 경우 kube-public
네임스페이스의 default
ClientConfig에 있는 certificateAuthorityData
필드에 이전 클러스터 CA가 포함되어 있는지 확인합니다.
문제를 수동으로 해결하려면 certificateAuthorityData
필드를 현재 클러스터 CA로 업데이트합니다.
네트워킹
번들 레이어 2 부하 분산이 있는 클라이언트 소스 IP
외부 트래픽 정책을 Local
로 설정하면 번들 레이어 2 부하 분산에 라우팅 오류(예: No route to host
)가 발생할 수 있습니다. 외부 트래픽 정책은 기본적으로 Cluster
(externalTrafficPolicy: Cluster
)로 설정됩니다. 이 설정을 사용하면 Kubernetes가 클러스터 전체의 트래픽을 처리합니다. LoadBalancer
또는 NodePort
유형의 서비스는 externalTrafficPolicy: Local
를 사용하여 클라이언트 소스 IP 주소를 보존할 수 있습니다.
그러나 이 설정을 사용하면 Kubernetes가 노드 로컬 트래픽만 처리합니다.
클라이언트 소스 IP 주소를 보존하려는 경우 서비스 IP에 도달할 수 있도록 추가 구성이 필요할 수 있습니다. 구성에 대한 자세한 내용은 번들 부하 분산 구성의 클라이언트 소스 IP 주소 유지를 참조하세요.
firewalld를 수정하면 Cilium iptable 정책 체인이 삭제됩니다.
CentOS 또는 Red Had Enterprise Linux(RHEL)에서 사용 설정된 firewalld
로 베어메탈용 Anthos 클러스터을 실행할 때 firewalld
를 변경하면 호스트 네트워크에서 Cilium iptables
체인이 삭제될 수 있습니다. iptables
체인은 anetd
포드 시작 시 추가됩니다. Cilium iptables
체인이 손실되면 노드의 포드에서 노드 외부의 네트워크 연결이 끊어집니다.
iptables
체인을 삭제하는 firewalld
의 변경사항에는 다음이 포함되지만 이에 국한되지 않습니다.
systemctl
를 사용하여firewalld
다시 시작- 명령줄 클라이언트(
firewall-cmd --reload
)로firewalld
새로고침
노드에서 anetd
를 다시 시작하여 이 연결 문제를 해결할 수 있습니다. 다음 명령어로 anetd
포드를 찾아 삭제하고 anetd
를 다시 시작합니다.
kubectl get pods -n kube-system
kubectl delete pods -n kube-system ANETD_XYZ
ANETD_XYZ를 anetd
포드의 이름으로 바꿉니다.
중복된 egressSourceIP
주소
이그레스 NAT 게이트웨이 기능 미리보기를 사용하는 경우 다른 EgressNATPolicy
객체에 이미 사용되는 egressSourceIP
주소를 지정하는 트래픽 선택 규칙을 설정할 수 있습니다. 이렇게 하면 이그레스 트래픽 라우팅이 충돌합니다. 개발팀과 협력하여 EgressNATPolicy
커스텀 리소스에 egressSourceIP
주소를 지정하기 전에 사용 가능한 유동 IP 주소를 결정합니다.
I/O 제한 시간 및 역방향 경로 필터링으로 인한 포드 연결 실패
베어메탈용 Anthos 클러스터는 노드에서 역방향 경로 필터링을 구성하여 소스 유효성 검사(net.ipv4.conf.all.rp_filter=0
)를 중지합니다. rp_filter
설정이 1
또는 2
로 변경되면 노드 외부 통신 제한 시간으로 인해 포드가 실패합니다.
Kubernetes Service IP 주소와 통신하는 연결 실패가 이 문제의 증상입니다. 다음은 표시될 수 있는 오류 유형의 몇 가지 예시입니다.
특정 노드의 모든 포드가 서비스 IP 주소와 통신하지 못하면
istiod
포드에서 다음과 같은 오류를 보고할 수 있습니다.{"severity":"Error","timestamp":"2021-11-12T17:19:28.907001378Z", "message":"watch error in cluster Kubernetes: failed to list *v1.Node: Get \"https://172.26.0.1:443/api/v1/nodes?resourceVersion=5 34239\": dial tcp 172.26.0.1:443: i/o timeout"}
모든 노드에서 실행되는
localpv
데몬 세트의 경우 로그에 다음과 같은 제한 시간이 표시될 수 있습니다.I1112 17:24:33.191654 1 main.go:128] Could not get node information (remaining retries: 2): Get https://172.26.0.1:443/api/v1/nodes/NODE_NAME: dial tcp 172.26.0.1:443: i/o timeout
역방향 경로 필터링은 IPv4 구성 폴더(net/ipv4/conf/all
)의 rp_filter
파일로 설정됩니다. sysctl
명령어는 역방향 필터링 필터링을 /etc/sysctl.d/60-gce-network-security.conf
와 같은 네트워크 보안 구성 파일에 저장합니다. sysctl
명령어는 역방향 경로 필터링 설정을 재정의할 수 있습니다.
포드 연결을 복원하려면 net.ipv4.conf.all.rp_filter
를 다시 0
으로 수동 설정하거나 anetd
포드를 다시 시작하여 net.ipv4.conf.all.rp_filter
를 0
으로 다시 설정합니다. anetd
포드를 다시 시작하려면 다음 명령어를 사용하여 anetd
포드를 찾아 삭제합니다. 새 anetd
포드가 해당 자리에서 시작됩니다.
kubectl get pods -n kube-system
kubectl delete pods -n kube-system ANETD_XYZ
ANETD_XYZ
를 anetd
포드의 이름으로 바꿉니다.
net.ipv4.conf.all.rp_filter
를 수동으로 설정하려면 다음 명령어를 실행합니다.
sysctl -w net.ipv4.conf.all.rp_filter = 0
부트스트랩(종류) 클러스터 IP 주소 및 클러스터 노드 IP 주소 겹침
192.168.122.0/24
및 10.96.0.0/27
은 부트스트랩(종류) 클러스터에서 사용되는 기본 포드 및 서비스 CIDR입니다. 클러스터 노드 머신 IP 주소와 겹치는 경우 실행 전 검사가 실패합니다. --bootstrap-cluster-pod-cidr
및 --bootstrap-cluster-service-cidr
플래그를 bmctl
에 전달하여 충돌을 피하려면 다른 값을 지정합니다.
서로 다른 클러스터의 IP 주소 겹침
업데이트 중에 서로 다른 클러스터 간에 겹치는 IP 주소에 대한 검증은 수행되지 않습니다. 검증은 클러스터/노드 풀 생성 시에만 적용됩니다.
운영체제
CentOS에서 클러스터 생성 또는 업그레이드 실패
2020년 12월에 CentOS 커뮤니티 및 Red Hat에서 CentOS 지원 종료를 발표했습니다.
2022년 1월 31일에 CentOS 8이 지원 종료(EOL)되었습니다. 지원 종료로 인해 yum
저장소가 CentOS에서 작동하지 않아 클러스터 생성 및 클러스터 업그레이드 작업이 실패합니다. 이는 지원되는 모든 CentOS 버전에 적용되며 베어메탈용 Anthos 클러스터의 모든 버전에 영향을 미칩니다.
이 문제를 해결하려면 다음 명령어를 실행하여 CentOS에 보관 피드를 사용합니다.
sed -i 's/mirrorlist/#mirrorlist/g' /etc/yum.repos.d/CentOS-Linux-*
sed -i 's|#baseurl=http://mirror.centos.org|baseurl=http://vault.centos.org|g' \ /etc/yum.repos.d/CentOS-Linux-*
장기적인 솔루션으로 다른 지원되는 운영체제로 마이그레이션하는 것이 좋습니다.
운영체제 엔드포인트 제한사항
RHEL 및 CentOS에서는 클러스터 수준 제한이 100,000개의 엔드포인트로 제한됩니다.
이 숫자는 Kubernetes 서비스가 참조하는 모든 포드의 합계입니다. 서비스 2개가 동일한 포드 집합을 참조하는 경우 별도의 엔드포인트 집합 2개로 계산됩니다. RHEL 및 CentOS의 기본 nftable
구현으로 이러한 제한이 발생합니다. 베어메탈용 Anthos 클러스터에 내재된 한계가 아닙니다.
구성
제어 영역 및 부하 분산기 사양
제어 영역 및 부하 분산기 노드 풀은 사양이 특수합니다. 이러한 사양으로 중요한 클러스터 리소스를 선언하고 제어합니다. 이 리소스는 클러스터 구성 파일에서 해당하는 섹션을 표준 소스로 사용합니다.
spec.controlPlane.nodePoolSpec
spec.LoadBalancer.nodePoolSpec
따라서 최상위 제어 영역과 부하 분산기 노드 풀 리소스를 직접 수정하지 마세요. 그 대신 클러스터 구성 파일에서 연결된 섹션을 수정하세요.
Anthos VM 런타임
- 포드를 다시 시작하면 포드의 VM에서 IP 주소를 변경하거나 IP 주소가 손실됩니다. VM의 IP 주소를 변경해도 Kubernetes 서비스로 노출된 VM 애플리케이션의 연결 가능성은 영향을 받지 않습니다. IP 주소가 손실되면 VM에서
dhclient
를 실행하여 VM의 IP 주소를 가져와야 합니다.
SELinux
포드 생성 중 SELinux 오류
SELinux에서 컨테이너 런타임이 tmpfs
마운트에 라벨을 설정하지 못하게 하면 포드 생성에 실패하는 경우가 있습니다. 실패하는 경우는 드물지만 SELinux가 Enforcing
모드이고 일부 커널에 있을 때 이러한 오류가 발생할 수 있습니다.
SELinux가 포드 생성 실패의 원인인지 확인하려면 다음 명령어를 사용하여 kubelet
로그의 오류를 확인합니다.
journalctl -u kubelet
SELinux로 인해 포드 생성이 실패한 것이라면 명령어 응답에 다음과 유사한 오류가 포함됩니다.
error setting label on mount source '/var/lib/kubelet/pods/
6d9466f7-d818-4658-b27c-3474bfd48c79/volumes/kubernetes.io~secret/localpv-token-bpw5x':
failed to set file label on /var/lib/kubelet/pods/
6d9466f7-d818-4658-b27c-3474bfd48c79/volumes/kubernetes.io~secret/localpv-token-bpw5x:
permission denied
이 문제가 SELinux 시행과 관련이 있는지 확인하려면 다음 명령어를 실행하세요.
ausearch -m avc
이 명령어는 감사 로그에서 액세스 벡터 캐시(AVC) 권한 오류를 검색합니다. 다음 샘플 응답의 avc: denied
에서 포드 생성 실패가 SELinux 시행과 관련이 있음을 확인합니다.
type=AVC msg=audit(1627410995.808:9534): avc: denied { associate } for
pid=20660 comm="dockerd" name="/" dev="tmpfs" ino=186492
scontext=system_u:object_r:container_file_t:s0:c61,c201
tcontext=system_u:object_r:locale_t:s0 tclass=filesystem permissive=0
SELinux에서 포드 생성 문제의 근본 원인은 다음 Linux 이미지에서 발견된 커널 버그입니다.
- Red Hat Enterprise Linux(RHEL) 8.3 이전 출시 버전
- CentOS 8.3 이전 출시 버전
머신을 재부팅하면 문제를 복구하는 데 도움이 됩니다.
포드 생성 오류가 발생하지 않도록 하려면 RHEL 8.3 이상 또는 CentOS 8.3 이상을 사용합니다. 이러한 버전에서 커널 버그가 수정되었기 때문입니다.
스냅샷
루트가 아닌 로그인 사용자로 스냅샷 만들기
베어메탈용 Anthos 클러스터 버전 1.8.1 이하에서는 루트로 로그인하지 않으면 bmctl
명령어를 사용하여 클러스터 스냅샷을 만들 수 없습니다.
출시 버전 1.8.2부터 베어메탈용 Anthos 클러스터은 클러스터 사양의 nodeAccess.loginUser
를 준수합니다. 관리자 클러스터에 연결할 수 없는 경우 --login-user
플래그를 사용하여 로그인 사용자를 지정할 수 있습니다.
컨테이너 런타임으로 containerd를 사용하는 경우에도 스냅샷에서 crictl
명령어가 실행되지 않습니다. 해결 방법은 Containerd는 PATH에 /usr/local/bin 필요를 참조하세요. SUDO
에 사용된 PATH 설정으로 인해 이 문제가 발생합니다.
GKE Connect
gke-connect-agent
포드 비정상 종료 루프
GKE Connect 게이트웨이의 사용량이 많으면 gke-connect-agent
포드 메모리 부족 문제가 발생할 수 있습니다. 이러한 메모리 부족 문제의 증상은 다음과 같습니다.
gke-connect-agent
포드가 많은 수의 다시 시작을 표시하거나 비정상 종료 루프 상태로 끝납니다.- Connect 게이트웨이가 작동을 중지합니다.
이러한 메모리 부족 문제를 해결하려면 gke-connect
네임스페이스에서 gke-connect-agent
프리픽스로 배포를 수정하고 메모리 한도를 256MiB 이상으로 늘립니다.
kubectl patch deploy $(kubectl get deploy -l app=gke-connect-agent -n gke-connect -o jsonpath='{.items[0].metadata.name}') -n gke-connect --patch '{"spec":{"containers":[{"resources":{"limits":{"memory":"256Mi"}}}]}}'
이 문제는 Anthos clusters on bare metal 1.8.2 이상에서 수정되었습니다.
로그 기록 및 모니터링
stackdriver-log-forwarder
포드가 계속 다시 시작됨
1.9 이전의 Anthos clusters on bare metal 버전의 경우 노드가 강제로 종료되면 stackdriver-log-forwarder
포드가 다시 시작 상태에 머물 수 있습니다. 이 경우 다음과 같은 로그 항목이 표시될 수 있습니다.
[error] [input:storage_backlog:storage_backlog.7] chunk validation failed, data might
be corrupted. Found 0 valid records, failed content starts right after byte 0.
stackdriver-log-forwarder
포드가 중단되면 대부분의 로그가 Cloud Logging으로 이동되지 않고 플러시되지 않은 데이터가 손실됩니다. 이 문제를 해결하려면 로깅 파이프라인을 재설정합니다.
로깅 파이프라인을 재설정하려면 다음 안내를 따르세요.
stackdriver-operator
를 축소합니다.kubectl --kubeconfig=KUBECONFIG -n kube-system scale deploy \ stackdriver-operator --replicas=0
stackdriver-log-forwarder
DaemonSet를 삭제합니다.kubectl --kubeconfig KUBECONFIG -n kube-system delete daemonset \ stackdriver-log-forwarder
다음 단계로 이동하기 전에
stackdriver-log-forwarder
포드가 삭제되었는지 확인합니다.다음 DaemonSet를 배포하여
fluent-bit
버퍼의 손상된 데이터를 삭제합니다.kubectl --kubeconfig KUBECONFIG -n kube-system apply -f - << EOF apiVersion: apps/v1 kind: DaemonSet metadata: name: fluent-bit-cleanup namespace: kube-system spec: selector: matchLabels: app: fluent-bit-cleanup template: metadata: labels: app: fluent-bit-cleanup spec: containers: - name: fluent-bit-cleanup image: debian:10-slim command: ["bash", "-c"] args: - | rm -rf /var/log/fluent-bit-buffers/ echo "Fluent Bit local buffer is cleaned up." sleep 3600 volumeMounts: - name: varlog mountPath: /var/log securityContext: privileged: true tolerations: - key: "CriticalAddonsOnly" operator: "Exists" - key: node-role.kubernetes.io/master effect: NoSchedule - key: node-role.gke.io/observability effect: NoSchedule volumes: - name: varlog hostPath: path: /var/log EOF
DaemonSet가 모든 노드를 삭제했는지 확인합니다.
다음 명령어의 출력은 클러스터의 노드 수와 동일해야 합니다.
kubectl --kubeconfig KUBECONFIG logs -n kube-system -l app=fluent-bit-cleanup | \ grep "cleaned up" | wc -l kubectl --kubeconfig KUBECONFIG -n kube-system get pods -l app=fluent-bit-cleanup \ --no-headers | wc -l
cleanup DaemonSet를 삭제합니다.
kubectl --kubeconfig KUBECONFIG -n kube-system delete ds fluent-bit-cleanup
연산자를 확장하고 로깅 파이프라인이 다시 배포될 때까지 기다립니다.
kubectl --kubeconfig=KUBECONFIG -n kube-system scale deploy \ stackdriver-operator --replicas=1
이 문제는 Anthos clusters on bare metal 1.9.0 이상에서 수정되었습니다.