베어메탈용 Anthos 클러스터의 알려진 문제

설치

Control group v2 비호환성

Control group v2(cgroup v2)는 베어메탈용 Anthos 클러스터 1.6와 호환되지 않습니다. Kubernetes 1.18은 cgroup v2를 지원하지 않습니다. 또한 Docker는 20.10부터 실험용 지원만 제공합니다. systemd는 기본적으로 버전 247.2-2에서 cgroup v2로 전환되었습니다. /sys/fs/cgroup/cgroup.controllers가 있으면 시스템이 cgroup v2를 사용한다는 의미입니다.

베어메탈용 Anthos 클러스터 1.6.2부터 실행 전 검사로 cgroup v2가 클러스터 머신에서 사용되고 있지 않은지 확인합니다.

설치 중 무해한 오류 메시지

고가용성(HA) 클러스터를 설치하는 동안 etcdserver leader change에 대한 오류가 발생할 수 있습니다. 이러한 오류 메시지는 무해하며 무시해도 됩니다.

클러스터 설치에 bmctl을 사용하면 create-cluster.log의 맨 끝에 Log streamer failed to get BareMetalMachine 로그 메시지가 표시될 수 있습니다. 이 오류 메시지는 무해하며 무시해도 됩니다.

클러스터 생성 로그를 검사할 때 클러스터 등록 또는 웹훅 호출과 관련된 일시적인 실패가 발생할 수 있습니다. 설치 시 해당 작업을 성공할 때까지 재시도하므로 이러한 오류는 무시해도 안전합니다.

실행 전 검사 및 서비스 계정 사용자 인증 정보

관리자 또는 하이브리드 클러스터에 의해 트리거된 설치(즉, 사용자 클러스터와 같이 bmctl로 생성되지 않은 클러스터)의 경우 실행 전 검사는 Google Cloud Platform 서비스 계정 사용자 인증 정보 또는 연결된 권한을 확인하지 않습니다.

실행 전 검사 및 권한이 거부됨

설치 중에 /bin/sh: /tmp/disks_check.sh: Permission denied에 대한 오류가 표시될 수 있습니다. 이러한 오류 메시지는 /tmpnoexec 옵션과 함께 마운트되므로 발생합니다. bmctl이 작동하려면 /tmp 마운트 지점에서 noexec 옵션을 삭제해야 합니다.

대시보드를 보기 전에 Cloud Monitoring 작업공간 만들기

베어메탈용 Anthos 클러스터 모니터링 대시보드를 보려면 먼저 Google Cloud 콘솔을 통해 Cloud Monitoring 작업공간을 만들어야 합니다.

애플리케이션 기본 사용자 인증 정보 및 bmctl

bmctlglobal로 설정되지 않은 경우 애플리케이션 기본 사용자 인증 정보(ADC)를 사용하여 cluster spec에서 클러스터 작업의 위치 값을 검사합니다.

ADC가 작동하려면 GOOGLE_APPLICATION_CREDENTIALS 환경 변수가 서비스 계정 사용자 인증 정보 파일을 가리키거나 gcloud auth application-default login을 실행해야 합니다.

Ubuntu 20.04 LTS 및 bmctl

1.8.2 이전의 베어메탈용 Anthos 클러스터에서 최신 Linux 커널(5.8 커널의 GCP Ubuntu 20.04 LTS 이미지 포함)을 사용하는 일부 Ubuntu 20.04 LTS 배포는 비초기화 네트워크 네임스페이스에서 /proc/sys/net/netfilter/nf_conntrack_max를 읽기 전용으로 설정했습니다. 이로 인해 bmctl에서 최대 연결 추적 테이블 크기를 설정할 수 없으므로 부트스트랩 클러스터가 시작되지 않습니다. 잘못된 테이블 크기로 인한 증상은 다음 샘플 오류 로그와 같이 부트스트랩 클러스터의 kube-proxy 포드가 비정상적으로 종료된다는 점입니다.

kubectl logs -l k8s-app=kube-proxy -n kube-system --kubeconfig ./bmctl-workspace/.kindkubeconfig
I0624 19:05:08.009565       1 conntrack.go:100] Set sysctl 'net/netfilter/nf_conntrack_max' to 393216
F0624 19:05:08.009646       1 server.go:495] open /proc/sys/net/netfilter/nf_conntrack_max: permission denied

해결 방법은 다음과 같이 호스트에서 net/netfilter/nf_conntrack_max를 필요한 값으로 수동 설정하는 것입니다. sudo sysctl net.netfilter.nf_conntrack_max=393216. 필요한 값은 노드의 코어 수에 따라 다릅니다. 위에 표시된 kubectl logs 명령어를 사용하여 kube-proxy 로그에서 원하는 값을 확인합니다.

이 문제는 베어메탈용 Anthos 클러스터 1.8.2 이상에서 수정되었습니다.

Ubuntu 20.04.3+ LTS 및 HWE

Ubuntu 20.04.3은 하드웨어 사용 설정(HWE) 패키지에서 커널 5.11을 사용 설정했습니다. 베어메탈용 Anthos 클러스터 출시 버전 1.7.x는 이 커널을 지원하지 않습니다. 커널 5.11을 사용하려면 베어메탈용 Anthos 클러스터 1.8.0 이상을 다운로드하고 업그레이드합니다.

Docker 서비스

클러스터 노드 머신에서 Docker 실행 파일이 PATH 환경 변수에 있지만 Docker 서비스가 활성 상태가 아닌 경우 실행 전 검사가 실패하고 Docker service is not active가 보고됩니다. 이 오류를 해결하려면 Docker를 삭제하거나 Docker 서비스를 사용 설정합니다.

Containerd는 PATH에 /usr/local/bin 필요

containerd 런타임이 있는 클러스터는 /usr/local/bin이 SSH 사용자의 PATH에 있어야 kubeadm init 명령어로 crictl 바이너리를 찾을 수 있습니다. crictl을 찾을 수 없으면 클러스터 만들기가 실패합니다.

루트 사용자로 로그인되어 있지 않으면 sudokubeadm init 명령어를 실행하는 데 사용됩니다. sudo PATH는 루트 프로필과 다를 수 있으며 /usr/local/bin을 포함할 수 없습니다.

/usr/local/bin이 포함되도록 /etc/sudoerssecure_path를 업데이트하여 이 오류를 수정합니다. 또는 다른 /bin 디렉터리에 crictl의 기호화된 링크를 만듭니다.

베어메탈용 Anthos 클러스터 1.8.2부터 명령어를 실행할 때 PATH에 /usr/local/bin을 추가합니다. 그러나 루트가 아닌 사용자로 스냅샷을 실행하면 여전히 crictl: command not found가 포함됩니다(위의 해결 방법으로 수정할 수 있음).

노드 준비 플랩

경우에 따라 클러스터에서 노드 준비 플랩(ReadyNotReady 사이에 급격하게 변경되는 노드 상태) 동작이 나타날 수 있습니다. 비정상 포드 수명 주기 이벤트 생성기(PLEG)가 이 동작을 발생시킵니다. PLEG는 kubelet의 모듈입니다.

비정상 PLEG가 이 동작을 일으키는지 확인하려면 다음 journalctl 명령어를 사용하여 PLEG 로그 항목을 확인합니다.

journalctl -f | grep -i pleg

다음과 같은 로그 항목은 PLEG가 비정상임을 나타냅니다.

...
skipping pod synchronization - PLEG is not healthy: pleg was last seen active
3m0.793469
...

알려진 runc 경합 상태는 비정상 PLEG의 원인일 수 있습니다. 멈춘 runc 프로세스는 경합 상태의 증상입니다. 다음 명령어를 사용하여 runc init 프로세스 상태를 확인합니다.

ps aux | grep 'runc init'

문제 해결 방법

  1. 각 노드에서 다음 명령어를 실행하여 최신 containerd.io를 설치하고 최신 runc 명령줄 도구를 추출합니다.

    Ubuntu

    sudo apt update
    sudo apt install containerd.io
    # Back up current runc
    cp /usr/local/sbin/runc ~/
    sudo cp /usr/bin/runc /usr/local/sbin/runc
    
    # runc version should be > 1.0.0-rc93
    /usr/local/sbin/runc --version
    

    CentOS/RHEL

    sudo dnf install containerd.io
    # Back up current runc
    cp /usr/local/sbin/runc ~/
    sudo cp /usr/bin/runc /usr/local/sbin/runc
    
    # runc version should be > 1.0.0-rc93
    /usr/local/sbin/runc --version
    
  2. runc init 프로세스가 중단된 경우 노드를 재부팅합니다.

    또는 중단된 프로세스를 수동으로 삭제할 수 있습니다.

업그레이드 및 업데이트

.manifests 디렉터리가 없으면 bmctl update cluster가 실패합니다.

bmctl update cluster를 실행하기 전에 .manifests 디렉터리를 제거하면 명령어가 실패하고 다음과 비슷한 오류가 발생합니다.

Error updating cluster resources.: failed to get CRD file .manifests/1.9.0/cluster-operator/base/crd/bases/baremetal.cluster.gke.io_clusters.yaml: open .manifests/1.9.0/cluster-operator/base/crd/bases/baremetal.cluster.gke.io_clusters.yaml: no such file or directory

먼저 bmctl check cluster를 실행하여 이 문제를 해결할 수 있습니다. 그러면 .manifests 디렉터리가 다시 생성됩니다.

이 문제는 베어메탈용 Anthos 클러스터 1.10 이하에 적용되며 버전 1.11 이상에서는 해결되었습니다.

error during manifests operations에서 업그레이드 중단

경우에 따라 클러스터 업그레이드가 완료되지 않고 bmctl CLI가 응답하지 않습니다. 이 문제는 잘못 업데이트된 리소스로 인해 발생할 수 있습니다. 이 문제의 영향을 받는지 확인하고 수정하려면 다음 단계를 따르세요.

  1. anthos-cluster-operator 로그를 확인하고 다음 항목과 비슷한 오류를 찾으세요.

    controllers/Cluster "msg"="error during manifests operations" "error"="1 error occurred:
    ...
    {RESOURCE_NAME} is invalid: metadata.resourceVersion: Invalid value: 0x0: must be specified for an update
    

    이러한 항목은 잘못 업데이트된 리소스의 증상이며, 여기서 {RESOURCE_NAME}은 문제 리소스의 이름입니다.

  2. 로그에 이러한 오류가 있으면 kubectl edit를 사용하여 로그 메시지에 포함된 리소스에서 kubectl.kubernetes.io/last-applied-configuration 주석을 삭제하세요.

  3. 변경사항을 저장하고 리소스에 적용합니다.

  4. 클러스터 업그레이드를 다시 시도합니다.

bmctl update는 유지보수 블록을 삭제하지 않습니다.

bmctl update 명령어는 클러스터 리소스 구성에서 maintenanceBlocks 섹션을 삭제하거나 수정할 수 없습니다. 유지보수 모드에서 노드를 삭제하는 방법 등 자세한 내용은 유지보수 모드로 노드 배치를 참조하세요.

클러스터를 1.7.5에서 1.7.6으로 업그레이드하는 것은 차단됨

베어메탈용 Anthos 버전 1.7.5 클러스터를 버전 1.7.6으로 업그레이드할 수 없습니다. 이 차단은 다른 버전의 베어메탈용 Anthos 클러스터에 영향을 주지 않습니다. 예를 들어 클러스터를 버전 1.7.4에서 버전 1.7.6으로 업그레이드할 수 있습니다. 버전 1.7.5 클러스터가 있는 경우 출시 버전 1.7.6에서 해결된 보안 취약점 수정사항을 가져오려면 이후 출시 버전이 제공될 때 업그레이드해야 합니다.

1.6.0에서 업그레이드

1.6.0 버전에서는 업그레이드할 수 없습니다.

1.7.0에서 1.7.x로 업그레이드

1.7.0에서 1.7.x로 업그레이드하면 제어 영역 노드 업그레이드에서 클러스터가 중단될 수 있습니다. MACHINE-IP-machine-upgrade 작업이 주기적으로 실행되고 실패하는 것으로 보일 수 있습니다. 이 문제는 다음을 포함하는 1.7.0 클러스터에 영향을 줍니다.

  • 제어 영역 노드에 사전 설치된 Docker
  • 런타임으로 선택된 containerd

이 문제는 베어메탈용 Anthos 클러스터에서 cri-socket이 containerd 대신 Docker로 잘못 구성된 경우에 발생합니다. 이 문제를 해결하려면 Docker에 대해 이미지 가져오기 사용자 인증 정보를 설정해야 합니다.

  1. Docker에 로그인합니다.

    docker login gcr.io
    

    그러면 $HOME/.docker/config.json 파일이 생성됩니다.

  2. 공백으로 구분된 모든 제어 영역 노드의 IP 주소를 나열합니다.

    IPs=(NODE_IP1 NODE_IP2 ...)
    
  3. Docker 구성을 노드에 복사합니다.

    for ip in "${IPs[@]}"; do
      scp $HOME/.docker/config.json USER_NAME@{ip}:docker-config.json
    

    USER_NAME을 관리자 클러스터 구성 파일에 구성된 사용자 이름으로 바꿉니다.

  4. Docker에 대해 이미지 가져오기 사용자 인증 정보를 설정합니다.

    ssh USER_NAME@${ip} "sudo mkdir -p /root/.docker && sudo cp docker-config.json /root/.docker/config.json"
    

사용자 클러스터 패치 업그레이드 제한사항

관리자 클러스터에서 관리하는 사용자 클러스터는 동일한 베어메탈용 Anthos 클러스터 버전 이하 및 부 출시 버전 하나에 있어야 합니다. 예를 들어 버전 1.7.2 사용자 클러스터를 관리하는 버전 1.8.1(anthosBareMetalVersion: 1.8.1) 관리자 클러스터는 허용되지만 버전 1.6.3 사용자 클러스터는 하나의 부 출시 버전에 포함되지 않습니다.

업그레이드 제한사항으로 인해 관리자 클러스터가 사용 중인 출시 버전 이후의 패치가 출시될 때 사용자 클러스터가 새 보안 패치로 업그레이드될 수 없습니다. 예를 들어 관리자 클러스터가 2021년 7월 29일에 출시된 버전 1.8.2인 경우 사용자 클러스터를 2021년 8월 16일에 출시된 버전 1.7.3으로 업그레이드할 수 없습니다.

제어 그룹 드라이버가 cgroupfs로 잘못 구성됨

제어 그룹(cgroup) 드라이버 관련 문제가 발생하면 베어메탈용 Anthos 클러스터에서 systemd 대신 cgroupfs로 잘못 구성되었기 때문일 수 있습니다.

문제 해결 방법

  1. 머신에 로그인하고 /etc/containerd/config.toml을 엽니다.

  2. [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc.options] 아래에서 SystemdCgroup = true를 추가합니다.

    ...
       [plugins."io.containerd.grpc.v1.cri".containerd.runtimes]
         [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc]
           runtime_type = "io.containerd.runc.v2"
           runtime_engine = ""
           runtime_root = ""
           privileged_without_host_devices = false
           base_runtime_spec = ""
           [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc.options]
             SystemdCgroup = true
     [plugins."io.containerd.grpc.v1.cri".cni]
       bin_dir = "/opt/cni/bin"
       conf_dir = "/etc/cni/net.d"
       max_conf_num = 1
       conf_template = ""
    ...
    
  3. 변경사항을 저장하고 파일을 닫습니다.

  4. /etc/systemd/system/kubelet.service.d/10-kubeadm.conf를 엽니다.

  5. 파일 끝에 --cgroup-driver=systemd --runtime-cgroups=/system.slice/containerd.service를 추가합니다.

    [Service]
    Environment="HOME=/root"
    Environment="KUBELET_KUBECONFIG_ARGS=--bootstrap-kubeconfig=/etc/kubernetes/bootstrap-kubelet.conf --kubeconfig=/etc/kubernetes/kubelet.conf"
    Environment="KUBELET_CONFIG_ARGS=--config=/var/lib/kubelet/config.yaml"
    # This is a file that "kubeadm init" and "kubeadm join" generates at runtime, populating the KUBELET_KUBEADM_ARGS variable dynamically
    EnvironmentFile=-/var/lib/kubelet/kubeadm-flags.env
    # This is a file that the user can use for overrides of the kubelet args as a last resort. Preferably, the user should use
    # the .NodeRegistration.KubeletExtraArgs object in the configuration files instead. KUBELET_EXTRA_ARGS should be sourced from this file.
    EnvironmentFile=-/etc/default/kubelet
    ExecStart=
    ExecStart=/usr/bin/kubelet $KUBELET_KUBECONFIG_ARGS $KUBELET_CONFIG_ARGS $KUBELET_KUBEADM_ARGS $KUBELET_EXTRA_ARGS --cgroup-driver=systemd --runtime-cgroups=/system.slice/containerd.service
    
  6. 변경사항을 저장하고 서버를 재부팅합니다.

  7. 다음을 실행하여 systemd가 제어 그룹 드라이버인지 확인합니다.

    systemd-cgls
    

    kubepods.slice 섹션이 있고 모든 포드가 이 섹션에 있는지 확인합니다.

작업

kubeconfig 보안 비밀을 덮어씀

bmctl check cluster 명령어는 사용자 클러스터에서 실행될 때 사용자 클러스터 kubeconfig 보안 비밀을 관리자 클러스터 kubeconfig로 덮어씁니다. 파일을 덮어쓰면 업데이트 및 업그레이드와 같은 표준 클러스터 작업이 영향을 받는 사용자 클러스터에 실패합니다. 이 문제는 베어메탈용 Anthos 클러스터 버전 1.11.1 이하에 적용됩니다.

사용자 클러스터가 이 문제의 영향을 받는지 확인하려면 다음 명령어를 실행합니다.

kubectl --kubeconfig ADMIN_KUBECONFIG get secret -n cluster-USER_CLUSTER_NAME \
    USER_CLUSTER_NAME -kubeconfig  -o json  | jq -r '.data.value'  | base64 -d

다음을 바꿉니다.

  • ADMIN_KUBECONFIG: 관리자 클러스터 kubeconfig 파일의 경로
  • USER_CLUSTER_NAME: 확인할 사용자 클러스터의 이름

출력의 클러스터 이름(다음 샘플 출력의 contexts.context.cluster 참조)이 관리자 클러스터 이름인 경우 지정된 사용자 클러스터가 영향을 받습니다.

user-cluster-kubeconfig  -o json  | jq -r '.data.value'  | base64 -d
apiVersion: v1
clusters:
- cluster:
    certificate-authority-data:LS0tLS1CRU...UtLS0tLQo=
    server: https://10.200.0.6:443
  name: ci-aed78cdeca81874
contexts:
- context:
    cluster: ci-aed78cdeca81874
    user: ci-aed78cdeca81874-admin
  name: ci-aed78cdeca81874-admin@ci-aed78cdeca81874
current-context: ci-aed78cdeca81874-admin@ci-aed78cdeca81874
kind: Config
preferences: {}
users:
- name: ci-aed78cdeca81874-admin
  user:
    client-certificate-data: LS0tLS1CRU...UtLS0tLQo=
    client-key-data: LS0tLS1CRU...0tLS0tCg==

다음 단계에서는 영향을 받는 사용자 클러스터(USER_CLUSTER_NAME)로 함수를 복원합니다.

  1. 사용자 클러스터 kubeconfig 파일을 찾습니다.

    클러스터를 만들면 베어메탈용 Anthos 클러스터이 관리자 워크스테이션에 kubeconfig 파일을 생성합니다. 기본적으로 이 파일은 bmctl-workspace/USER_CLUSTER_NAME 디렉터리에 있습니다.

  2. kubeconfig가 올바른 사용자 클러스터 kubeconfig인지 확인하세요.

    kubectl get nodes --kubeconfig PATH_TO_GENERATED_FILE
    

    PATH_TO_GENERATED_FILE를 사용자 클러스터 kubeconfig 파일의 경로로 바꿉니다. 응답으로 사용자 클러스터의 노드에 대한 세부정보가 반환됩니다. 클러스터의 머신 이름이 올바른지 확인합니다.

  3. 다음 명령어를 실행하여 관리자 클러스터에서 손상된 kubeconfig 파일을 삭제합니다.

    kubectl delete secret -n USER_CLUSTER_NAMESPACE USER_CLUSTER_NAME-kubeconfig
    
  4. 다음 명령어를 실행하여 올바른 kubeconfig 보안 비밀을 관리자 클러스터에 다시 저장합니다.

    kubectl create secret generic -n USER_CLUSTER_NAMESPACE USER_CLUSTER_NAME-kubeconfig \
        --from-file=value=PATH_TO_GENERATED_FILE
    

재설정/삭제

사용자 클러스터 지원

bmctl reset 명령어를 사용하여 사용자 클러스터를 재설정할 수 없습니다.

마운트 지점 및 fstab

재설정해도 /mnt/localpv-share/ 아래의 마운트 지점이 마운트 해제되지 않으며 /etc/fstab에서 해당 항목이 삭제되지 않습니다.

네임스페이스 삭제

네임스페이스를 삭제하면 머신을 재설정하기 위한 작업을 포함하여 해당 네임스페이스에 새 리소스가 생성되지 않습니다. 사용자 클러스터를 삭제할 때는 먼저 클러스터 객체를 삭제한 후 네임스페이스를 삭제해야 합니다. 그렇지 않으면 머신 재설정 작업을 생성할 수 없으며 삭제 프로세스는 머신 삭제 단계를 건너뜁니다.

containerd 서비스

bmctl reset 명령어는 containerd 구성 파일 또는 바이너리를 삭제하지 않습니다. containerd systemd 서비스는 계속 실행 중인 상태입니다. 이 명령어는 노드에 예약된 포드를 실행하는 컨테이너를 삭제합니다.

보안

업그레이드 중에 클러스터 CA 인증서가 순환됩니다. 온디맨드 순환 지원은 현재 제공되지 않습니다.

베어메탈용 Anthos 클러스터는 kubelet 제공 인증서를 자동으로 순환합니다. 인증서가 만료될 때 각 kubelet 노드 에이전트가 인증서 서명 요청(CSR)을 전송할 수 있습니다. 관리자 클러스터의 컨트롤러가 CSR을 검사하고 승인합니다.

로깅 및 모니터링

노드 로그를 Cloud Logging으로 내보내지 않음

이름에 점('.')이 있는 노드의 노드 로그는 Cloud Logging으로 내보내지 않습니다. 이 문제를 해결하려면 다음 안내에 따라 stackdriver-log-forwarder-config 리소스에 필터를 추가하여 Stackdriver 연산자가 이러한 로그를 인식하고 내보낼 수 있도록 합니다.

  1. Stackdriver 연산자 stackdriver-operator의 크기를 축소합니다.

    kubectl --kubeconfig ADMIN_KUBECONFIG -n kube-system scale \
        deploy stackdriver-operator --replicas=0
    
  2. 로그 전달자 configmap(stackdriver-log-forwarder-config)을 수정합니다.

    kubectl --kubeconfig ADMIN_KUBECONFIG -n kube-system edit configmap \
        stackdriver-log-forwarder-config
    
  3. configmap의 input-systemd.conf 섹션 끝에 다음 필터를 추가합니다.

       [FILTER]
           Name    lua
           Match_Regex   container-runtime|kubelet|node-problem-detector|node-journal
           script  replace_dot.lua
           call    replace
    
     replace_dot.lua: |
       function replace(tag, timestamp, record)
           new_record = record
    
           local local_resource_id_key = "logging.googleapis.com/local_resource_id"
    
           -- Locate the local_resource_id
           local local_resource_id = record[local_resource_id_key]
    
           local first = 1
           local new_local_resource_id = ""
           for s in string.gmatch(local_resource_id, "[^.]+") do
               new_local_resource_id = new_local_resource_id .. s
               if first == 1 then
                   new_local_resource_id = new_local_resource_id .. "."
                   first = 0
               else
                   new_local_resource_id = new_local_resource_id .. "_"
               end
           end
    
           -- Remove the trailing underscore
           new_local_resource_id = new_local_resource_id:sub(1, -2)
           new_record[local_resource_id_key] = new_local_resource_id
           return 1, timestamp, new_record
       end
    
  4. 모든 로그 전달자 포드를 삭제합니다.

    kubectl --kubeconfig ADMIN_KUBECONFIG -n kube-system patch daemonset \
        stackdriver-log-forwarder -p \
        '{"spec": {"template": {"spec": {"nodeSelector": {"non-existing": "true"}}}}}'
    

    다음 단계로 이동하기 전에 stackdriver-log-forwarder 포드가 삭제되었는지 확인합니다.

  5. daemonset를 배포하여 fluent-bit 내 버퍼의 손상되고 처리되지 않은 모든 데이터를 삭제합니다.

    kubectl --kubeconfig ADMIN_KUBECONFIG -n kube-system apply -f - << EOF
        apiVersion: apps/v1
        kind: DaemonSet
        metadata:
          name: fluent-bit-cleanup
          namespace: kube-system
        spec:
          selector:
            matchLabels:
              app: fluent-bit-cleanup
          template:
            metadata:
              labels:
                app: fluent-bit-cleanup
            spec:
              containers:
              - name: fluent-bit-cleanup
                image: debian:10-slim
                command: ["bash", "-c"]
                args:
                - |
                  rm -rf /var/log/fluent-bit-buffers/
                  echo "Fluent Bit local buffer is cleaned up."
                  sleep 3600
                volumeMounts:
                - name: varlog
                  mountPath: /var/log
                securityContext:
                  privileged: true
              tolerations:
              - key: "CriticalAddonsOnly"
                operator: "Exists"
              - key: node-role.kubernetes.io/master
                effect: NoSchedule
              - key: node-role.gke.io/observability
                effect: NoSchedule
              volumes:
              - name: varlog
                hostPath:
                  path: /var/log
    EOF
    
  6. daemonset가 다음 명령어를 사용하여 모든 노드를 정리했는지 확인합니다.

    kubectl --kubeconfig ADMIN_KUBECONFIG logs -n kube-system \
        -l app=fluent-bit-cleanup | grep "cleaned up" | wc -l
    
    kubectl --kubeconfig ADMIN_KUBECONFIG -n kube-system get pods \
        -l app=fluent-bit-cleanup --no-headers | wc -l
    

    두 명령어의 출력은 클러스터의 노드 번호와 동일해야 합니다.

  7. cleanup daemonset를 삭제합니다.

    kubectl --kubeconfig ADMIN_KUBECONFIG -n kube-system delete ds fluent-bit-cleanup
    
  8. 포드를 다시 시작합니다.

    kubectl --kubeconfig ADMIN_KUBECONFIG -n kube-system patch \
        daemonset stackdriver-log-forwarder --type json \
        -p='[{"op": "remove", "path": "/spec/template/spec/nodeSelector/non-existing"}]'
    

네트워킹

번들 레이어 2 부하 분산이 있는 클라이언트 소스 IP

외부 트래픽 정책Local로 설정하면 번들 레이어 2 부하 분산에 라우팅 오류(예: No route to host)가 발생할 수 있습니다. 외부 트래픽 정책은 기본적으로 Cluster(externalTrafficPolicy: Cluster)로 설정됩니다. 이 설정을 사용하면 Kubernetes가 클러스터 전체의 트래픽을 처리합니다. LoadBalancer 또는 NodePort 유형의 서비스는 externalTrafficPolicy: Local를 사용하여 클라이언트 소스 IP 주소를 보존할 수 있습니다. 그러나 이 설정을 사용하면 Kubernetes가 노드 로컬 트래픽만 처리합니다.

클라이언트 소스 IP 주소를 보존하려는 경우 서비스 IP에 도달할 수 있도록 추가 구성이 필요할 수 있습니다. 구성에 대한 자세한 내용은 번들 부하 분산 구성의 클라이언트 소스 IP 주소 유지를 참조하세요.

firewalld를 수정하면 Cilium iptable 정책 체인이 삭제됩니다.

CentOS 또는 Red Had Enterprise Linux(RHEL)에서 사용 설정된 firewalld로 베어메탈용 Anthos 클러스터를 실행할 때 firewalld를 변경하면 호스트 네트워크에서 Cilium iptables 체인이 삭제될 수 있습니다. iptables 체인은 anetd 포드 시작 시 추가됩니다. Cilium iptables 체인이 손실되면 노드의 포드에서 노드 외부의 네트워크 연결이 끊어집니다.

iptables 체인을 삭제하는 firewalld의 변경사항에는 다음이 포함되지만 이에 국한되지 않습니다.

  • systemctl를 사용하여 firewalld 다시 시작
  • 명령줄 클라이언트(firewall-cmd --reload)로 firewalld 새로고침

노드에서 anetd를 다시 시작하여 이 연결 문제를 해결할 수 있습니다. 다음 명령어로 anetd 포드를 찾아 삭제하고 anetd를 다시 시작합니다.

kubectl get pods -n kube-system
kubectl delete pods -n kube-system ANETD_XYZ

ANETD_XYZanetd 포드의 이름으로 바꿉니다.

I/O 제한 시간 및 역방향 경로 필터링으로 인한 포드 연결 실패

베어메탈용 Anthos 클러스터는 노드에서 역방향 경로 필터링을 구성하여 소스 유효성 검사(net.ipv4.conf.all.rp_filter=0)를 중지합니다. rp_filter 설정이 1 또는 2로 변경되면 노드 외부 통신 제한 시간으로 인해 포드가 실패합니다.

Kubernetes Service IP 주소와 통신하는 연결 실패가 이 문제의 증상입니다. 다음은 표시될 수 있는 오류 유형의 몇 가지 예시입니다.

  • 특정 노드의 모든 포드가 서비스 IP 주소와 통신하지 못하면 istiod 포드에서 다음과 같은 오류를 보고할 수 있습니다.

     {"severity":"Error","timestamp":"2021-11-12T17:19:28.907001378Z",
        "message":"watch error in cluster Kubernetes: failed to list *v1.Node:
        Get \"https://172.26.0.1:443/api/v1/nodes?resourceVersion=5  34239\":
        dial tcp 172.26.0.1:443: i/o timeout"}
    
  • 모든 노드에서 실행되는 localpv 데몬 세트의 경우 로그에 다음과 같은 제한 시간이 표시될 수 있습니다.

     I1112 17:24:33.191654       1 main.go:128] Could not get node information
    (remaining retries: 2): Get
    https://172.26.0.1:443/api/v1/nodes/NODE_NAME:
    dial tcp 172.26.0.1:443: i/o timeout
    

역방향 경로 필터링은 IPv4 구성 폴더(net/ipv4/conf/all)의 rp_filter 파일로 설정됩니다. sysctl 명령어는 역방향 필터링 필터링을 /etc/sysctl.d/60-gce-network-security.conf와 같은 네트워크 보안 구성 파일에 저장합니다. sysctl 명령어는 역방향 경로 필터링 설정을 재정의할 수 있습니다.

포드 연결을 복원하려면 net.ipv4.conf.all.rp_filter를 다시 0으로 수동 설정하거나 anetd 포드를 다시 시작하여 net.ipv4.conf.all.rp_filter0으로 다시 설정합니다. anetd 포드를 다시 시작하려면 다음 명령어를 사용하여 anetd 포드를 찾아 삭제합니다. 새 anetd 포드가 해당 자리에서 시작됩니다.

kubectl get pods -n kube-system
kubectl delete pods -n kube-system ANETD_XYZ

ANETD_XYZanetd 포드의 이름으로 바꿉니다.

net.ipv4.conf.all.rp_filter를 수동으로 설정하려면 다음 명령어를 실행합니다.

sysctl -w net.ipv4.conf.all.rp_filter = 0

부트스트랩(종류) 클러스터 IP 주소 및 클러스터 노드 IP 주소 겹침

192.168.122.0/2410.96.0.0/27은 부트스트랩(종류) 클러스터에서 사용되는 기본 포드 및 서비스 CIDR입니다. 클러스터 노드 머신 IP 주소와 겹치는 경우 실행 전 검사가 실패합니다. --bootstrap-cluster-pod-cidr--bootstrap-cluster-service-cidr 플래그를 bmctl에 전달하여 충돌을 피하려면 다른 값을 지정합니다.

서로 다른 클러스터의 IP 주소 겹침

서로 다른 클러스터의 IP 주소 겹침을 확인할 수 있는 실행 전 검사는 없습니다.

베어메탈용 Anthos 클러스터의 hostport 기능

ContainerPorthostport 기능은 현재 지원되지 않습니다.

운영체제

CentOS에서 클러스터 생성 또는 업그레이드 실패

2020년 12월에 CentOS 커뮤니티 및 Red Hat에서 CentOS 지원 종료를 발표했습니다. 2022년 1월 31일에 CentOS 8이 지원 종료(EOL)되었습니다. 지원 종료로 인해 yum 저장소가 CentOS에서 작동하지 않아 클러스터 생성 및 클러스터 업그레이드 작업이 실패합니다. 이는 지원되는 모든 CentOS 버전에 적용되며 베어메탈용 Anthos 클러스터의 모든 버전에 영향을 미칩니다.

이 문제를 해결하려면 다음 명령어를 실행하여 CentOS에 보관 피드를 사용합니다.

sed -i 's/mirrorlist/#mirrorlist/g' /etc/yum.repos.d/CentOS-Linux-*
sed -i 's|#baseurl=http://mirror.centos.org|baseurl=http://vault.centos.org|g' \
    /etc/yum.repos.d/CentOS-Linux-*

장기적인 솔루션으로서 Ubuntu 또는 RHEL과 같은 다른 지원되는 운영체제로 마이그레이션하는 것이 좋습니다.

운영체제 엔드포인트 제한사항

RHEL 및 CentOS에서는 클러스터 수준 제한이 100,000개의 엔드포인트로 제한됩니다. 이 숫자는 Kubernetes 서비스가 참조하는 모든 포드의 합계입니다. 서비스 2개가 동일한 포드 집합을 참조하는 경우 별도의 엔드포인트 집합 2개로 계산됩니다. RHEL 및 CentOS의 기본 nftable 구현으로 이러한 제한이 발생합니다. 베어메탈용 Anthos 클러스터에 내재된 한계가 아닙니다.

구성

제어 영역 및 부하 분산기 사양

제어 영역 및 부하 분산기 노드 풀은 사양이 특수합니다. 이러한 사양으로 중요한 클러스터 리소스를 선언하고 제어합니다. 이 리소스는 클러스터 구성 파일에서 해당하는 섹션을 표준 소스로 사용합니다.

  • spec.controlPlane.nodePoolSpec
  • spec.LoadBalancer.nodePoolSpec

따라서 최상위 제어 영역과 부하 분산기 노드 풀 리소스를 직접 수정하지 마세요. 그 대신 클러스터 구성 파일에서 연결된 섹션을 수정하세요.

클러스터 및 노드 풀 사양의 변경 가능한 필드

현재 클러스터 구성 파일의 다음 클러스터 및 노드 풀 사양 필드(변경 가능한 필드)만 클러스터를 만든 후에 업데이트 가능합니다.

  • Cluster 객체(kind: Cluster)에서 다음 필드는 변경할 수 있습니다.

    • spec.anthosBareMetalVersion
    • spec.bypassPreflightCheck
    • spec.controlPlane.nodePoolSpec.nodes
    • spec.loadBalancer.nodePoolSpec.nodes
    • spec.maintenanceBlocks
    • spec.nodeAccess.loginUser
  • NodePool 객체(kind: NodePool)에서 다음 필드는 변경할 수 있습니다.

    • spec.nodes

스냅샷

루트가 아닌 로그인 사용자로 스냅샷 만들기

베어메탈용 Anthos 클러스터 버전 1.8.1 이하에서는 루트로 로그인하지 않으면 bmctl 명령어를 사용하여 클러스터 스냅샷을 만들 수 없습니다. 출시 버전 1.8.2부터 베어메탈용 Anthos 클러스터은 클러스터 사양의 nodeAccess.loginUser를 준수합니다. 관리자 클러스터에 연결할 수 없는 경우 --login-user 플래그를 사용하여 로그인 사용자를 지정할 수 있습니다.

컨테이너 런타임으로 containerd를 사용하는 경우에도 스냅샷에서 crictl 명령어가 실행되지 않습니다. 해결 방법은 Containerd는 PATH에 /usr/local/bin 필요를 참조하세요. SUDO에 사용된 PATH 설정으로 인해 이 문제가 발생합니다.

GKE Connect

gke-connect-agent 포드 비정상 종료 루프

GKE Connect 게이트웨이의 사용량이 많으면 gke-connect-agent 포드 메모리 부족 문제가 발생할 수 있습니다. 이러한 메모리 부족 문제의 증상은 다음과 같습니다.

  • gke-connect-agent 포드가 많은 수의 다시 시작을 표시하거나 비정상 종료 루프 상태로 끝납니다.
  • Connect 게이트웨이가 작동을 중지합니다.

이러한 메모리 부족 문제를 해결하려면 gke-connect 네임스페이스에서 gke-connect-agent 프리픽스로 배포를 수정하고 메모리 한도를 256MiB 이상으로 늘립니다.

kubectl patch deploy $(kubectl get deploy -l app=gke-connect-agent -n gke-connect -o jsonpath='{.items[0].metadata.name}') -n gke-connect --patch '{"spec":{"containers":[{"resources":{"limits":{"memory":"256Mi"}}}]}}'

이 문제는 베어메탈용 Anthos 클러스터 1.8.2 이상에서 수정되었습니다.