このページは Cloud Translation API によって翻訳されました。

GKE で kube-dns のトラブルシューティングを行う

Autopilot Standard

サービスディスカバリに kube-dns を使用している場合は、dial tcp: i/o timeout や no such host などの接続エラーが発生することがあります。このようなエラーは、kube-system Namespace の kube-dns Pod に関する問題（構成の誤り、リソースの制限、これらの Pod に影響するネットワーク接続の問題など）を示していることがよくあります。

このページでは、kube-dns デプロイに固有の一般的な問題を診断して解決し、ワークロードの信頼性の高い DNS 解決が確実に行われるようにします。

この情報は、kube-dns などのクラスタのコアコンポーネントの維持を担当するプラットフォーム管理者とオペレーター、およびクラスタ内の他のサービスとの接続に依存するアプリケーションのアプリケーションデベロッパーにとって重要です。 Google Cloud のコンテンツで使用されている一般的なロールとタスクの例の詳細については、一般的な GKE ユーザーのロールとタスクをご覧ください。

kube-dns の DNS の問題の原因を特定する

以降のセクションでは、kube-dns でクエリの解決が困難な理由を診断する方法について説明します。

kube-dns Pod が実行されているかどうか確認する

Kube-dns Pod は、クラスタ内の名前解決に不可欠です。実行されていない場合は、DNS の解決に問題が発生する可能性があります。

kube-dns Pod が最近再起動されていないかどうか確認するには、これらの Pod のステータスを確認します。

kubectl get pods -l k8s-app=kube-dns -n kube-system

出力は次のようになります。

NAME                   READY          STATUS          RESTARTS       AGE
kube-dns-POD_ID_1      5/5            Running         0              16d
kube-dns-POD_ID_2      0/5            Terminating     0              16d

この出力のうち、POD_ID_1 と POD_ID_2 は、kube-dns Pod に自動的に追加される固有識別子を表します。

kube-dns Pod のステータスで Running ではないものがある場合は、次の操作を行います。

管理アクティビティ監査ログを使用して、クラスタまたはノードプールのバージョンのアップグレードや kube-dns ConfigMap の変更など、最近変更が加えられていないかを調査します。監査ログの詳細については、GKE 監査ロギング情報をご覧ください。変更が見つかった場合は、元に戻して Pod のステータスを再度確認します。
関連する最近の変更が見つからない場合は、kube-dns Pod が実行されているノードで OOM エラーが発生しているかどうか調査します。これらの Pod で OOM エラーが発生している場合は、Cloud Logging のログメッセージに次のようなエラーが表示されます。
```
Warning: OOMKilling Memory cgroup out of memory
```
このメッセージから、リソースの消費量が多すぎるために Kubernetes によりプロセスを終了されたことがわかります。Kubernetes はリソースリクエストに基づいて Pod をスケジュールしますが、Pod がリソースの上限まで使用できるようにします。上限がリクエストよりも大きい場合、または上限がない場合は、Pod のリソース使用量がシステムのリソースを超える可能性があります。

このエラーを解決するには、問題のあるワークロードを削除するか、メモリまたは CPU の上限を設定します。上限の設定について詳しくは、Kubernetes ドキュメントの Pod とコンテナのリソース管理をご覧ください。OOM イベントの詳細については、OOM イベントのトラブルシューティングをご覧ください。
OOM エラーメッセージが表示されない場合は、kube-dns Deployment を再起動します。
```
kubectl rollout restart deployment/kube-dns --namespace=kube-system
```
Deployment を再起動したら、kube-dns Pod が実行されていることを確認します。

これらの手順を試しても問題が解決しない、またはすべての kube-dns Pod のステータスが Running なのに DNS の問題が解決しない場合は、/etc/resolv.conf ファイルが正しく構成されていることを確認します。

`/etc/resolv.conf` が正しく構成されていることを確認する

DNS の問題が発生している Pod の /etc/resolv.conf ファイルを確認して、エントリが正しいことを確認します。

Pod の /etc/resolv.conf ファイルを確認します。
```
kubectl exec -it POD_NAME -- cat /etc/resolv.conf
```
POD_NAME は、DNS の問題が発生している Pod の名前に置き換えます。問題が発生している Pod が複数ある場合は、Pod ごとにこのセクションの手順を繰り返します。

Pod バイナリが kubectl exec コマンドをサポートしていない場合、このコマンドは失敗する可能性があります。この場合は、テスト環境として使用するシンプルな Pod を作成します。この手順では、問題のある Pod と同じ名前空間でテスト Pod を実行します。
/etc/resolv.conf ファイル内のネームサーバー IP アドレスが正しいことを確認します。
- ホストネットワークを使用している Pod は、ノードの /etc/resolv.conf ファイルの値を使用する必要があります。ネームサーバー IP アドレスは 169.254.169.254 にする必要があります。
- ホストネットワークを使用していない Pod の場合、kube-dns Service の IP アドレスはネームサーバーの IP アドレスと同じにする必要があります。IP アドレスを比較する手順は次のとおりです。
  1. kube-dns Service の IP アドレスを取得します。
```
kubectl get svc kube-dns -n kube-system
```
    出力は次のようになります。
```
NAME       TYPE        CLUSTER-IP   EXTERNAL-IP   PORT(S)         AGE
kube-dns   ClusterIP   192.0.2.10   <none>        53/UDP,53/TCP   64d
```
  2. [クラスタの IP] 列の値をメモします。この例では 192.0.2.10 です。
  3. kube-dns Service の IP アドレスと /etc/resolv.conf ファイルの IP アドレスを比較します。
```
# cat /etc/resolv.conf

search default.svc.cluster.local svc.cluster.local cluster.local c.PROJECT_NAME google.internal
nameserver 192.0.2.10
options ndots:5
```
    この例では、2 つの値が一致しているため、ネームサーバーの IP アドレスが誤っているために問題が発生しているわけではありません。
    
    IP アドレスが一致しない場合は、アプリケーション Pod のマニフェストに dnsConfig フィールドが構成されていることを意味します。
    
    dnsConfig.nameservers フィールドの値が正しい場合は、DNS サーバーを調べて正しく機能していることを確認します。
    
    カスタムのネームサーバーを使用しない場合は、フィールドを削除して Pod のローリング再起動を行います。
```
kubectl rollout restart deployment POD_NAME
```
    POD_NAME は、Pod の名前に置き換えます。
/etc/resolv.conf の search エントリと ndots エントリを確認します。スペルミスや古い構成がないこと、失敗したリクエストが正しい Namespace の既存のサービスを指していることを確認します。

DNS ルックアップを実行する

/etc/resolv.conf が正しく構成されていること、DNS レコードが正しいことを確認したら、dig コマンドラインツールを使用して、DNS エラーを報告している Pod から DNS ルックアップを実行します。

Pod 内でシェルを開いて、Pod を直接クエリします。
```
kubectl exec -it POD_NAME -n NAMESPACE_NAME -- SHELL_NAME
```
次のように置き換えます。
- POD_NAME: DNS エラーを報告している Pod の名前。
- NAMESPACE_NAME: Pod が属する Namespace。
- SHELL_NAME: 開くシェルの名前。たとえば、sh や /bin/bash です。
Pod で kubectl exec コマンドが許可されていない場合や、Pod に dig バイナリがない場合、このコマンドは失敗する可能性があります。この場合、dig がインストールされているイメージを使用してテスト Pod を作成します。
```
kubectl run "test-$RANDOM" ti --restart=Never --image=thockin/dnsutils - bash
```
Pod がクラスタの内部 DNS Service を正しく解決できるかどうかを確認します。
```
dig kubernetes
```
/etc/resolv.conf ファイルが kube-dns Service の IP アドレスを参照しているため、このコマンドを実行すると、DNS サーバーは kube-dns Service になります。

Kubernetes API Service の IP アドレス（通常は 10.96.0.1 など）を含む正常な DNS レスポンスが表示されます。SERVFAIL が表示される、またはレスポンスがない場合、通常は kube-dns Pod が内部サービス名を解決できないことを示します。
kube-dns Service が外部ドメイン名を解決できるかどうかを確認します。
```
dig example.com
```

特定の kube-dns Pod が DNS クエリに応答しない場合は、その Pod が外部ドメイン名を解決できるかどうかを確認します。

 dig example.com @KUBE_DNS_POD_IP

KUBE_DNS_POD_IP は、kube-dns Pod の IP アドレスに置き換えます。この IP アドレスがわからない場合は、次のコマンドを実行します。

 kubectl get pods -n kube-system -l k8s-app=kube-dns -o wide

IP アドレスは IP 列に表示されます。

コマンドの解決が成功すると、次の例に示すように、status: NOERROR と A レコードの詳細が表示されます。

 ; <<>> DiG 9.16.27 <<>> example.com
 ;; global options: +cmd
 ;; Got answer:
 ;; ->>HEADER<<- opcode: QUERY, status: NOERROR, id: 31256
 ;; flags: qr rd ra; QUERY: 1, ANSWER: 1, AUTHORITY: 0, ADDITIONAL: 1

 ;; OPT PSEUDOSECTION:
 ; EDNS: version: 0, flags:; udp: 512
 ;; QUESTION SECTION:
 ;example.com.                   IN      A

 ;; ANSWER SECTION:
 example.com.            30      IN      A       93.184.215.14

 ;; Query time: 6 msec
 ;; SERVER: 10.76.0.10#53(10.76.0.10)
 ;; WHEN: Tue Oct 15 16:45:26 UTC 2024
 ;; MSG SIZE  rcvd: 56

シェルを終了します。
```
exit
```

これらのコマンドのいずれかが失敗した場合は、kube-dns Deployment のローリング再起動を行います。

kubectl rollout restart deployment/kube-dns --namespace=kube-system

再起動が完了したら、dig コマンドをもう一度試してコマンドが成功するかどうかを確認します。それでも失敗する場合は、パケットキャプチャの取得に進みます。

パケットキャプチャを取得する

パケットキャプチャを取得して、DNS クエリが kube-dns Pod によって適切に受信され、応答されているかどうかを確認します。

SSH を使用して、kube-dns Pod を実行しているノードに接続します。例:
1. Google Cloud コンソールで [VM インスタンス] ページに移動します。
  
  [VM インスタンス] に移動
2. 接続するノードを探します。kube-dns Pod のノードの名がわからない場合は、次のコマンドを実行します。
```
kubectl get pods -n kube-system -l k8s-app=kube-dns -o wide
```
  ノードの名前は [ノード] 列に表示されます。
3. [接続] 列で、[SSH] をクリックします。
ターミナルで、プリインストールされているデバッグツールのツールボックスを起動します。
```
toolbox
```
root プロンプトで、tcpdump パッケージをインストールします。
```
apt update -y && apt install -y tcpdump
```
tcpdump を使用して、DNS トラフィックのパケットキャプチャを取得します。
```
tcpdump -i eth0 port 53" -w FILE_LOCATION
```
FILE_LOCATION は、キャプチャを保存するパスに置き換えます。
パケットキャプチャを確認します。宛先 IP アドレスが kube-dns Service の IP アドレスと一致するパケットがあるかどうかを確認します。DNS リクエストは、このパケットにより解決のために正しい宛先に到達できます。DNS トラフィックが正しい Pod に到達しない場合は、リクエストをブロックしているネットワークポリシーが存在している可能性があります。

ネットワークポリシーを確認する

制限的なネットワークポリシーにより、DNS トラフィックが中断されることがあります。kube-system Namespace にネットワークポリシーが存在するかどうかを確認するには、次のコマンドを実行します。

kubectl get networkpolicy -n kube-system

ネットワークポリシーが見つかった場合は、ポリシーを確認し、必要な DNS 通信が許可されていることを確認します。たとえば、すべての下り（外向き）トラフィックをブロックするネットワークポリシーがある場合、そのポリシーは DNS リクエストもブロックします。

出力が No resources found in kube-system namespace の場合、ネットワークポリシーがないため、問題の原因から除外できます。ログを調査すると、障害の原因をさらに特定できます。

一時的な DNS クエリのロギングを有効にする

誤った DNS レスポンスなどの問題を特定できるように、DNS クエリのデバッグロギングを一時的に有効にします。クエリを有効にするには、既存の kube-dns Pod に基づいて Pod を作成します。kube-dns Deployment に加えた変更は自動的に元に戻されます。

一時的な DNS クエリのロギングを有効にするとリソースが大量に消費されるため、適切なログのサンプルを収集したらすぐに作成した Pod を削除することをおすすめします。

一時的な DNS クエリのロギングを有効にするには、次の操作を行います。

kube-dns Pod を取得して、POD という変数に格納します。

POD=$(kubectl -n kube-system get pods --selector=k8s-app=kube-dns -o jsonpath="{.items[0].metadata.name}")

kube-dns-debug という名前の Pod を作成します。この Pod は POD 変数に保存されている Pod のコピーですが、dnsmasq ロギングが有効になっています。このコマンドにより元の kube-dns Pod が変更されることはありません。
```
kubectl apply -f <(kubectl get pod -n kube-system ${POD} -o json | jq -e '

(

(.spec.containers[] | select(.name == "dnsmasq") | .args) += ["--log-queries"]

)

| (.metadata.name = "kube-dns-debug")

| (del(.metadata.labels."pod-template-hash"))

')
```

ログを調べます。

kubectl logs -f --tail 100 -c dnsmasq -n kube-system kube-dns-debug

クエリは Cloud Logging でも確認できます。

DNS クエリログの表示が完了したら、kube-dns-debug Pod を削除します。
```
kubectl -n kube-system delete pod kube-dns-debug
```

kube-dns Pod を調査する

Cloud Logging を使用して、kube-dns Pod が DNS クエリを受信して解決する方法について説明します。

kube-dns Pod に関連するログエントリを表示する手順は、次のとおりです。

Google Cloud コンソールで、[ログエクスプローラ] ページに移動します。

[ログエクスプローラ] に移動
クエリペインに次のフィルタを入力して、kube-dns コンテナに関連するイベントを表示します。
```
resource.type="k8s_container"
resource.labels.namespace_name="kube-system"
resource.labels.pod_name:"kube-dns"
resource.labels.cluster_name="CLUSTER_NAME"
resource.labels.location="CLUSTER_LOCATION"
```
次のように置き換えます。
- CLUSTER_NAME: kube-dns Pod が属するクラスタの名前。
- CLUSTER_LOCATION: クラスタのロケーション。
[クエリを実行] をクリックします。
出力を確認します。次の出力はエラーの一例です。
```
{
   "timestamp": "2024-10-10T15:32:16.789Z",
   "severity": "ERROR",
   "resource": {
      "type": "k8s_container",
      "labels": {
      "namespace_name": "kube-system",
      "pod_name": "kube-dns",
      "cluster_name": "CLUSTER_NAME",
      "location": "CLUSTER_LOCATION"
      }
   },
   "message": "Failed to resolve 'example.com': Timeout."
},
```
この例では、kube-dns は example.com を適切な時間内に解決できませんでした。このタイプのエラーは、複数の問題が原因で発生する可能性があります。たとえば、アップストリームサーバーが kube-dns ConfigMap で正しく構成されていないか、ネットワークトラフィックが大量に発生している可能性があります。

Cloud Logging を有効にしていない場合は、代わりに Kubernetes ログを確認します。

Pod=$(kubectl get Pods -n kube-system -l k8s-app=kube-dns -o name | head -n1)
kubectl logs -n kube-system $Pod -c dnsmasq
kubectl logs -n kube-system $Pod -c kubedns
kubectl logs -n kube-system $Pod -c sidecar

kube-dns ConfigMap の最近の変更を調査する

クラスタで DNS 解決エラーが突然発生した場合、その原因として、kube-dns ConfigMap の構成変更が不適切であることが考えられます。特に、スタブドメインとアップストリームサーバーの定義の構成変更により問題が発生する可能性があります。

スタブドメイン設定の更新を確認する手順は次のとおりです。

Google Cloud コンソールで、[ログエクスプローラ] ページに移動します。

[ログエクスプローラ] に移動

クエリペインに次のクエリを入力します。

resource.labels.cluster_name="clouddns"
resource.type="k8s_container"
resource.labels.namespace_name="kube-system"
labels.k8s-pod/k8s-app="kube-dns" jsonPayload.message=~"Updated stubDomains to"

[クエリを実行] をクリックします。
出力を確認します。更新がある場合、出力は次のようになります。
```
Updated stubDomains to map[example.com: [8.8.8.8 8.8.4.4 1.1.3.3 1.0.8.111]]
```
更新がある場合は、結果を開いて変更の詳細を確認します。スタブドメインとそれに対応するアップストリーム DNS サーバーが正しく定義されていることを確認します。ここでの入力が正しくないと、ドメインの解決に失敗する可能性があります。

アップストリームサーバーの変更を確認する手順は次のとおりです。

Google Cloud コンソールで、[ログエクスプローラ] ページに移動します。

[ログエクスプローラ] に移動

クエリペインに次のクエリを入力します。

resource.labels.cluster_name="clouddns"
resource.type="k8s_container" resource.labels.namespace_name="kube-system"
labels.k8s-pod/k8s-app="kube-dns" jsonPayload.message=~"Updated upstreamNameservers to"

[クエリを実行] をクリックします。
出力を確認します。変更がある場合、出力は次のようになります。
```
Updated upstreamNameservers to [8.8.8.8]
```
結果を開くと、変更の詳細を確認できます。アップストリーム DNS サーバーのリストが正確であり、これらのサーバーにクラスタからアクセスできることを確認します。これらのサーバーが使用できない場合や、構成が正しくない場合、一般的な DNS 解決が失敗する可能性があります。

スタブドメインとアップストリームサーバーの変更を確認しても結果が見つからない場合は、次のフィルタを使用してすべての変更を確認します。

resource.type="k8s_cluster"
protoPayload.resourceName:"namespaces/kube-system/configmaps/kube-dns"
protoPayload.methodName=~"io.k8s.core.v1.configmaps."

表示された変更を確認し、エラーの原因となっているかどうかを確認します。

Cloud カスタマーケアへのお問い合わせ

上記のセクションの手順をすべて試しても問題の原因を特定できない場合は、Cloud カスタマーケアにお問い合わせください。

よくある問題を解決する

特定のエラーや問題が発生した場合は、次のセクションのアドバイスを参照してください。

問題: DNS が断続的にタイムアウトする

DNS トラフィックの増加時や営業時間の開始時に DNS 解決のタイムアウトが断続的に発生する場合は、次の解決策を試して DNS のパフォーマンスを最適化してください。

クラスタで実行されている kube-dns Pod の数を確認し、GKE ノードの合計数と比較します。十分なリソースがない場合は、kube-dns Pod のスケールアップを検討してください。
平均的な DNS ルックアップの時間を短縮するには、NodeLocal DNS Cache を有効にします。
外部名の DNS 解決により、kube-dns Pod が過負荷になる可能性があります。クエリの数を減らすには、/etc/resolv.conf ファイルの ndots 設定を調整します。ndots は、最初の完全なクエリが実行される以前にクエリを解決するためにドメイン名に必要なドットの数です。

次の例は、アプリケーション Pod の /etc/resolv.conf ファイルです。
```
search default.svc.cluster.local svc.cluster.local cluster.local c.PROJECT_ID.internal google.internal
nameserver 10.52.16.10
options ndots:5
```
この例では、kube-dns はクエリされたドメインでドットを 5 つ検索します。Pod が example.com の DNS 解決のための呼び出しを行う場合、ログは次の例のようになります。
```
"A IN example.com.default.svc.cluster.local." NXDOMAIN
"A IN example.com.svc.cluster.local." NXDOMAIN
"A IN example.com.cluster.local." NXDOMAIN
"A IN example.com.google.internal." NXDOMAIN
"A IN example.com.c.PROJECT_ID.internal." NXDOMAIN
"A IN example.com." NOERROR
```
この問題を解決するには、ndots の値を 1 に変更して 1 つのドットのみ検索するか、クエリまたは使用するドメインの末尾にドット（.）を追加します。例:
```
dig example.com.
```

問題: 一部のノードからの DNS クエリが断続的に失敗する

一部のノードからの DNS クエリが断続的に失敗する場合、次の問題が発生することがあります。

kube-dns Service の IP アドレスまたは Pod の IP アドレスに対して dig コマンドを実行した際に、DNS クエリが断続的にタイムアウトして失敗する。
kube-dns Pod と同じノード上の Pod から dig コマンドを実行すると失敗する。

この問題を解決するには、次の操作を行います。

接続テストを実施します。問題の Pod またはノードを送信元として設定し、宛先を kube-dns Pod の IP アドレスに設定します。これにより、このトラフィックを許可するために必要なファイアウォールルールが設定されているかどうかを確認できます。
テストが失敗し、トラフィックがファイアウォールルールによってブロックされている場合は、Cloud Logging を使用してファイアウォールルールに加えた手動変更を確認します。特定の種類のトラフィックをブロックする変更を探します。
1. Google Cloud コンソールで、[ログエクスプローラ] ページに移動します。
  
  [ログエクスプローラ] に移動
2. クエリペインに次のクエリを入力します。
```
logName="projects/project-name/logs/cloudaudit.googleapis.com/activity"
resource.type="gce_firewall_rule"
```
3. [クエリを実行] をクリックします。変更が加えられているかどうかクエリの出力で確認します。エラーが見つかった場合は、修正してファイアウォールルールを再度適用します。
  
  自動化されたファイアウォールルールは変更しないでください。
ファイアウォールルールに変更が加えられていない場合は、ノードプールのバージョンを確認し、コントロールプレーンおよび他の正常なノードプールに対応しているかどうか確認します。クラスタのノードプールのいずれかがコントロールプレーンの 2 つ前のマイナーバージョンよりも古い場合、問題が発生する可能性があります。この非互換性の詳細については、コントロールプレーンと互換性のないバージョンのノードをご覧ください。
リクエストが正しい kube-dns サービス IP に送信されているかどうかを確認するには、問題のあるノードでネットワークトラフィックをキャプチャし、ポート 53（DNS トラフィック）をフィルタします。kube-dns Pod 自体でトラフィックをキャプチャして、リクエストが目的の Pod に到達しているかどうか、リクエストが正常に解決されているかどうかを確認します。

次のステップ

Kubernetes DNS の問題の診断に関する一般的な情報については、DNS 解決のデバッグをご覧ください。
このドキュメントに問題のソリューションが見当たらない場合は、サポートを受けるで、次のトピックに関するアドバイスなど、詳細なヘルプをご覧ください。
- Cloud カスタマーケアに問い合わせて、サポートケースを登録する。
- StackOverflow で質問する、google-kubernetes-engine タグを使用して類似の問題を検索するなどして、コミュニティからサポートを受ける。#kubernetes-engine Slack チャネルに参加して、コミュニティサポートを利用することもできます。
- 公開バグトラッカーを使用して、バグの報告や機能リクエストの登録を行う。