Anthos Service Mesh と Traffic Director は Cloud Service Mesh になりました。詳細については、Cloud Service Mesh の概要をご覧ください。

GKE 上の Cloud Service Mesh のスケーリングのベストプラクティス

このガイドでは、Google Kubernetes Engine でマネージド Cloud Service Mesh アーキテクチャのスケーリングの問題を解決するためのベストプラクティスについて説明します。これらの推奨事項の主な目標は、マイクロサービスアプリケーションの成長に合わせて、パフォーマンス、信頼性、リソース使用率を最適にすることです。

拡張性の制限については、Cloud Service Mesh の拡張性の上限をご覧ください。

GKE 上の Cloud Service Mesh の拡張性は、2 つの主要コンポーネント（データプレーンとコントロールプレーン）の効率的な運用に依存します。このドキュメントでは、主にデータプレーンのスケーリングについて説明します。

コントロールプレーンとデータプレーンのスケーリングに関する問題の特定

Cloud Service Mesh の場合、スケーリングの問題はコントロールプレーンまたはデータプレーンのいずれかで発生する可能性があります。発生しているスケーリングの問題の種類を特定する方法は次のとおりです。

コントロールプレーンのスケーリングに関する問題の症状

サービスディスカバリの遅延: 新しいサービスまたはエンドポイントが検出され、使用可能になるまでに時間がかかる。

構成の遅延: トラフィック管理ルールまたはセキュリティポリシーの変更が反映されるまでに時間がかかる。

コントロールプレーンオペレーションのレイテンシの増加: Cloud Service Mesh リソースの作成、更新、削除などのオペレーションが遅くなったり、応答しなくなったりする。

Traffic Director に関連するエラー: Cloud Service Mesh のログまたはコントロールプレーンの指標に、接続性、リソースの枯渇、API スロットリングに関する問題を示すエラーが表示されることがあります。

影響範囲: コントロールプレーンの問題は通常、メッシュ全体に影響し、広範囲にわたるパフォーマンスの低下を引き起こします。

データプレーンのスケーリングに関する問題の症状

サービス間通信のレイテンシの増加: メッシュ内のサービスへのリクエストでレイテンシやタイムアウトが増加しているが、サービスのコンテナで CPU / メモリの使用量が増加していない。

Envoy プロキシでの CPU またはメモリの使用率が高い: CPU またはメモリの使用率が高い場合、プロキシがトラフィックロードの処理に苦戦している可能性があります。

ローカライズされた影響: データプレーンの問題は通常、Envoy プロキシのトラフィックパターンとリソース使用率に応じて、特定のサービスまたはワークロードに影響します。

データプレーンのスケーリング

データプレーンをスケーリングするには、次の方法を試してください。

水平 Pod 自動スケーリング（HPA）を構成する
Envoy プロキシの構成を最適化する
モニタリングと微調整

ワークロードの水平 Pod 自動スケーリング（HPA）を構成する

水平 Pod 自動スケーリング（HPA） を使用して、リソース使用率に基づいて追加の Pod を使用することでワークロードを動的にスケーリングします。HPA を構成する際は、次の点を考慮してください。

--horizontal-pod-autoscaler-sync-period パラメータを使用して kube-controller-manager に設定し、HPA コントローラのポーリングレートを調整します。デフォルトのポーリングレートは 15 秒です。トラフィックの急増が予想される場合は、この値を短くすることを検討してください。GKE で HPA を使用するタイミングの詳細については、水平 Pod 自動スケーリングをご覧ください。
デフォルトのスケーリング動作では、多数の Pod が一度にデプロイ（または終了）されることがあるため、リソース使用量が急増する可能性があります。スケーリングポリシーを使用して、Pod のデプロイ速度を制限することを検討してください。
EXIT_ON_ZERO_ACTIVE_CONNECTIONS を使用して、スケールダウン中に接続が切断されないようにします。

HPA の詳細については、Kubernetes ドキュメントの水平 Pod 自動スケーリングをご覧ください。

Envoy プロキシの構成を最適化する

Envoy プロキシ構成を最適化するには、次の推奨事項を検討してください。

リソースの上限
サービス依存関係のスコープ設定

リソースの上限

Pod 仕様で Envoy サイドカーのリソースリクエストと上限を定義できます。これにより、リソースの競合を防ぎ、一貫したパフォーマンスを実現できます。

リソースアノテーションを使用して、メッシュ内のすべての Envoy プロキシのデフォルトのリソース上限を構成することもできます。

Envoy プロキシに最適なリソースの上限は、トラフィック量、ワークロードの複雑さ、GKE ノードリソースなどの要因によって異なります。サービスメッシュを継続的にモニタリングして微調整し、最適なパフォーマンスを確保します。

重要な考慮事項:

Quality of Service（QoS）: リクエストと上限の両方を設定すると、Envoy プロキシのサービス品質が予測可能になります。

サービス依存関係のスコープ設定

Sidecar API を使用してすべての依存関係を宣言して、メッシュの依存関係グラフをトリミングすることを検討します。これにより、特定のワークロードに送信される構成のサイズと複雑さが制限されます。これは、大規模なメッシュにとって重要です。

たとえば、次の図は Online Boutique サンプルアプリケーションのトラフィックグラフです。

Online Boutique サンプルアプリケーションのトラフィックグラフツリー。多くのリーフが含まれている

これらのサービスの多くはグラフ内のリーフであるため、メッシュ内の他のサービスの下り（外向き）情報を必要としません。次の例に示すように、これらのリーフサービスのサイドカー構成のスコープを制限するサイドカーリソースを適用できます。

apiVersion: networking.istio.io/v1beta1
kind: Sidecar
metadata:
  name: leafservices
  namespace: default
spec:
  workloadSelector:
    labels:
      app: cartservice
      app: shippingservice
      app: productcatalogservice
      app: paymentservice
      app: emailservice
      app: currencyservice
  egress:
  -   hosts:
    -   "~/*"

このサンプルアプリケーションのデプロイ方法については、Online Boutique サンプルアプリケーションをご覧ください。

サイドカースコープのもう 1 つの利点は、不要な DNS クエリを減らせることです。サービス依存関係のスコープ設定を行うことで、Envoy サイドカーが、サービスメッシュ内のすべてのクラスタではなく、実際に通信するサービスの DNS クエリのみを実行するようになります。

サイドカーの構成サイズが大きい問題に直面している大規模なデプロイでは、メッシュの拡張性を確保するために、サービス依存関係のスコープ設定を強くおすすめします。

単一の名前空間内のすべてのワークロードの構成スコープを制限するには、その名前空間に 1 つの Sidecar リソースを作成します。これにより、その名前空間内のすべての Envoy プロキシは、独自の名前空間内のサービスの構成のみを受信するように指示されます。

apiVersion: networking.istio.io/v1beta1
kind: Sidecar
metadata:
  name: sidecar
  namespace: my-app
spec:
  egress:
  -   hosts:
    -   "my-app/*"

通常は istio-system であるルート名前空間に単一の Sidecar リソースを適用することで、メッシュ内のすべての名前空間にデフォルトの動作を適用できます。

次の Sidecar は、メッシュ内のすべてのサイドカーの下り（外向き）トラフィックを、独自の名前空間内にあるサービスに制限します。

apiVersion: networking.istio.io/v1beta1
kind: Sidecar
metadata:
  name: sidear
  namespace: istio-system
spec:
  egress:
  -   hosts:
    -   "./*"

Cloud Service Mesh では、単一のメッシュ内で作成できる Sidecar リソースの総数に上限が設定されています。この制約があるため、名前空間レベルの Sidecar を作成することをおすすめします。

モニタリングと微調整

初期リソースの上限を設定したら、Envoy プロキシをモニタリングして、最適なパフォーマンスが得られるようにすることが重要です。GKE ダッシュボードを使用して CPU とメモリの使用状況をモニタリングし、必要に応じてリソースの上限を調整します。

Envoy プロキシでリソースの上限を引き上げる必要があるかどうかを判断するには、通常のトラフィックの状況とピークトラフィックの状況でリソースの消費量をモニタリングします。確認すべき点は次のとおりです。

CPU 使用率が高い: Envoy の CPU 使用率が常に上限に近づいているか、上限を超えている場合は、リクエストの処理で苦戦している可能性があります。この場合、レイテンシの増加やリクエストのドロップにつながります。CPU 上限の引き上げを検討してください。

この場合に、水平方向のスケーリングを使用してスケーリングすることもできます。ただ、サイドカープロキシがアプリケーションコンテナと同じ速さでリクエストを常に処理できていない場合は、CPU の上限を調整すると最適な結果が得られます。
メモリ使用量が多い: Envoy のメモリ使用量が上限に近づいているか上限を超えている場合、接続がドロップされる可能性や、メモリ不足（OOM）エラーが発生する可能性があります。これらの問題を防ぐには、メモリ上限を増やします。
エラーログ: Envoy のログを調べて、リソースの枯渇に関連するエラー（アップストリーム接続エラー、ヘッダーの前に切断またはリセット、開いているファイルが多すぎるなど）を確認します。これらのエラーは、プロキシにリソースが不足していることを示している可能性があります。スケーリングの問題に関連するその他のエラーについては、スケーリングのトラブルシューティングのドキュメントをご覧ください。
パフォーマンス指標: リクエストレイテンシ、エラー率、スループットなどの主要なパフォーマンス指標をモニタリングします。高いリソース使用率がパフォーマンスの低下と相関している場合は、上限を引き上げる必要があるかもしれません。

データプレーンプロキシのリソース上限を積極的に設定してモニタリングすることで、GKE でサービスメッシュを効率的にスケーリングできます。

コントロールプレーンのスケーリング

このセクションでは、コントロールプレーンのスケーリングに合わせて調整する設定について説明します。

ディスカバリセレクタ

ディスカバリセレクタは、MeshConfig のフィールドです。このフィールドで、サイドカーの構成更新を計算するときにコントロールプレーンが考慮する名前空間のセットを指定できます。

デフォルトでは、Cloud Service Mesh はクラスタ内のすべての名前空間を監視します。これは、必ずしもすべてのリソースを監視する必要がない大規模なクラスタの場合には、ボトルネックになる可能性があります。

discoverySelectors を使用して、監視と処理の対象となる Kubernetes リソース（サービス、Pod、エンドポイントなど）の数を制限することで、コントロールプレーンのコンピューティング負荷を軽減します。

TRAFFIC_DIRECTOR コントロールプレーンの実装を使用する場合、Cloud Service Mesh は、discoverySelectors で指定された名前空間の Kubernetes リソースに対してのみ、バックエンドサービスやネットワークエンドポイントグループなどの Google Cloud リソースを作成します。

詳細については、Istio ドキュメントのディスカバリセレクタをご覧ください。

復元力を組み込む

次の設定を調整して、サービスメッシュに復元力を組み込むことができます。

外れ値検出
再試行数
タイムアウト
モニタリングと微調整

外れ値検出

外れ値検出は、アップストリームサービス内のホストをモニタリングし、エラーしきい値に達した場合にロードバランシングプールからホストを削除します。

キーの構成:
- outlierDetection: ロードバランシングプールから異常なホストを排除するための制御設定。
メリット: ロードバランシングプール内の正常なホストセットを維持できます。

詳細については、Istio ドキュメントの外れ値検出をご覧ください。

再試行数

失敗したリクエストを自動的に再試行することで、一時的なエラーを軽減します。

キーの構成:
- attempts: 再試行回数
- perTryTimeout: 再試行ごとのタイムアウト。全体的なタイムアウトよりも短く設定します。個々の再試行で待機する時間を決定します。
- retryBudget: 最大同時再試行回数
メリット: リクエストの成功率が向上し、断続的な障害の影響が軽減されます。

検討すべき要素:

べき等性: 再試行されるオペレーションがべき等であることを確認します。つまり、意図しない副作用なしに繰り返すことができることを確認します。
最大再試行回数: 無限ループを回避するために、再試行回数を制限します（最大 3 回など）。
回路ブレーカー: 再試行と回路ブレーカーを統合して、サービスが継続的に失敗した場合に再試行が発生しないようにします。

詳細については、Istio ドキュメントの再試行をご覧ください。

タイムアウト

タイムアウトを使用して、リクエスト処理に許可される最大時間を定義します。

キーの構成:
- timeout: 特定のサービスのリクエストタイムアウト
- idleTimeout: 接続を閉じる前にアイドル状態にできる時間
メリット: システムの応答性の向上、リソースリークの防止、悪意のあるトラフィックに対する強化。

検討すべき要素:

ネットワークレイテンシ: サービス間の予想されるラウンドトリップ時間（RTT）を考慮します。予期しない遅延に備えて、ある程度のバッファを用意します。
サービス依存関係グラフ: 連鎖リクエストの場合、呼び出し元サービスのタイムアウトが依存関係の累積タイムアウトよりも短くなるようにします。これにより、カスケード障害を回避できます。
オペレーションの種類: 長時間実行されるタスクでは、データの取得よりも大幅に長いタイムアウトが必要になる場合があります。
エラー処理: タイムアウトは、適切なエラー処理ロジック（再試行、フォールバック、回路ブレーキングなど）をトリガーする必要があります。

詳細については、Istio ドキュメントのタイムアウトをご覧ください。

モニタリングと微調整

タイムアウト、外れ値検出、再試行のデフォルト設定から始めて、特定のサービス要件と観測されたトラフィックパターンに基づいてこれらを徐々に調整することを検討します。たとえば、サービスが応答するまでにかかる通常の時間に関する実際のデータを確認します。次に、各サービスまたはエンドポイントの特定の特性に合わせてタイムアウトを調整します。

テレメトリー

テレメトリーを使用してサービスメッシュを継続的にモニタリングし、構成を調整してパフォーマンスと信頼性を最適化します。

指標: 包括的な指標（リクエスト量、レイテンシ、エラー率など）を使用します。可視化とアラートのために Cloud Monitoring と統合します。
分散トレース: Cloud Trace との分散トレース統合を有効にして、サービス全体のリクエストフローに関する詳細な分析情報を取得します。
ロギング: アクセスロギングを構成して、リクエストとレスポンスの詳細情報をキャプチャします。

追加情報

Cloud Service Mesh の詳細については、Cloud Service Mesh の概要をご覧ください。
拡張性に関する一般的なサイト信頼性エンジニアリング（SRE）ガイダンスについては、Google SRE ブックの過負荷の処理とカスケード障害への対処の章をご覧ください。

GKE 上の Cloud Service Mesh のスケーリングのベスト プラクティス

コントロール プレーンとデータプレーンのスケーリングに関する問題の特定

コントロール プレーンのスケーリングに関する問題の症状

データプレーンのスケーリングに関する問題の症状

データプレーンのスケーリング

ワークロードの水平 Pod 自動スケーリング（HPA）を構成する

Envoy プロキシの構成を最適化する

リソースの上限

サービス依存関係のスコープ設定

モニタリングと微調整

コントロール プレーンのスケーリング

ディスカバリ セレクタ

復元力を組み込む

外れ値検出

再試行数

タイムアウト

モニタリングと微調整

テレメトリー

追加情報

GKE 上の Cloud Service Mesh のスケーリングのベストプラクティス

コントロールプレーンとデータプレーンのスケーリングに関する問題の特定

コントロールプレーンのスケーリングに関する問題の症状

コントロールプレーンのスケーリング

ディスカバリセレクタ