Karmada v1.14 版本发布！新增联邦资源配额管理能力!

2025年5月30日 · 阅读需要 1 分钟

Karmada 是开放的多云多集群容器编排引擎，旨在帮助用户在多云环境下部署和运维业务应用。凭借兼容 Kubernetes 原生 API 的能力，Karmada 可以平滑迁移单集群工作负载，并且仍可保持与 Kubernetes 周边生态工具链协同。

Karmada v1.14 版本现已发布，本版本包含下列新增特性：

新增联邦资源配额管理能力，用于多租户场景下资源治理
新增定制化污点管理能力，消除隐式集群故障迁移
Karmada Operator 功能持续演进
Karmada 控制器性能显著提升

新特性概览

联邦资源配额管理

在多租户的云基础设施中，配额管理是确保资源公平分配和防止超额使用的关键。尤其在多云多集群环境下，分散的配额系统往往导致资源监控困难和管理割裂，因此实现跨集群的联邦配额管理成为提升资源治理效率的核心要素。

此前，Karmada 通过 FederatedResourceQuota 将全局配额分配至成员集群，由各集群本地实施配额管控。本次版本升级增强了联邦配额管理能力，新增控制平面全局配额检查机制，支持直接在控制平面进行全局资源配额校验。

该功能特别适用于以下场景：

您需要从统一位置跟踪资源消耗和限制，而无需关注集群级别的分配情况。
您希望通过验证配额限制来避免超额的任务提交。

注意：该特性目前处于 Alpha 阶段，需要启用 FederatedQuotaEnforcement Feature Gate 才能使用。

假设您想设置总体 CPU 限制为 100，您可以按照如下配置进行定义：

apiVersion: policy.karmada.io/v1alpha1
kind: FederatedResourceQuota
metadata:
  name: team-foo
  namespace: team-foo
spec:
  overall:
    cpu: 100

一旦应用，Karmada 将开始监控和执行 test 命名空间的 CPU 资源限制。假设您应用了一个需要 20 个 CPU 的新 Deployment。联邦资源配额的状态将更新为如下所示：

spec:
  overall:
    cpu: 100
status:
  overall:
    cpu: 100
  overallUsed:
    cpu: 20

如果您应用的资源超过 100 个CPU的限制，该资源将不会被调度到您的成员集群。

有关此功能的详细用法，可以参考特性使用文档：Federated ResourceQuota。

定制化污点管理

在 v1.14 之前的版本中，当用户启用故障转移功能时，系统在检测到健康状态异常后会自动向集群添加一个 NoExecute effect 污点，从而触发目标集群上所有资源的迁移。

在这个版本中，我们对系统中潜在的迁移触发因素进行了全面审查。所有隐含的集群故障转移行为已被消除，并且引入了针对集群故障机制的明确约束条件。这使得因集群故障而引发的资源迁移能够得到统一管理，进一步增强了系统的稳定性和可预测性。

集群故障条件是通过评估出现故障的集群对象的状态条件来确定的，以便应用污点，这一过程可以称为“Taint Cluster By Conditions”。此版本引入了一个新的 API - ClusterTaintPolicy，它允许用户自定义规则，以便在预定义的集群状态条件得到满足时，为目标集群添加特定的污点。

Cluster Taint Management

对于更复杂的集群故障判断场景，用户可以直接实现一个自定义的“集群污点控制器”，以控制如何向集群对象添加或移除污点。

ClusterTaintPolicy 是一种 Cluster scope 资源，下面我们给一个简单的例子来说明它的用法：

apiVersion: policy.karmada.io/v1alpha1
kind: ClusterTaintPolicy
metadata:
  name: detect-cluster-notready
spec:
  targetClusters:
    clusterNames:
    - member1
    - member2
  addOnConditions:
  - conditionType: Ready
    operator: NotIn
    statusValues:
    - "True"
  - conditionType: NetworkAvailable
    operator: NotIn
    statusValues:
    - "True"
  removeOnConditions:
  - conditionType: Ready
    operator: In
    statusValues:
    - "True"
  - conditionType: NetworkAvailable
    operator: In
    statusValues:
    - "True"
  taints:
  - key: not-ready
    effect: NoSchedule
  - key: not-ready
    effect: NoExecute

上面的例子描述了一个针对 member1 和 member2 集群的 ClusterTaintPolicy 资源，当集群的状态条件同时满足 Type 为 Ready 和 NetworkAvailable 的 condition value 不等于 True 时，会为目标集群添加污点 {not-ready:NoSchedule} 与 {not-ready:NoExecute}；当集群的状态条件同时满足 Type 为 Ready 和 NetworkAvailable 的 condition value 等于 True 时，会移除目标集群上的污点 {not-ready:NoSchedule} 和 {not-ready:NoExecute}。

有关此功能的详细用法，可以参考特性使用文档：集群污点管理。

Karmada Operator 功能持续演进

本版本持续增强 Karmada Operator，新增以下功能：

支持配置 Leaf 证书有效期。
支持 Karmada 控制平面暂停调谐。
支持为 karmada-webhook 组件配置 feature gates。
支持为 karmada-apiserver 组件执行 loadBalancerClass 以选择特定的负载均衡实现。
引入 karmada_build_info 指标来展示构建信息，以及一组运行时指标。

这些改进使得 karmada-operator 更加灵活且可定制，提高了整个 Karmada 系统的可靠性和稳定性。

Karmada 控制器性能显著提升

自 1.13 版本发布以来，Karmada adopters 自发组织起来对 Karmada 性能进行优化。如今，一个稳定且持续运作的性能优化团队 SIG-Scalability 已经组建，致力于提升 Karmada 的性能与稳定性。感谢所有参与者付出的努力。如果大家有兴趣，随时欢迎大家加入。

在本次版本中，Karmada 实现了显著的性能提升，尤其是在 karmada-controller-manager 组件中。为验证这些改进，实施了以下测试设置：

测试设置包括 5000 个 Deployment，每个 Deployment 都与一个相应的 PropagationPolicy 配对，该策略将其调度到两个成员集群。每个 Deployment 还依赖一个唯一的 ConfigMap，它会与 Deployment 一起分发到相同的集群。这些资源是在 karmada-controller-manager 组件离线时创建的，这意味着在测试期间 Karmada 首次对它们进行同步。测试结果如下：

冷启动时间（清空工作队列）从约 7 分钟缩短至约 4 分钟，提升了 45%。
资源检测器：平均处理时间的最大值从 391 毫秒降至 180 毫秒（提升了 54%）。
依赖分发器：平均处理时间的最大值从 378 毫秒降至 216 毫秒（提升了 43%）。
执行控制器：平均处理时间的最大值从 505 毫秒降至 248 毫秒（提升了 50%）。

除了更快的处理速度，资源消耗也显著降低：

CPU使用率从 4 - 7.5 核降至 1.8 - 2.4 核（降幅 40% - 65%）。
内存峰值使用量从 1.9 GB 降至 1.47 GB（降幅 22%）。

这些数据证明，在 1.14 版本中，Karmada 控制器的性能得到了极大提升。未来，我们将继续对控制器和调度器进行系统性的性能优化。

相关的详细测试报告，请参考 [Performance] Overview of performance improvements for v1.14。

致谢贡献者

Karmada v1.14 版本包含了来自 30 位贡献者的 271 次代码提交，在此对各位贡献者表示由衷的感谢：

^-^	^-^	^-^
@Arhell	@baiyutang	@chaosi-zju
@CharlesQQ	@dongjiang1989	@everpeace
@husnialhamdani	@ikaven1024	@jabellard
@liangyuanpeng	@likakuli	@LivingCcj
@liwang0513	@MdSayemkhan	@mohamedawnallah
@mojojoji	@mszacillo	@my-git9
@Pratham-B-Parlecha	@RainbowMango	@rajsinghtech
@seanlaii	@tangzhongren	@tiansuo114
@vie-serendipity	@warjiang	@whosefriendA
@XiShanYongYe-Chang	@zach593	@zhzhuang-zju

karmada v1.14 contributors

Karmada 安全审计结果发布

2025年1月17日 · 阅读需要 1 分钟

社区文章同步发布于 OSTIF 博客和 CNCF 博客。

OSTIF 非常荣幸能够分享我们对 Karmada 的安全审计结果。Karmada 是一个开源的 Kubernetes 编排系统，用于跨云和集群无缝运行云原生应用程序。在 Shielder 和云原生计算基金会 (CNCF) 的帮助下，此项目为用户提供了一个更加安全可靠的开放的多云、多集群 Kubernetes 管理解决方案。

审计流程：

Karmada 是 Kubernetes 生态系统的一部分，使用了 Kubernetes 库和实现，除此之外，Karmada 自定义实现及其第三方依赖项的整体安全状况也是本次审计工作的重中之重。 Karmada 利用多个组件、CLI 工具和附加组件来扩展标准 Kubernetes 功能，这些功能可以根据部署配置进行定制。因此，Karmada 的攻击场景相对复杂，有必要执行范围威胁建模以评估潜在的攻击面。利用这个定制的威胁模型，结合手动检查、工具分析和动态审查，Shielder识别了六个对项目安全有影响的问题。

审计结果：

6 个发现
- 1 个高风险，1 个中风险，2 个低风险，2 个提示
对未来工作的建议
整体安全性的长期改善建议

Karmada 项目的安全团队在整个审计过程中一直积极响应并与 Shielder 积极合作，解决修复了报告中列出的问题。他们为项目所做的工作一丝不苟，在问题修复过程中能考虑到对用户以及相关的第三方依赖项和项目的影响。他们发布了必要的安全通告，并告知用户本次审计的影响和提供相应的解决方案。OSTIF 祝他们在 CNCF 毕业之路上一切顺利。

感谢以下个人和团体使这次合作成为可能：

Karmada 维护者和社区：特别是 Kevin Wang、Hongcai Ren 和 Zhuang Zhang
Shielder: Abdel Adim “Smaury” Oisfi, Pietro Tirenna, Davide Silvetti
云原生计算基金会

参考资料：

CNCF (宣布 Karmada 安全审计结果): https://www.cncf.io/blog/2025/01/16/announcing-the-results-of-the-karmada-security-audit/
审计报告: https://ostif.org/wp-content/uploads/2025/01/OSTIF-Karmada-Report-PT-v1.1.pdf
Shielder: https://www.shielder.com/blog/2025/01/karmada-security-audit/

Karmada v1.11 版本发布！新增应用跨集群滚动升级能力！

2024年9月13日 · 阅读需要 1 分钟

本版本包含下列新增特性：

支持联邦应用跨集群滚动升级，使用户版本发布流程更加灵活可控；
karmadactl 新增了多项运维能力，提供独特的多集群运维体验；
为联邦工作负载提供标准化 generation 语义，使 CD 执行一步到位；
Karmada Operator 支持自定义 CRD 下载策略，使离线部署更灵活。

联邦应用跨集群滚动升级

在最新发布的 v1.11 版本中，Karmada 新增了联邦应用跨集群滚动升级特性。这一特性特别适用于那些部署在多个集群上的应用，使得用户在发布应用新版本时能够采用更加灵活和可控的滚动升级策略。用户可以精细地控制升级流程，确保每个集群在升级过程中都能够平滑过渡，减少对生产环境的影响。这一特性不仅提升了用户体验，也为复杂的多集群管理提供了更多的灵活性和可靠性。

下面通过一个示例来演示如何对联邦应用进行滚动升级：

假定用户已经通过 PropagationPolicy 将 Deployment 应用分发到三个成员集群中：ClusterA、ClusterB、ClusterC：

apiVersion: policy.karmada.io/v1alpha1
kind: PropagationPolicy
metadata:
  name: nginx-propagation
spec:
  resourceSelectors:
    - apiVersion: apps/v1
      kind: Deployment
      name: nginx
  placement:
    clusterAffinity:
      clusterNames:
        - ClusterA
        - ClusterB
        - ClusterC

rollout step 0

此时 Deployment 版本为v1，为了将 Deployment 资源版本升级至 v2，您可以依次执行下列步骤。

首先，通过配置 PropagationPolicy 策略，暂时停止向 ClusterA 和 ClusterB 分发资源，从而应用的变更将只发生在 ClusterC：

apiVersion: policy.karmada.io/v1alpha1
kind: PropagationPolicy
metadata:
  name: nginx-propagation
spec:
  #...
  suspension:
    dispatchingOnClusters:
      clusterNames:
        - ClusterA
        - ClusterB

rollout step 1

然后更新 PropagationPolicy 资源，允许系统向 ClusterB 集群同步新版本资源：

  suspension:
    dispatchingOnClusters:
      clusterNames:
        - ClusterA

rollout step 2

最后删除 PropagationPolicy 资源中的 suspension 字段，允许系统向 ClusterA 集群同步新版本资源：

rollout step 3

从上述示例中我们可以看到，利用联邦应用跨集群滚动发布能力，新版本应用可以做到按集群粒度滚动升级，并且可以做到精准控制。

此外，该功能还可以应用于其他场景，特别是对于开发者来说，由于 Karmada 控制平面和成员集群之间争夺资源控制权而导致资源频繁更新的情况。在这种情况下，暂停资源与成员集群的同步过程可以方便快速识别问题。

karmadactl 能力增强

在本版本中，Karmada 社区致力于增强 Karmadactl 的能力，以便提供更好的多集群运维体验，进而摆脱用户对 kubectl 的依赖。

更丰富的命令集

Karmadactl 支持更丰富的命令集，如 create、patch、delete、label、annotate、edit、attach、top node、api-resources 以及 explain，这些命令允许用户对 Karmada 控制面或成员集群上的资源执行更多操作。

更丰富的功能

Karmadactl 引入了 --operation-scope 参数来控制命令的操作范围。有了这个新参数，get、describe、exec 和 explain 等命令可以灵活切换集群视角对 Karmada 控制面或成员集群的资源进行操作。

更详细的命令输出信息

karmadactl get cluster 命令的输出现在增加了 cluster 对象的 Zones、Region、Provider、API-Endpoint 和 Proxy-URL 信息。

通过这些能力增强，karmadactl 的操作和运维体验得到了提升。karmadactl 的新功能和更多详细信息可以通过使用 karmadactl --help 获得。

联邦工作负载标准化 generation 语义

在本版本中，Karmada 将联邦层面的工作负载 generation 语义进行了标准化。这一更新为发布系统提供了可靠的参考，增强了跨集群部署的精确度。通过标准化 generation 语义，Karmada 简化了发布流程，并确保一致性地跟踪工作负载状态，使得跨多个集群管理和监控应用程序变得更加容易。

标准化细节为，当且仅当工作负载分发至所有成员集群中的资源状态满足 status.observedGeneration >= metadata.generation 时，联邦层面的工作负载状态中的 observedGeneration 值才会被设置为其本身 .metadata.generation 值，这确保了每个成员集群中相应的控制器均已完成了对该工作负载的处理。此举将联邦层面的 generation 语义同kubernetes 集群的 generation 语义进行了统一，使用户能够更便捷的将单集群业务迁移至多集群业务。

本版本已完成下列资源适配：

GroupVersion: apps/v1 Kind: Deployment, DaemonSet, StatefulSet
GroupVersion: apps.kruise.io/v1alpha1 Kind: CloneSet, DaemonSet
GroupVersion: apps.kruise.io/v1beta1 Kind: StatefulSet
GroupVersion: helm.toolkit.fluxcd.io/v2beta1 Kind: HelmRelease
GroupVersion: kustomize.toolkit.fluxcd.io/v1 Kind: Kustomization
GroupVersion: source.toolkit.fluxcd.io/v1 Kind: GitRepository
GroupVersion: source.toolkit.fluxcd.io/v1beta2 Kind: Bucket, HelmChart, HelmRepository, OCIRepository

如有您有更多资源（包括CRD）需要适配，可以向 Karmada 社区进行反馈，也可以使用 Resource Interpreter 进行扩展。

Karmada Operator 支持自定义 CRD 下载策略

CRD（Custom Resource Definition，自定义资源定义）资源是 Karmada Operator 用于配置新的 Karmada 实例的关键前提资源。这些 CRD 资源包含了 Karmada 系统的关键 API 定义，例如，PropagationPolicy，ResourceBinding，Work 等。

在 v.1.11 版本中，Karmada Operator 支持用户自定义 CRD 下载策略。利用这个功能，用户可以指定 CRD 资源的下载路径，并定义更多的下载策略，为用户提供了更灵活的离线部署方式。

有关该特性的详细描述，可以参考提案：Custom CRD Download Strategy Support for Karmada Operator。

致谢贡献者

Karmada v1.11 版本包含了来自 36 位贡献者的 223 次代码提交，在此对各位贡献者表示由衷的感谢：

karmada v1.11 contributors

突破100倍集群规模，Karmada大规模测试报告发布

2022年10月26日 · 阅读需要 1 分钟

摘要

随着云原生技术在越来越多的企业和组织中的大规模落地，如何高效、可靠地管理大规模资源池以应对不断增长的业务挑战成为了当下云原生技术的关键挑战。在过去的很长一段时间内，不同厂商尝试通过定制Kubernetes原生组件的方式扩展单集群的规模，这在扩大规模的同时也引入了复杂的单集群运维、不清晰的集群升级路径等问题。而多集群技术能在不侵入修改Kubernetes单集群的基础上横向扩展资源池的规模，在扩展资源池的同时降低了企业的运维管理等成本。

在Karmada的大规模落地进程中，Karmada的可扩展性和大规模逐渐成为社区用户的新关注点。因此，我们对Karmada开展了大规模环境下的测试工作，以获取Karmada管理多个Kubernetes集群的性能基线指标。 对于以Karmada为代表的多集群系统而言，单集群的规模不是制约它的资源池规模的限制因素。 因此，我们参考了Kubernetes的大规模集群的标准配置和用户的生产落地实践，测试了Karmada同时管理100个5k节点和2wPod的Kubernetes集群的用户场景。受限于测试环境和测试工具，本次测试并未追求测试到Karmada多集群系统的上限，而是希望能覆盖到在生产中大规模使用多集群技术的典型场景。根据测试结果分析，以Karmada为核心的集群联邦可以稳定支持100个大规模集群，管理超过50万个节点和200万个Pod，可以满足用户在大规模生产落地的需要。

在本文中，我们将介绍用于测试的相关指标，如何进行大规模测试，以及我们如何实现大规模的集群接入。

背景

随着云原生技术的不断发展和使用场景的不断丰富，多云、分布式云逐渐成为引领云计算发展的趋势。著名分析公司Flexera在2021的调查报告显示，超过93%的企业正同时使用多个云厂商的服务，一方面受限于Kubernetes单集群的业务承载能力和故障恢复能力，单一的集群无法适应现有的企业业务，另一方面，在全球化的当下，企业出于避免被单家厂商垄断的目的，或是出于成本等因素考虑，更倾向于选择混合云或者多公有云的架构。与此同时，Karmada社区的用户在落地的进程中也提出了多集群下大规模节点和应用管理的诉求。

Karmada v1.3：更优雅更精准更高效

2022年9月6日 · 阅读需要 1 分钟

Karmada是开放的多云多集群容器编排引擎，旨在帮助用户在多云环境下部署和运维业务应用。凭借兼容Kubernetes原生API的能力，Karmada可以平滑迁移单集群工作负载，并且仍可保持与Kubernetes周边生态工具链协同。

在最新发布的1.3版本中，Karmada重新设计了应用跨集群故障迁移功能，实现了基于污点的故障驱逐机制，并提供平滑的故障迁移过程，可以有效保障服务迁移过程的连续性（不断服）。

本版本新增加的特性：

增加了面向多集群的资源代理新特性，通过该代理平台业务方可以在不感知多集群的情况下，以单集群访问姿势直接操纵部署在多集群的工作负载；
提供针对集群资源建模能力，通过自定义的集群资源模型，调度器可以更精准地进行资源调度；
提供基于Bootstrap令牌来注册Pull模式集群的能力，不仅可以简化集群注册过程，还可以方便地进行权限控制；

此外，基于生产环境的用户反馈，本版本还进行了诸多性能优化，系统运行过程中CPU和内存资源需求大大降低，详细的性能测试报告稍后发布。

与之前版本一样，v1.3与前面的版本仍然保持兼容，前面版本的用户仍可以平滑升级。

Multi-cluster Management with an Ocean of Nodes

2022年3月22日 · 阅读需要 1 分钟

Kevin Wang

Huawei Cloud

Yifan Shen

Industrial and Commercial Bank of China

In terms of multi-cluster management, Industrial and Commercial Bank of China (ICBC) found a new way to do it efficiently, that is, using Karmada. At KubeCon 2021, Kevin Wang from Huawei Cloud and Shen Yifan from ICBC shared how they managed it.

新特性概览​

联邦资源配额管理​

定制化污点管理​

Karmada Operator 功能持续演进​

Karmada 控制器性能显著提升​

致谢贡献者

审计流程：​

审计结果：​

参考资料：​

联邦应用跨集群滚动升级​

karmadactl 能力增强​

更丰富的命令集​

更丰富的功能​

更详细的命令输出信息​

联邦工作负载标准化 generation 语义​

Karmada Operator 支持自定义 CRD 下载策略​

致谢贡献者

摘要​

背景​

新特性概览

联邦资源配额管理

定制化污点管理

Karmada Operator 功能持续演进

Karmada 控制器性能显著提升

审计流程：

审计结果：

参考资料：

联邦应用跨集群滚动升级

karmadactl 能力增强

更丰富的命令集

更丰富的功能

更详细的命令输出信息

联邦工作负载标准化 generation 语义

Karmada Operator 支持自定义 CRD 下载策略

摘要

背景