玩转阿里云Kubernetes污点与容忍，轻松调度你的容器应用

嘿，兄弟姐妹们！今天咱们不聊那些虚头巴脑的架构图，也不整一堆术语堆砌的“高深”理论。咱就来点实在的——怎么在阿里云上用好Kubernetes里的“污点（Taint）”和“容忍（Toleration）”，让你的应用跑得更稳、更聪明、还不多花钱。

阿里云Kubernetes污点容忍

你是不是也遇到过这种情况：某个节点专门用来跑数据库，结果别的普通服务也往上面塞，搞得数据库性能直接拉胯？或者你想把一些特殊的任务固定到某些高性能机器上，但K8s偏偏不听指挥，乱分配？别急，今天这招“污点+容忍”就是专门治这种“不听话”的。

啥是污点和容忍？先搞明白基本概念

咱们打个比方你就懂了。想象一下，你家客厅沙发上放了个牌子：“脏袜子专用，外人勿坐”。这个“脏袜子专用”就是“污点”——它告诉所有人：这地方有点特殊，一般人别来。

这时候你哥们来了，他说：“哎我正好有双脏袜子，我能坐！” 他为啥能坐？因为他“容忍”这个污点。在Kubernetes里，Pod（也就是你的应用）能不能调度到某个Node（服务器），就得看它有没有“容忍”那个Node上的“污点”。

所以总结一下：

污点（Taint）：加在Node上的标记，表示“我不欢迎某些Pod”。
容忍（Toleration）：加在Pod上的声明，表示“我不怕这个污点，我能忍”。

只有当Pod的容忍匹配了Node的污点，这个Pod才能被调度过去。不然？不好意思，请另请高明。

为什么要用污点和容忍？真实场景告诉你

光讲理论没意思，咱上点实战案例。

场景一：专用节点跑数据库

你在阿里云买了几台高配ECS，专供MySQL用。你不希望其他Web服务、定时任务之类的随便往上面塞，怎么办？简单！给这几台Node打个污点：

kubectl taint nodes node-db-01 dedicated=mysql:NoSchedule

这句命令的意思是：node-db-01这台机器，标记为“dedicated=mysql”，而且策略是“NoSchedule”——意思是，不允许新的Pod调度过来，除非它明确说“我能忍”。

然后，你部署MySQL的时候，在它的YAML里加上这么一段：

tolerations:
- key: "dedicated"
  operator: "Equal"
  value: "mysql"
  effect: "NoSchedule"

这样一来，只有带这个“容忍”的Pod才能调度到这台机器上。其他Pod？想都别想。干净利落，清爽得很。

场景二：隔离测试环境

你们公司有开发、测试、生产三套环境，都跑在一个K8s集群里（为了省钱嘛）。但你怕测试环境的“熊孩子”服务把生产资源占了，咋办？

给测试专用的Node加上污点：

kubectl taint nodes node-test-01 env=test:NoSchedule

然后测试环境的Deployment里，每个Pod都加上对应的容忍。生产环境的Pod？一个都不加。这样就算资源再紧张，K8s也不会把生产服务丢到测试机器上——除非你手抖写错了配置。

场景三：GPU节点只给AI项目用

你买了一台带GPU的实例跑深度学习训练，贵啊！结果发现有个同事把普通爬虫也部署上去了，白嫖GPU资源？这不得气炸。

赶紧给GPU节点加污点：

kubectl taint nodes gpu-node-01 hardware=gpu:NoSchedule

然后只有AI训练的Pod才加容忍。其他人想用？先找你申请，你还得看他顺眼不。

污点的几种策略，你得门儿清

Kubernetes的污点不是只有一种玩法，它支持三种策略，效果不一样，用错可就尴尬了。

NoSchedule：最常用，拒绝新Pod

这是最温和的一种。已经运行的Pod不受影响，但新的Pod如果不容忍，就别想进来。适合大多数隔离场景。

PreferNoSchedule：尽量别来，但不强求

这个比较佛系。K8s会尽量避开有这个污点的节点，但如果实在没地方去了，它还是会把Pod塞进去。适合做“偏好”而不是“强制”的场景。

NoExecute：狠人模式，连老住户都赶走

这个最狠。不仅新Pod进不来，老的Pod如果没容忍，也会被驱逐。可以用在节点维护前，比如你要重启机器，先打个NoExecute污点，让Pod自动迁移走。

还可以配合tolerationSeconds，比如：

tolerations:
- key: "dedicated"
  operator: "Exists"
  effect: "NoExecute"
  tolerationSeconds: 300

意思是：我可以容忍被驱逐，但最多容忍5分钟。5分钟后，对不起，你必须走人。这个在滚动更新、节点升级时特别有用。

阿里云ACK上实操一把

说了这么多，咱们在阿里云容器服务ACK上试试看。

第一步：登录阿里云容器服务控制台，找到你的K8s集群，进入节点管理。

第二步：选中你想打污点的节点，点击“更多” -> “编辑污点”。输入key、value、effect，保存就行。是不是比命令行还简单？

第三步：部署应用的时候，在YAML里加上tolerations字段。如果你用的是Helm或者阿里云的应用目录，记得在values.yaml里配置好容忍项。

小贴士：你可以用下面这条命令查看所有节点的污点情况：

kubectl describe nodes | grep -A 5 Taints

一眼就能看出哪些节点“有脾气”。

常见坑点提醒，别踩雷

用得好是神器，用不好就是炸弹。这几个坑，我替你踩过了，你绕着走。

坑一：忘了加容忍，Pod一直Pending

最常见的问题。你给节点打了污点，但部署应用时忘了加tolerations，结果Pod卡在Pending状态，死活起不来。查日志一看：0/5 nodes are available: 5 node(s) had taints that the pod didn't tolerate. 瞬间明白——哦，是我忘了加容忍。

坑二：effect写错了，该拦的没拦住

比如你写了NoSchedule，结果Pod还是进去了。检查一下是不是effect拼错了，或者大小写不对。K8s可是很严格的。

坑三：节点被打满污点，系统组件起不来

别给Master节点乱打NoExecute污点！不然kube-proxy、coredns这些系统Pod可能被驱逐，整个集群就瘫了。操作前先想清楚影响范围。

省成本小技巧：结合弹性伸缩玩出花

最后教你们一招高级玩法：结合阿里云的节点自动伸缩（CA） + 污点容忍，实现低成本高效调度。

比如你有一组Spot实例（抢占式实例，便宜60%以上），你想优先用它们跑非核心任务。怎么做？

给Spot节点自动打上污点：

kubectl taint nodes spot-node-xxx lifecycle=spot:NoSchedule

然后非核心任务的Deployment里都加上对应容忍。核心服务？不加容忍。这样核心服务永远跑在按量付费的稳定实例上，非核心任务优先用便宜的Spot实例，省下的钱够你喝一个月奶茶了。

而且万一Spot实例被回收，Pod会自动调度到其他节点，业务不受影响。完美！

结尾福利：别忘了领优惠券

说到省钱，怎么能不提优惠呢？如果你正打算在阿里云上搞K8s集群、买ECS、或者上容器服务，现在正是好时机！

去领一张阿里云优惠券，不管是新用户还是老用户，都有机会拿到实实在在的折扣。买得越多，省得越多。说不定这张券就能帮你省下一台ECS的钱，回本第一步，从领券开始！

掌握污点容忍，你就是集群调度大师

今天我们聊了Kubernetes污点和容忍的核心原理，通过几个真实场景展示了它的强大之处。它不只是一个技术功能，更是一种运维思维——通过标记和规则，让资源调度变得更智能、更可控。

在阿里云ACK上使用这套机制，既能保障关键业务的稳定性，又能最大化利用资源降低成本。尤其是结合Spot实例、自动伸缩这些功能，简直是性价比拉满。

别再让你的Pod“乱跑”了。从今天起，给你的节点打上合适的污点，给Pod配上正确的容忍，做一个掌控全局的K8s调度高手！

动手试试吧，有问题欢迎留言。咱们下期聊点别的，比如怎么用Helm管理应用，或者Service Mesh怎么落地。

内容均以整理官方公开资料，价格可能随活动调整，请以购买页面显示为准，如涉侵权，请联系客服处理。

本文由星速云发布。发布者：星速云。禁止采集与转载行为，违者必究。出处：https://www.67wa.com/149420.html