GPU服务器遭黑客入侵变身矿机,企业如何防范

最近一家企业的运维人员遇到了件蹊跷事——机房突然通知他们的服务器有异常网络行为,怀疑在进行加密货币挖矿。经过排查,发现内网中整整10台GPU服务器全部中招,成了黑客的“免费矿工”。这些原本用于深度学习训练的高性能计算设备,如今却在为他人做嫁衣。

gpu服务器  挖矿

事件背景:突如其来的安全通报

2024年12月26日,对这家企业的技术团队来说是个不平凡的日子。他们突然收到托管机房的网络安全通报,明确指出其服务器存在挖矿行为,并要求当天完成整改。这让整个团队都懵了——这些价格不菲的GPU服务器明明是用来跑AI模型的,怎么就变成矿机了呢?

受影响的是同一内网的10台GPU服务器,系统都是Ubuntu 20.04。从通报信息来看,服务器与两个德国IP地址建立了异常连接:209.38.180.198:443和138.68.113.5:80。经过威胁情报查询,确认这些都是已知的矿池地址。

精心设计的隐藏手段

技术团队首先安装了云安全中心高级版进行全盘扫描,同时在等待扫描结果时手动排查服务器。使用ss -ta命令确实发现了服务器与恶意IP的连接,但当他们想用netstat命令查看具体进程时,怪事发生了。

执行netstat -tnlpu | grep 209.38.180.198后,不仅没有返回预期结果,反而在10秒后触发了阿里云的安全告警。这引起了技术人员的警觉——难道系统命令被篡改了?

进一步检查发现,netstat命令的最后修改时间是2024年9月19日17:49。询问运维同事后得知,这些服务器是在几个月前购买的,基本可以推断入侵就发生在9月19日左右。

为了避免误报,技术人员下载了/usr/bin/netstat文件进行威胁情报查询,结果依然报毒。原来,黑客在netstat命令中加入了grep -v反向过滤功能,专门过滤掉矿池IP,导致管理员无法通过常规命令发现异常连接。

更令人担忧的是,随着排查深入,阿里云不断报出新的告警——systemctl、top等关键系统命令全部被篡改。这意味着,继续使用系统自带的命令进行排查已经不再可靠。

恶意进程的深度隐藏技术

技术人员决定下载busybox工具来绕过被篡改的系统命令。这是一个静态编译的轻量级工具集,包含了常用命令的干净版本。

使用busybox top查看CPU占用情况时,发现了一个异常进程/9ac8a281。但奇怪的是,在根目录下根本找不到这个文件,怀疑文件已经被删除,恶意程序直接在内存中运行。

通过排查systemd守护进程,发现了一个名为63f55525.service的异常服务。查看该服务的配置文件,清晰地显示了恶意文件的加载路径:

[Service]
Type=simple
User=root
TimeoutStartSec=1200
ExecStart=/usr/bin/9ac8a28120cf5089 9ac8a281
Restart=always
RestartSec=4h
KillMode=process

使用unhide工具检查隐藏进程时,结果更是令人震惊——系统中存在上百个隐藏进程,全部指向同一个恶意文件/9ac8a281。这些进程都以“已删除”状态在内存中运行,形成了庞大的挖矿军团。

应急响应与遏制措施

面对如此严重的入侵,技术团队立即启动了应急响应流程。首先杀掉发现的恶意进程,然后停止并禁用异常的守护进程,最后删除恶意文件。

一个有趣的现象是:在删除一个恶意隐藏进程后,其他的隐藏进程也会随之消失,具体原理尚不明确,但这种设计显然是为了提高隐藏效果。

后门清理的艰难过程

在初步清理挖矿程序后,云安全中心又检测到了新的威胁——一个伪装成SSH密钥的后门文件:/etc/ssh/ssh_host_dsa_key.pub。

将这个文件提交到沙箱分析,发现它实际上是一个后门程序,会连接example.servidor.world域名,解析出来的IP正是通报中的恶意IP138.68.113.5。同时还发现了另一个远控IP:185.125.188.58。

清理这个后门时遇到了更大困难——文件被锁定,无法删除、移动或修改权限。显然,攻击者使用了chattr命令锁定了文件。但更诡异的是,当技术人员尝试使用chattr命令时,系统提示要用vmlinux1来代替chattr执行。

这种替换系统关键命令的手法极为隐蔽,即使有经验的安全工程师也可能中招。技术人员最终从干净服务器上下载了chattr和lsattr文件,才成功解锁并删除了后门文件。

GPU服务器为何成为黑客目标

GPU服务器之所以备受黑客青睐,根本原因在于其强大的并行计算能力。传统的CPU只有几个到几十个计算核心,而一块高性能GPU拥有数千个计算核心,这种架构正好符合加密货币挖矿的需求。

以NVIDIA Tesla系列GPU为例,单个GPU就拥有3584个CUDA核心,能够同时处理大量简单计算任务。在深度学习领域,这种能力用于矩阵运算;在挖矿领域,则变成了计算哈希值的利器。

更重要的是,企业级GPU服务器的算力密度远超普通显卡。比如NVIDIA A100 GPU的训练速度可达V100的1.8倍,这意味着如果黑客成功入侵,他们获得的算力回报也更为可观。

防范措施与安全建议

从这次事件中可以总结出几条重要的安全建议:

  • 定期检查系统命令完整性:使用md5sum或sha256sum验证关键系统命令的哈希值,确保未被篡改
  • 加强访问控制:限制SSH访问,使用密钥认证替代密码认证
  • 部署专业的安全监控工具:云安全中心等工具能够及时检测异常行为
  • 建立应急响应工具包:准备busybox等干净的工具集,以备不时之需
  • 定期更新系统和软件:及时修补已知漏洞,减少攻击面

对于已经部署GPU服务器的企业,还需要特别注意以下几点:

在选择GPU服务器硬件时就要考虑安全因素。比如优先选择支持PCIe 5.0与NVLink 4.0的服务器架构,这些新技术往往伴随着更好的安全特性。

要建立完善的安全运维流程。包括定期的安全巡检、漏洞扫描、日志分析等。这次事件中,如果团队能更早发现netstat命令的异常,或许就能避免更大的损失。

建议企业考虑部署专门的GPU服务器安全解决方案。这些方案能够监控GPU的使用情况,检测异常的算力使用模式,及时发现潜在的挖矿行为。

GPU服务器作为重要的算力基础设施,其安全性直接关系到企业的核心业务。通过这次安全事件,我们看到了黑客攻击手段的狡猾和专业,也意识到了企业安全防护的迫切性。只有建立纵深防御体系,才能确保这些昂贵的计算资源真正为企业所用,而不是成为黑客的免费矿机。

内容均以整理官方公开资料,价格可能随活动调整,请以购买页面显示为准,如涉侵权,请联系客服处理。

本文由星速云发布。发布者:星速云。禁止采集与转载行为,违者必究。出处:https://www.67wa.com/137627.html

(0)
上一篇 2025年12月1日 上午11:38
下一篇 2025年12月1日 上午11:39
联系我们
关注微信
关注微信
分享本页
返回顶部