DELL服务器阵列崩溃恢复方法

张开发
2026/5/19 0:56:33 15 分钟阅读
DELL服务器阵列崩溃恢复方法
服务器可以24 小时稳定运行并对外提供存储、计算、网络、管理等服务是互联网和企业系统的 “心脏”。也就是因为其“稳定”的原因有时候很容易让人忽略它的存在甚至连阵列“降级”都不知道。今天我们来看看DELL PowerEdge R730服务器RAID5阵列崩溃后的恢复方法。故障存储:服务器型号:DELL PowerEdge R730阵列卡型号:H330MINI硬盘型号:WD1000FYYG-18A21V2 1TB*4 ST8000NM0185 8TB*2故障现象:客户描述此台服务器为三种业务平台提供支持已运行超过15年原始为4块 WD1000FYYG 1TB硬盘组成的RAID5阵列后由于空间紧张又增加了两块希捷8TB硬盘使用RAID1)。某日在使用时突然业务无法运行经过排查发现此服务器RAID5阵列1号和3号盘报红灯阵列卡管理程序显示两块盘 “OFFLine”,RAID5阵列彻底崩溃。图1DELL PowerEdge R730故障分析:DELL PowerEdge R730服务器最多支持8块硬盘目前使用了6个盘位两组阵列。0组为4盘的RAID51组则为2盘的RAID1操作系统为Microsoft Windows2008。1组的RAID1两块盘对比后发现阵列卡中显示是正常的但是实际检测发现极少量坏扇区而0组则存在1、3号盘离线的问题这个是导致RAID5阵列崩溃的最大原因。本着“知其所以然”的原则先来简单聊下RAID5RAID 5独立磁盘冗余阵列 5 级是一种分布式奇偶校验的磁盘阵列方案核心是条带化数据 分布式奇偶校验XOR在性能、容量利用率、单盘容错之间取得极佳平衡是企业与服务器最主流的 RAID 级别。基本条件最少硬盘数3 块N ≥ 3容量计算总可用容量 (硬盘数 − 1) × 最小单盘容量例3 块 2TB 硬盘 → 可用 4TB1 块盘容量用于校验4块 2TB 硬盘 → 可用 6TB两大核心技术1数据条带化Striping逻辑上连续的数据被分割成固定大小的数据块Chunk如 64KB/128KB这些数据块并行、轮循写入不同物理硬盘效果提升读取性能多盘并发读2分布式奇偶校验Distributed Parity对每一组横跨多盘的同条带数据块通过异或XOR运算生成 1 个奇偶校验块P公式P D₁ XOR D₂ XOR D₃ ... XOR Dₙ₋₁关键特性校验块不固定在某一盘而是循环、均匀分布在所有硬盘上避免 RAID 4 的 “专用校验盘写入瓶颈”每块盘一部分存数据、一部分存校验总结下RAID5条带XOR校验最大允许一块盘离线当超过此数量整个阵列会崩溃图2。但是需要重点注意的是RAID5的“降级”比如4块盘的RAID5阵列当1块盘出现问题离线(OFFLINE)时,此时阵列会处于“降级状态”即阵列并没有崩溃只是运行于最小模式下此时阵列卡会对离线的故障盘报“黄灯”。这种最小模式并不影响业务的继续因为阵列还没有崩溃如果此时找一块容量相同的盘上线则阵列卡会重新同步使整个阵列回到“冗余状态”。个人认为相对于大于1块盘的离线实际上“降级状态”更不易让人察觉因为终端的业务还在正常运行如果不去机房根本不会知道事情的严重性。通过日志分析3号盘是最先离线的图3离线时间相对较早经过检测发现此硬盘存在坏扇区这也是阵列卡发出OFFLINE指令的原因。所以很长一段时间实际这个4盘的RAID5都处于“降级状态”1号盘的离线导致阵列彻底崩溃图2RAID5原理图图33号盘很早前就离线了故障处理:RAID5阵列的恢复实际上就三点1、块大小 2、盘序 3、条带走向只要分析出来这三点就可以通过各种软件重组阵列并恢复数据。块大小这个很好判断就不在赘述而盘序这个是知道的最后就是条带走向这个通过前两点也能推测出来。对于这种“降级状态”的RAID5阵列最重要的是最后离线的硬盘阵列数据的“新鲜度”离不开它。本例中最后离线的是1号盘此盘的故障为盘片划伤磁头损坏图4。图41号盘盘片图5最早离线的3号盘重组后直接报错现在的情况只能先恢复1号盘了否则数据肯定不对图5这种WD的SAS盘相对比较少虽然盘片存在划伤的问题但是希望还是很大的。直接清理盘片并更换磁头当然备盘也很好找直接使用0号盘即可图6。然后镜像数据这个共计消耗了三天时间最后1号盘的数据90%都镜像出来了。此阵列的块大小为64KB盘序为0-1-2-MISS条带为左同步图5-1。由于此服务器比较老使用的还是MBR分区表而RAID5总容量大约在3T左右已经超过了MBR的管理极限所以其划分了三组独立的LUN图7-9。经过核对ORCAL、MYSQL等数据库都正常仅有少量的网站上传文件受损至此恢复工作完成另外如果各位看官的阵列卡型号也为H330MINI那么尽快升级固件否则会出现盘再次上线能识别阵列信息但无法识别逻辑盘的BUG。图5-1阵列参数图60号备盘和1号故障盘图7LUN0部分数据图8LUN1部分文件图9LUN2部分文件这就是DELL PowerEdge R730阵列崩溃后的恢复方法大家在遇到此类问题时可以和CHS数据实验室联系

更多文章