服务器raid卡故障

编辑:云登 浏览:

导读:本文为大家介绍(服务器raid卡故障),下面和小编一起看看详细内容吧。如何排除服务器中RAID5故障由于技术的不断进步,不同类型的服务器在发生RAID5故障后有不同的处理方法。现在大型应用的网络拓扑结构一般采用C/S结构或B/S结构,这就需要在中心机房放置至少一台配备大型数据库的服务器。基于服务器安全性和可

本文为大家介绍(服务器raid卡故障),下面和小编一起看看详细内容吧。

如何排除服务器中RAID 5故障

由于技术的不断进步,不同类型的服务器在发生RAID 5故障后有不同的处理方法。

现在大型应用的网络拓扑结构一般采用C/S结构或B/S结构,这就需要在中心机房放置至少一台配备大型数据库的服务器。基于服务器安全性和可靠性的考虑,通常采用磁盘阵列RAID(Redundant Array of Inexpective Disk)来对服务器磁盘进行磁盘冗余备份。 RAID 5阵列级别是奇偶校验磁盘阵列,没有独立的奇偶校验磁盘。它采用数据分块和独立访问技术,在同一磁盘上并行处理多个访问请求,同时允许阵列中的任何硬盘发生故障。

在实际应用中,由于一些不可避免的客观原因,可能会出现一些阵列故障。最常见的情况是硬盘自行离线,在线状态显示为DDD(Defunct Disk Drive,无效磁盘驱动器),硬盘出现物理或逻辑故障。如果是物理故障,唯一的选择就是更换硬盘;如果是逻辑故障,可以采用有针对性的技术修复,恢复硬盘在线状态,继续维持硬盘数据在原阵列中的条带分布,继续数据存储系统的发展。一致性。

但是,某些旧HP服务器(例如HP LH6000)上的数据恢复与新服务器(例如HP ProLian系列服务器)上的数据恢复不同。因此,不同的服务器对RAID 5故障的处理方式不同。我曾经遇到过两台服务器意外断电导致RAID 5阵列卡数据失效的情况。通过采取不同的策略解决了这个问题。

故障修复

一台是HP LH6000服务器,4块18GB硬盘组成RAID 5磁盘阵列,阵列卡为NetRaid;另一台是HP ProLian ML370服务器,有4个146GB硬盘组成RAID 5磁盘阵列,其阵列卡是带有热备硬盘(Hot Spare)的Smart Array 642。操作系统均为Window 2000,数据库为Server 2000。

HP LH6000故障如下: 一颗硬盘红灯闪烁,机器仍正常运行。但没过多久,系统就无法正常运行,然后发现另一个硬盘的红灯也在闪烁。

解决办法如下:

1. 启动服务器,阵列自检时按Ctrl+M进入NetRaid管理程序。查看阵列信息,发现硬盘状态为Failed。使用修改后的配置强制其中一个硬盘上线。重启服务器后,进入系统前的硬件自检无效,启动失败。

2、启动服务器,阵列自检时按Ctrl+M进入NetRaid管理程序。选择磁盘阵列,手动将原来OnLine挂载的硬盘置为OnLine,然后手动将另一个Failed的硬盘设置为OnLine,然后重新启动服务器即可进入系统。

3、检查系统和数据库运行正常后,进入阵列配置工具,手动将故障硬盘设置为Rebuild。重建100%完成后,重新启动服务器。所有阵列和系统都将恢复到原始状态。

另一台运行ERP系统的服务器(HP ProLiant ML370)通过RAID卡(智能阵列卡)配置4块146GB热插拔硬盘,组成RAID 5级磁盘阵列。其中一个硬盘在运行过程中突然出现故障。服务器RAID 5自动启用热备用硬盘以逻辑替换损坏的硬盘。整个硬盘的数据访问任务仍然完全按照原来的读写过程顺序运行,应用程序和数据库不受影响。

使用HP自带的ACU工具检查硬盘状态,发现红灯警告的硬盘处于离线状态。如果HP ProLiant服务器中Raid 5的两个硬盘都亮红灯,则表明系统崩溃,无法访问数据库,但系统不会自动关闭。当第二个硬盘亮起红灯时,使用常规方法无法恢复数据。您只能付费找专业的第三方数据恢复公司来恢复数据。

因此,惠普较旧的HP LH6000系列服务器的阵列设计与当今的HP ProLiant系列服务器的阵列有很大不同。就操作方法而言,HP LH6000服务器的阵列操作方法有多种选择,包括删除阵列、阵列故障后重建等,初始化也是手动选择。但HP ProLiant系列服务器阵列的初始化是在配置阵列后自动在后台执行的,因此ProLiant系列服务器在阵列发生错误后无法重新配置阵列。

HP LH6000服务器可能会因其他意外原因导致阵列中的磁盘离线。维护人员可以手动选择使用Online、Offline、Rebuild等方式恢复数据。不过,目前的HP ProLiant系列服务器将不再像旧服务器那样出现阵列中磁盘断开的情况。因此,当硬盘亮红灯时,硬盘基本已损坏,需要更换。当然,你可以选择热插拔硬盘进行重建(Rebuild),看看硬盘是否还能使用一段时间。

做好技术后备

从上面两个例子可以看出,同一品牌、不同系列的服务器由于技术不同,对于Raid 5磁盘故障的排查方法也不同。但重建数据后,数据被保存了,从中可以得出以下经验:

我们相信,任何先进的技术手段都不是万无一失的。想要保证数据安全,就必须做好备份工作。最好每天对数据库做一次异地备份。至少有一个新的硬盘可用。需要指出的是,添加到阵列中的硬盘必须大于或等于故障硬盘的容量。

如果条件允许,推荐“RAID 5+热备盘”的建阵方案。这样,在数据丢失之前我们就有两次更换硬盘的机会。对于一般应用,只能使用RAID 5,它可以同时提供数据访问性能、可靠性和最大磁盘空间。

管理员必须不断监控阵列的状态,包括在管理软件中检查磁盘阵列的黄色警告灯和驱动器状态。如果出现故障,应及时排除故障。无论是什么级别的阵列,在排除故障之前都应该备份数据。

好了,(服务器raid卡故障)的介绍到这里就结束了,想知道更多相关资料可以收藏我们的网站。

相关推荐

更多