打印

[旧话重提]存储配置有效性和可靠性的确定

[旧话重提]存储配置有效性和可靠性的确定

从直接附加存储、集群存储到区域网存储,许多存储配置是有效的。戴尔分析5种模型,以确定哪一种具有最好的可靠性、有效性和故障间隔平均时间(MTBF)。

系统管理员可以采取不同的方法实现存储。直接存储(DAS)是必备的设备(如硬盘、RAID阵列或磁带),它通过电缆直接与服务相连。存储区域网是一个高性能网络,它可以在不同种类的服务和存储资源间移动数据。此网络可以实现服务和存储系统间any-to-any的内连。

存储也可以在集群中实现,集群是由2个或更多服务器组合在一起的组群,它可以减少系统故障概率,而另一台服务器自动地接替故障服务器的活动和应用程序。集群可以带来高性能和高有效性。

为比较这些不同存储配置的有效性和可靠性,戴尔提出模型系统可靠性分析,该模型系统集成DellTM PowerEdgeTM  6450服务器、QLogic®  QLA 220主机总线适配器(HBA)、戴尔|EMC FC4700存储阵列和戴尔PowerVaultTM  56F光纤通道开关(条件适宜时)。

建立可靠性模型

对于每一种配置,本文包括如下内容:

可靠性:  在对于给定信心水平上的给定周期规定条件下,系统完成其必需功能的可能性。
MTBF (故障间隔平均时间):  一个以小时为单位,代表性地表达一个可修复系统如何可靠的指标,MTB值越大,其系统就越可靠。
有效性:  在给定的时间内,系统将要启动和正确运行的可能性;本文评估内在的有效性, 它说明系统运行时间和故障检修,不包括同预防性维护、供应和管理相关的宕机时间。



计算仅仅阐明硬件的有效性、可靠性和故障间隔平均时间。作为计算的基础,戴尔使用下列假设创建可靠性框图:

连接服务器和PowerVault 56F开关的冗余HBA处于备用模式。
简单的SAN和高有效性的集群配置包含备用开关,它能使服务器在冗余HBA之间进行选择:这些配置采用理想的开关。
PowerVault 56F开关在任意给定时间内都起作用。在开关故障期间,另一个开关接替故障开关的功能。对于FC4700存储阵列中的双重控制器来说,同样的假设是正确的。



非冗余DAS

非冗余DAS配置由一台PowerEdge6450服务器、一个HBA和一个FC4700存储阵列(见图1 )组成。图2 显示用于评估这种配置的可靠性框图和数学公式。

图 1.非冗余DAS配置


图 2. 可靠性框图和非冗余DAS方程


冗余DAS

冗余DAS配置具有故障转移性能,因为服务器包含2个HBA且存储阵列包含2个控制器(见图3 )。图4 显示用于评估这种配置的可靠性框图和数学公式。

图 3. 冗余DAS配置

图 4. 可靠性框图和冗余DAS方程


基础集群

假定通过微软公司的集群服务来建立基础集群。它包括2台可以彼此进行故障转移的PowerEdge 6450服务器、一台HBA/服务器和一台具有2台控制器的FC4700存储阵列(见图5 )。图6 显示用于评估这种配置的可靠性框图和数学公式。


图 5. 基本集群配置

图 6. 可靠性框图和基本集群方程


高有效性集群

通过微软公司的集群服务来建立的高有效性集群(见图7 ),比基础集群更具有冗余性-每个服务器包含2台具有故障转移功能的HBA。配置1台存储阵列,它包括配备2台控制器,并添加2个PowerVault 56F开关。图8 显示用于评估这种配置的可靠性框图和数学公式(见图9 )。


图 7. 高性能集群配置

图 8. 高性能集群的可靠性框图

图 9. 高性能集群的可靠性方程


简单的SAN

图10中显示的简单SAN配置,假定2台服务器不能集群而且不能彼此故障转移。因此,当一台服务器出现故障时SAN也将宕机。但是每一台服务器的HBA、存储阵列控制器和开关出现故障时,可以把故障转移到其相对应部分。2个PowerVault 56F开关没有内部开关链接。图11显示用于评估这种配置的可靠性框图和数学公式(见图12)。

图 10. 简单SAN配置

图 11. 简单SAN的可靠性框图

图 12. 简单SAN的可靠性方程
本帖最近评分记录
  • 网络忏悔 X币 +15 感谢您发布的原创,期待您的下篇佳作! 2008-4-6 23:09
《地球》是被上帝遗弃的游戏,其中AI逻辑代码最复杂的单位被称为“人”。
社会就是整个宇宙,每个人就是一颗天体,人总是在与他人的互动中画完其一生的轨迹。这种互动由多方的引力所驱使,其对人生轨迹的影响,符合《互动天体物理学》。
爱是人类互动引力的缘动力。

TOP

确定子系统可靠性

为计算子系统的可靠性,戴尔使用MTBF和有效性对单独子系统或组件进行评估(见图13 )。MTBF评估由戴尔质量组提出。有效性评估包括修复的平均时间(MTTR)、供应时间、宕机时间和管理时间。QLA 2200 HBA的有效性假设是0.99996,因为HBA的目标MTTR是8小时。戴尔也假设所有子系统的故障时间(PowerEdge 6450, PowerVault 56F, Dell |EMC FC4700, h和QLA 2200) 遵循指数分布。


图 13. 单独子系统的有效性和MTBF评估

首先,有效性和MTBF数字是用于计算每个子系统的MTTR:


其中:A-单独子系统的有效性,MTBF-单独子系统故障间隔时间

整个系统的MTTR如下:



其中:n -子系统数,λ -第i 个单元的故障率(每个子系统故障率是1/MTBF), t -第i 个单元的修复时间

图14 显示的结果用于确定MTTR 的值是5.05小时,而且MTTR 和服务器是4.80小时。



图 14. 用于确定子系统可靠性的中间结果

子系统可靠性给定公式是R (t) = e -lit 。对于每个子系统,工作可靠性是计算1、2、3年的工作时间(分别是8760, 17,520和26,280小时)。图15 显示结果。

图 15.子系统的任务可靠性

计算系统可靠性、MTBF和有效性

戴尔使用把适当的子系统的可靠性应用到图2、4、6、9和12中的方程方法,来计算每个配置的系统可靠性R 。系统可靠性用于计算系统MTBF:


其中:t -按小时计算的任务时间。 内在系统有效性,



图16 , 17 , 和18 显示不同配置的MTBF、有效性和可靠性计算结果。


图 16. 超过3年的MTBF比较

图 17. 超过3年的有效性比较

图 18. 超过3年的可靠性比较

集群和冗余:提高可靠性

对所有配置来说,可靠性预计从第一年到第三年会下降。非冗余DAS和简单的SAN配置具有最低的MTBF、有效性和可靠性,因为这些配置在自然状态下是连续的。在非冗余DAS配置中,任何组件的故障都将导致系统故障。因为其内置冗余和集群,集群配置的高有效性证明超过三年它仍具有最高的MTBF、有效性和可靠性。

此分析表明把集群或冗余集成到复杂网络配置的要素组件,如SAN,这不仅可以提高 MTBF而且还可以增加配置的有效性和可靠性。这些配置的类型可以减少每年所经历的宕机时间,这样可以节约大量的成本。

本文摘自Dell网站,原作者Santosh Shetty
Santosh Shetty (santosh_shetty@dell.com) 在戴尔企业系统组(ESG)中的可靠性工程小组任开发顾问工程师。Santosh目前致力于同产品开发小组有关的各种平台开发工作,也从事硬盘驱动器鉴定过程工作。Santosh曾在Bharti Duraline有限公司(印度)任质量保证工程师。他拥有Goa工程学院的机械工程学士学位和Arizona大学工业工程硕士学位。

[ 本帖最后由 云杉上的蝴蝶 于 2008-3-20 23:05 编辑 ]
《地球》是被上帝遗弃的游戏,其中AI逻辑代码最复杂的单位被称为“人”。
社会就是整个宇宙,每个人就是一颗天体,人总是在与他人的互动中画完其一生的轨迹。这种互动由多方的引力所驱使,其对人生轨迹的影响,符合《互动天体物理学》。
爱是人类互动引力的缘动力。

TOP

感觉回到了大二的概率论................

TOP

不错不错,别的不说,至少还有助于恢复一些快忘记的概念

TOP


感谢一直以来您对我们的支持!
当前时区 GMT+8, 现在时间是 2008-8-30 19:55 京ICP证060528 号

Designed By 17DST