i3s6d2f 发表于 2016-3-29 20:30:36

关于非企业磁盘做阵列RAID5的危险性讨论

对于BER产生的概率如下:
1.SCSI/FC/SAS 的概率是 10^16-15(就是说1PB-100TB就会产生一次BER)
2.SATA的概率是10^14-10,要视乎盘体质量(就是说最好情况是读取10TB就会产生BER)

有一篇文章(http://www.sklinux.com/1259)提出BER错误高达44%。开始我对44%的概率是怀疑的,因为没有提供算法。后来去找专业的网站找到类似的算法如下:
1.http://tech.watchstor.com/storage-systems-121661.htm
2.http://itdocument.com/479871989/(这个是建模的,可惜只有部分可以阅览)
3.这里有一个提供下载的链接https://www.google.com/url?sa=t& ... cJTFPC7mlnOvCLUSXNg4.44%的BER出现率,在下面找到印证。


通过上述分析计算,说明了大容量、多磁盘、低安全性的SATA做RAID5的风险。
因为数据有冷、热数据之分。我们平时一般不会做全盘校验,一般只依靠硬盘的自检,当RAID5发生掉盘的时候,阵列的读写数据足以超过SATA的BER概率(也就是10^14-10),当出现BER时,影响只涉及数据的好坏,但是在重建RAID5时,会影响重建的成功率(RAID5重建需要全盘恢复)!要知道RAID5掉盘的情况下,这时候阵列效能是很低的。
RAID5产生时间相当久远,当今大容量、低安全性的SATA组成RAID5确实是有缺陷,存储厂家也是一再强调。
RAID 6 之所以重要,不是因为它能恢复两个同时发生的磁盘故障,而是能用完好的对等磁盘恢复一个磁盘故障和一个读取错误。这就是双校验的优点。

重复一次:1.RAID5全部磁盘在线,BER会影响数据的完整。
               2.RAID5有一个磁盘离线,阵列效能低下,BER会影响数据的完整,也会影响RAID5的重建成功率。SATA磁盘尤其严重。

RAID5是很成熟的技术,但是在采用低安全性、多磁盘、大容量的SATA磁盘组成时,风险级数也是大大提高!请大家不要忽视其中利害关系。也不要因为自己能成功重建而忽略BER的产生的风险!
      
注:终于找到一处BER为44%的出处。http://www.pceva.com.cn/article/1311-4.html,文中很多地方值得家用玩家看看。
       最后附上EMV存储默认的策略(如下图)

emc.png

/data/attachment/forum/201602/28/020310eu48wiudu4f8dnfi.png

x1fixo 发表于 2016-3-29 20:30:36


看来得过几天弄个20t的模型试试看

eny36w 发表于 2016-3-29 20:30:36


desktop 东芝的DT01ACA300和ACA200还是支持CCTL的,人家叫法不一样而已。

veupwrs 发表于 2016-3-29 20:30:37


哎~
要说R5 不如R6 我服i 要说R5 不如R1 R10 我也服本身定义上R5 就是提供了一定的容错 又比较经济的。如果不差钱,直接拉台EMC好了 没啥好比的,无非比谁口袋钱多~

关键这论坛 天天有群人叫嚣R5 不如 单盘这个让我很蛋疼~~

还有就是那个所谓的出错几率 我一直保持怀疑的态度

按照这个 所谓的理论且不管是不是56%的出错率,就算是5.6% 的概率足以让 DSM和Qnxp 吃不了兜着走了!还有就是阵列卡上 直接禁止sata盘的 R5阵列了。试想,一个脑子正常的厂家会让一个错误率如此高的东西存在??

我觉得那些数据是误读而已。

90xo88 发表于 2016-3-29 20:30:37

一直单盘的表示压力不大

t8eize18 发表于 2016-3-29 20:30:38

太专业了,基本没看懂

xvj6yee 发表于 2016-3-29 20:30:38

http://item.jd.com/1731771864.html
同样是EMC的存储,只支持raid10和raid5,没有raid6的选项,注意说明是桌面级的,企业级要多1w。
所有的计算都是对raid5和raid6对比,raid6比raid5好大家都知道,可是jbod和单盘比raid5好的地方是没法说服我的,我看了很多都是再说ber对单盘影响不大,只影响R5重建,可是为什么对单盘影响不大却影响R5重建却没人能说清楚。


rpktply 发表于 2016-3-29 20:30:38

teardrop 于 2016-2-29 11:35 编辑

   RAID阵列卡芯片(只讨论SOC结构,不然没完没了了)对RAID5恢复的算法,不同的厂家有不同策略,都没有对外公布。最大的疑点就在于遇到UBER时,重建是否会跳过还是放弃,还是到一定程度就放弃?按传统的也是最严谨做法,RAID5重建时会全盘数据扫描(这个在华为技术白皮书里可以找到),找出每个完整的数据才算是成功恢复(要求100%)。也就是说遇到UBER时RAID5的重建会停止。如果不停止,我引述的文章等于白说。
   为什么会这样呢?我猜想是因为RAID5数据是条带化,如果在掉盘重建时,UBER会影响整个条带的校验(校验码是整个条带的关键,是必不可少),涉及数据太大(公式:条带深度×条带宽度),好像连续出现多个坏区,类似于坏道。这时候RAID5在重建,不允许坏区重映射,那么阵列控制卡会判断这个硬盘离线。单盘出现UBER可以通过P运行XOR,来修复。然后重映射坏区,影响不太大。
RAID1恢复像拷贝文件,出现坏区快那可以选择忽略,然后继续,也不会扫描全盘,差别非常大。

jut5u5oq 发表于 2016-3-29 20:30:39

工程买的DELL服务器。。。抽出个盘重新插上去就重新检测。。要好久好久。。。家用组RAID我还是放弃了

7o95s14 发表于 2016-3-29 20:30:39


对,想半天该怎么说,被你给讲明白了

页: [1] 2 3
查看完整版本: 关于非企业磁盘做阵列RAID5的危险性讨论