提醒!群晖DSM的一个严重“BUG”
这是我的亲身经历,希望大家不要重蹈覆辙,提醒大家注意:先说结论:目前群晖DSM的BUG就是,有些系统故障(比如pgsql, synoindexd无法启动)DSM系统不能自我修复,必须要删除分区然后再重建分区,也就是重装系统!!!因此在DSM系统检测出硬盘有坏道的时候,请立刻更换硬盘,否则(或者已经)将造成DSM不可修复的故障,导致只有重新删除数据,重新安装DSM才能修复系统。
我的经历:
- 我的是DS1512+,系统在运行3年左右之后开始提示硬盘有损坏,看了一下检查出硬盘有坏道,当时没有太在意,因为系统提示坏道好像并不是很影响使用(在磁盘信息那那个页面),但没过几天,其中一个磁盘进入堪用状态,并很快损毁。
- 根据系统提示,我换了一块新的硬盘,系统修复后状态良好,但运行出现故障,pgsql, synoindexd无法启动,套件全部不能使用,然后联系群晖售后,群晖技术人员检查后发现,说还有两块硬盘有坏道,需要更换成新的硬盘,之后可以修复系统。
- 听了群晖的意见,我又更换了两块硬盘,修复完系统之后状态良好,但依然有故障,pgsql, synoindexd仍然无法启动,全部套间无法使用,无奈只能再次联系群晖技术人员。这次群晖技术人员检查后告知系统损坏无法通过软件修复,只能通过删除分区,重建分区的方法进行修复,也就是重装。
当时我就对群晖技术人员提出了质疑。
1.系统为何不能在系统损坏之前提出警告?然后用户更换硬盘来解决问题?
2.系统为何不能通过软件修复,而必须是删除分区然后重建分区(重装)?有NAS的用户怎么可能还去买大量硬盘用于备份?
群晖的回答如下,让我非常无语,我顿时感觉买个NAS和买个硬盘盒差距不大。
1. 磁盘的自检(smart)是由硬盘原厂设计提供并嵌入硬盘FW中的,群晖没有能力更改他的设定,只能被动的接收信息。而硬盘厂商显然不希望人们觉得他的硬盘有问题,所以会调低报错的下限。而这就需要您随时去关心注意。
2. 群晖没有直接回答,而是跟我说起了数据恢复问题:
由于硬盘的损毁造成的数据丢失,群晖是不负责恢复的。而我出于乐于助人的精神才尝试修复。
或者您可以找数据恢复公司,他们能为您恢复文件系统error。
因为现在没有多余硬盘作备份,所以我现在只能这么将就用着,无法修复,无法使用套件,这么贵的NAS只能当存储服务器这么用着。。。。。。
20150929 Update 1:
看了大家的讨论,终于明白,群晖的系统是和用户数据在一个分区上的,这样的话,硬盘损坏就会不可避免的导致系统损坏,这是系统损坏这种共享分区方案的先天不足,原则上是无法避免的,只有自己多备份才能安心,而这些都是我们这些小白在购买之前不了解的,群晖也没有将这么重要的信息主动告知,网上铺天盖地的宣传都是说怎么好,怎么安全,怎么多功能,导致我们这些小白看了群晖的宣传以为买个NAS就万事大吉了。
当然如果能有独立存储空间来运行DSM系统,能好不少,群晖NAS这么贵的产品,没有这么做确实让人遗憾。
这次群晖技术人员告知系统损坏无法通过软件修复,只能通过重装进行修复??
我自己也重装过系统
重装并不会删除阵列里的数据啊
系统跟阵列是分离的
我来回答下:
1. 系统出现类似问题时,没有及时通知给用户,并且清晰说明如果不更换硬盘,继续使用将会对系统造成不可修复的故障(按照群晖技术人员的回复,实际上我觉得群晖报错的时候,硬盘状况已经很差了,很可能已经造成了不可修复的故障)。
硬盘如果损坏 机器会报警闪黄灯并蜂鸣
其次 我的qq邮箱会收到邮件推送
五盘位raid5 如果没有hot spare 是很危险的
2. 系统出现类似故障,系统不能在保证用户数据的情况下进行修复,只能重新删除分区并重装系统,我想这对绝大多数用户来说是不能接受的。
你说的是你的文件?
如果是文件是无压力的 重装不会影响文件
系统损坏的话只接重新安装系统。这就跟我以前214play迁移到1515+是一样的重装系统
其次 看上面你说你是更换了多个盘 raid5只能冗余1颗 如果两块硬盘损坏 数据就跪了。。。。。
这里给大家普及下系统分区损坏的问题:其实这里说的损坏并不是硬盘损坏而是硬盘阵列上的文件系统损坏(文件系统常见的是:NTFS,FAT32) 损坏的原因有很多,但是最常见的是由于硬盘出现坏轨引起的,因为正确数据无法写入或者写入错误的数据导致问题发生,而且文件系统的损坏往往是慢慢开始的,所以大家一定要注意NAS里面的报告,这里可以建议大家使用磁盘报告,可以观察到是否有坏道。
所以说并不是像楼主说的系统有问题。
xplvk 于 2015-9-28 16:53 编辑
纯粹只是分析这个问题:
1. 请问情况是不是软Raid5里5块有3块损坏?
2. 如果是,请问软阵列上有没有数据丢失?<----- 这点非常重要!
3. 如果是,请问是否会导致硬盘上的DSM也会损坏?
4. 如果是,请问DSM与NAS保存的数据(存储空间)是否都是保存在软阵列上并独立存在的?
5. 如果是,正常的阵列容错情况下(一块硬盘损坏),是可以通过DSM上修复存储空间或硬盘组的,因为没有造成数据丢失,但数据丢失导致存储空间的话DSM怎么去修复呢?DSM系统损坏又由什么修复呢?更何况硬盘损坏还不知道是否导致在DSM系统和存储空间有多少数据丢失?
如果平时有通过内置的备份功能,备份存储空间和系统设置,当您更换上正常的硬盘后还是可以通过恢复功能还原整个NAS的。
"NAS上数据可以通过raid来备份和恢复",这一句不太明白。是指额外硬盘或硬盘组备份数据吗?还是指Hotspare?阵列不存在备份一说。
不知道我理解有没有错误。。。
当然,每次都是重构完了才换的下一块.
/thread-1093099-1-1.html
可以看看~这个~
mimipipi 于 2015-9-28 15:18 编辑
可能还是我没有说清楚,再说两句:
1. 硬盘出现损坏,确实是会报警和蜂鸣,但这个好像是已经损坏到一定程度才会。时间有点长,记不太清楚具体是那个阶段了,可能是堪用。
可以明确的是,硬盘有坏道,系统是不会报警的,前些日子我有两个硬盘都有坏道,系统状态是良好,跟没有坏道是一样的状态。
2. 我说的是系统损坏问题,我的数据并没有跪,因为一个硬盘损毁的时候我已经关机并进行了更换,随后又逐个更换了两颗有坏道的硬盘,因为raid的原因,数据并没有损毁,有问题的是系统,系统无法自我修复了,导致现在DSM系统无法使用套件。
你也说了,系统出错就只能删数据重装,这点我觉得这对用户,特别是普通个人用户来说很难接受。你想想,我都买NAS了,目的不就是想省事省心的存放大量数据么,现在厂家告诉我系统出了问题要删掉NAS上数据重来,我哪来的空间备份10T左右的数据?
恩。。如果这要是真的话,我太庆幸自己没入手这东西了
1,硬盘故障原因很多, 因此简单的SMART根本无法完全评估硬盘错误。
2,对于大部分系统来说,基本上不会有自我修复。或者说,自我修复不是万能的。 虽然像Windows这样的系统,有些系统检查工具可以修复系统组件,但能力也是有限的。 对于Linux来说,至少从我玩过的系统来看,没看到那个能自我修复的。更新到时不少。
不过,作为修复的手段之一,就是备份。或者替代。 系统至少提供一个能定期备份系统并恢复的功能。
3,重装系统会导致现有 阵列中的数据丢失,这是一个严重BUG。即便像Windows这样的系统,也很少会因为重装而丢失数据(虽然有, 比如加密,但如果之前备份密钥,导入后是可以查看的)
针对第3点, 我建议你试试向消协举报,并且去官方论坛发帖。
1,先去查询所有官方宣传资料,否有明确字样提醒“重装系统会到时现有数据丢失”样的文字。
2,如果没有,针对以上信息进行举报, 群晖 可以隐瞒了某些重要信息,影响选择。 毕竟,如果购买前,宣传资料上明确显示,重装系统会导致数据丢失,那么我不会选择这个型号。 而对方隐瞒了这个,导致我选择这个型号。
mimipipi 于 2015-9-28 16:11 编辑
你可能没有看明白我的内容,我抱怨的不是数据丢失的问题,如果5块硬盘有三块一起坏了,数据丢失了,我是不会抱怨的,因为这是我raid选择的问题,我自行承担责任。
问题是,NAS上数据可以通过raid来备份和恢复,但DSM系统却不可以修复,只能删掉分区然后重建分区,我认为这是DSM的BUG,因为这样系统的稳定性和安全性是无法保证的。群晖把自己系统说得这么高大上,却没有提到系统损坏后(而且这些损坏非常隐蔽,损坏发生时,用户和DSM系统可能都不知情),NAS上的数据必须删除才能修复,我想如果群晖这么说的话,很多用户就不会选择了吧。(这个我回去再到群晖官网和说明书上看一下是不是提及了,我印象没有)