[]
有一台主機在某次跳電之後,突然每隔兩三天就會一堆程式掛在那邊不會動,也沒辦法登入,只能重開機 (不過很有趣的是對外連線沒問題,NAT的功能不受影響)。一開始懷疑是 ldap 或是 dovecot 的問題,因為沒辦法登入,然後這兩個程式卡了一堆程序而且砍不掉。但是後來發現 samba,apache 也都有類似的現象,而這些應用程式都已經重新編譯到最新的版本,那就應該不是這一堆應用程式的問題了。
試著試著有一次發現某一顆硬碟複製貼上非常之慢,而這顆硬碟是用 gvinum 跑 raid5,就開始想說會不會是 gvinum 出問題,結果一看發現有 raid5 其中一顆硬碟是 stall 的狀態,難怪會慢。然後試著在 degraded 的模式下把東西複製出來,結果發現複製沒多久就卡住了,跟之前那堆程式卡住的情況一樣,看來兇手就是他了。 在花了幾個小時重建完 raid5 之後,速度又回到正常的情況,程式卡住的問題應該也解決了。只是比較好奇的是, degraded 不是應該只會變很慢,為什麼會讓程式卡住啊?