上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

RAIDZ1のHDDが1台お亡くなりに・・・。zpool replaceの顛末

NFSサーバのレスポンスが悪化しているなと思って、zpoolの状態を見てみると・・・


xyz@zfs:~$ zpool status
pool: zfspool1
state: DEGRADED
status: One or more devices has experienced an error resulting in data
corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the
entire pool from backup.
see: http://www.sun.com/msg/ZFS-8000-8A
scrub: resilver completed after 0h0m with 0 errors on Thu Aug 25 07:33:30 2011
config:

NAME STATE READ WRITE CKSUM
zfspool1 DEGRADED 1 0 0
raidz1-0 DEGRADED 1 0 0
c10d1 ONLINE 0 0 0
c9d0 DEGRADED 8 0 23 too many errors
c10d0 ONLINE 0 0 0
c9d1 ONLINE 3 1 0 37.5K resilvered

errors: 1 data errors, use '-v' for a list

Orz。一本完全に吹っ飛んでます。もう一本も結構危険かも。とりあえず、clearしてscrubで逃げれないかと悪あがき。


root@zfs:~# zpool clear zfspool1
root@zfs:~# zpool status
pool: zfspool1
state: ONLINE
status: One or more devices has experienced an error resulting in data
corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the
entire pool from backup.
see: http://www.sun.com/msg/ZFS-8000-8A
scrub: resilver completed after 0h0m with 0 errors on Thu Aug 25 07:33:30 2011
config:

NAME STATE READ WRITE CKSUM
zfspool1 ONLINE 0 0 0
raidz1-0 ONLINE 0 0 0
c10d1 ONLINE 0 0 0
c9d0 ONLINE 0 0 0
c10d0 ONLINE 0 0 0
c9d1 ONLINE 0 0 0 37.5K resilvered

errors: 1 data errors, use '-v' for a list


一応clearできたけど、scrubしていると、/var/adm/messagesにfatalが大量発生、もう無理!

Aug 25 21:05:56 zfs Error for command 'read sector' Error Level: Fatal
Aug 25 21:05:56 zfs gda: [ID 107833 kern.notice] Requested Block 1891851291, Error Block: 1891851294
Aug 25 21:05:56 zfs gda: [ID 107833 kern.notice] Sense Key: uncorrectable data error
Aug 25 21:05:56 zfs gda: [ID 107833 kern.notice] Vendor 'Gen-ATA ' error code: 0x7
Aug 25 21:06:05 zfs gda: [ID 107833 kern.warning] WARNING: /pci@0,0/pci-ide@11/ide@0/cmdk@0,0 (Disk1):

壊れたディスクの電源を抜いて立ち上げると、一応ONLINEになっているので、データは生きているとほっとして、即効Amazonお急ぎ便でWD20EARXをぽちる。夜中の注文だったので翌々日の9時ごろにHDD到着、即交換作業開始。

root@zfs:~# zpool status
pool: zfspool1
state: DEGRADED
status: One or more devices could not be used because the label is missing or
invalid. Sufficient replicas exist for the pool to continue
functioning in a degraded state.
action: Replace the device using 'zpool replace'.
see: http://www.sun.com/msg/ZFS-8000-4J
scrub: none requested
config:

NAME STATE READ WRITE CKSUM
zfspool1 DEGRADED 0 0 0
raidz1-0 DEGRADED 0 0 0
c9d1 ONLINE 0 0 0
c9d0 UNAVAIL 0 0 0 corrupted data
c10d1 ONLINE 0 0 0
c10d0 ONLINE 0 0 0

errors: No known data errors

WindowsマシンにつないでcrystalDiskMarkでチェックしたので、corrupted dataになってる。formatコマンドでデバイス名を確認した後、zpool replace!


root@zfs:~# format
Searching for disks...done

AVAILABLE DISK SELECTIONS:
0. c7d0
/pci@0,0/pci-ide@14,1/ide@0/cmdk@0,0
1. c9d0
/pci@0,0/pci-ide@11/ide@0/cmdk@0,0

2. c9d1
/pci@0,0/pci-ide@11/ide@0/cmdk@1,0
3. c10d0
/pci@0,0/pci-ide@11/ide@1/cmdk@0,0
4. c10d1
/pci@0,0/pci-ide@11/ide@1/cmdk@1,0
Specify disk (enter its number): ^C
root@zfs:~# zpool replace zfspool1 c9d0
root@zfs:~# zpool status
pool: zfspool1
state: DEGRADED
status: One or more devices is currently being resilvered. The pool will
continue to function, possibly in a degraded state.
action: Wait for the resilver to complete.
scrub: resilver in progress for 0h0m, 0.00% done, 123h27m to go
config:

NAME STATE READ WRITE CKSUM
zfspool1 DEGRADED 0 0 0
raidz1-0 DEGRADED 0 0 0
c9d1 ONLINE 0 0 0
replacing-1 DEGRADED 0 0 0
c9d0s0/o FAULTED 0 0 0 corrupted data
c9d0 ONLINE 0 0 0 31.4M resilvered

c10d1 ONLINE 0 0 0
c10d0 ONLINE 0 0 0

errors: No known data errors


replaceすると、自動的にrebuld(ZFS的にはresilve)開始。30時間ぐらいかかりそうOrz

交換したWD10EARSのCrystaldiskInfoはこんな感じ。
壊れたHDD


今度組むときには、RAIDZ2にしたほうが心臓に優しいかも・・。RAIDZ1にHDD足してそのままRAIDZ2に移行できるとうれしいんだけどなぁ。交換してないディスクも怪しいのが残ってるので、心の準備しとかなきゃ。

でもやっぱしZFSは扱いやすい!


tag : OpenSolaris


コメントの投稿

非公開コメント


カテゴリ


最新記事

月別アーカイブ

最新コメント

最新トラックバック









上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。