DRBDで standalone から connected にならない。

DRBDで動いているファイルサーバーの1台(secondary)が頻繁にdiskless になる。ディスクはSSDを使用していて、エラーの内容は
Device: /dev/sdc [SAT], 157 Offline uncorrectable sectors
Device: /dev/sdc [SAT], 11 Currently unreadable (pending) sectors
と2通のメールが来る。Currently unreadable (pending) sectors は修正可能なエラーだが、このSSD(シリコンパワー SSD 512GB)経験上あまり良くないので、新しいSSDに交換する事にした。現在はds:UpToDate/UpToDate だが、念の為ディスクを外す。
# drbddm detach r0 (r0はリソース)
その後、シャットダウン。新しいSSDにパーティションを切って、元のディスクと同じvdc1にして、サブホストを起動。(KVMを使用したサブホストとして動いている)

あれー!!!コピーが始まらないぞー!
調べたら、コレで始まるはずだが? 早速調べる。
# pcs status
2 nodes configured
7 resource instances configured
Online: [ smb3 smb4 ]
Full list of resources:
Resource Group: smbgroup
vipcheck_res (ocf::myres:VIPcheck): Started smb3
VirtualIP (ocf::heartbeat:IPaddr2): Started smb3
FS_DRBD0 (ocf::heartbeat:Filesystem): Started smb3
SAMBA (systemd:smb): Started smb3
NAMED (systemd:nmb): Started smb3
Master/Slave Set: MS_DRBD0 [DRBD0]
Masters: [ smb3 ]
Slaves: [ smb4 ]
Daemon Status:
corosync: active/enabled
pacemaker: active/enabled
pcsd: active/enabled
になっており、特にエラーは出ていない。
# cat /proc/drbd
0: cs: WFConnection ro:Secondary/Unknown ds:Inconsistent/DUnknown
で、プライマリー側は
0: cs:StandAlone ro:Primary/Unknown ds:UpToDate/DUnknown
となっているので、プライマリー側で
# drbdadm connect r0
エラーは無くプロンプトに戻るけど
# cat /proc/drbd
で見ても
0: cs:StandAlone ro:Primary/Unknown ds:UpToDate/DUnknown
となっており、本来なら cs:SyncSource になる筈だが StandAlone のままだ!
これには数時間を費やしたが原因が分からない。
やっとLOGを見てみようと気が付いた。そのログ(/var/log/messages)が
Aug 11 12:46:04 smb3 kernel: drbd r0: conn( WFConnection -> WFReportParams )
Aug 11 12:46:04 smb3 kernel: drbd r0: Starting ack_recv thread (from drbd_r_r0 [23143])
Aug 11 12:46:04 smb3 kernel: block drbd0: The peer’s disk size is too small! (999958656 < 1000171640 sectors)
Aug 11 12:46:04 smb3 kernel: drbd r0: conn( WFReportParams -> Disconnecting )
Aug 11 12:46:04 smb3 kernel: drbd r0: error receiving ReportSizes, e: -5 l: 0!
Aug 11 12:46:04 smb3 kernel: drbd r0: ack_receiver terminated
Aug 11 12:46:04 smb3 kernel: drbd r0: Terminating drbd_a_r0
Aug 11 12:46:04 smb3 kernel: drbd r0: Connection closed
Aug 11 12:46:04 smb3 kernel: drbd r0: conn( Disconnecting -> StandAlone )
Aug 11 12:46:04 smb3 kernel: drbd r0: receiver terminated
Aug 11 12:46:04 smb3 kernel: drbd r0: Terminating drbd_r_r0
対向のディスクサイズが小さ過ぎるだと、
primary(smb3)のサイズは 476.93GiB
secondary(smb4)のサイズは 476.83GiB となっており、ほんのわずかに小さい。
これが原因でコピーが始まらなかった!!
なので、smb4のディスクを作り直して(前はGBで作ったが、今度はGiB で指定して作成)その後ホストをオンラインにすると自動的にコピー(シンクロナイズ)が始まった。つまりメタデーターさえも作る必要は無いのだ。
ただ、始まりの時間を忘れたので憶測だが、3時間半で64.9%と出ているので、後、数時間はかかりそうだ!!

フジマル について

1947年生れ、東京電機大学二部電気通信工学科卒、最後はスリランカ航空で営業だったのですが2018年に㈱インパック・ジャパンに再就職。趣味:登山、スキー、車いじり、コンピューター
カテゴリー: DRBDに挑戦(CentOS7) パーマリンク

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

CAPTCHA


このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください