Thanks for your input. I checked dmesg, and that doesn&#39;t look good I think.<div><br></div><div><div>[1424954.519747] Pid: 10648, comm: glusterfsd Tainted: G        W    3.2.0-26-generic #41-Ubuntu Dell Inc. PowerEdge R710/0MD99X</div>
<div>[1424954.520405] RIP: 0010:[&lt;ffffffff8125ea6a&gt;]  [&lt;ffffffff8125ea6a&gt;] jbd2_journal_stop+0x29a/0x2a0</div><div>[1424954.530985] RSP: 0018:ffff8824043919f8  EFLAGS: 00010282</div><div>[1424954.541422] RAX: ffff88240471c4d0 RBX: ffff882402b89d20 RCX: 000000000003ffff</div>
<div>[1424954.562380] RDX: ffff882402b89d08 RSI: 0000000000000ff4 RDI: ffff882402b89d20</div><div>[1424954.583295] RBP: ffff882404391a48 R08: 000000000000000a R09: 0000000000000000</div><div>[1424954.604255] R10: 0000000000000000 R11: 0000000000000000 R12: ffff882402b89cf0</div>
<div>[1424954.625440] R13: 0000000000001000 R14: 0000000000000ff4 R15: 00000000ffffffea</div><div>[1424954.625441] FS:  00007f424a6e6700(0000) GS:ffff88247fc00000(0000) knlGS:0000000000000000</div><div>[1424954.625443] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033</div>
<div>[1424954.625444] CR2: 00002b81244e2000 CR3: 00000012018da000 CR4: 00000000000026e0</div><div>[1424954.625445] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000</div><div>[1424954.625447] DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400</div>
<div>[1424954.625448] Process glusterfsd (pid: 10648, threadinfo ffff882404390000, task ffff88240471c4d0)</div><div>[1424954.625450] Stack:</div><div>[1424954.625451]  ffff882402b89cf0 ffff882402b89d20 ffff882404391a18 ffffffff8106730a</div>
<div>[1424954.625454]  ffff882404391a78 00000000ffffffea ffffffff81826f10 0000000000001000</div><div>[1424954.625456]  0000000000000ff4 00000000ffffffea ffff882404391a78 ffffffff81235718</div><div>[1424954.625459] Call Trace:</div>
<div>[1424954.625461]  [&lt;ffffffff8106730a&gt;] ? warn_slowpath_null+0x1a/0x20</div><div>[1424954.625463]  [&lt;ffffffff81235718&gt;] __ext4_journal_stop+0x78/0xa0</div><div>[1424954.625466]  [&lt;ffffffff81241f34&gt;] __ext4_handle_dirty_metadata+0xa4/0x130</div>
<div>[1424954.625468]  [&lt;ffffffff81251dd3&gt;] ? ext4_xattr_block_set+0xd3/0x670</div><div>[1424954.625470]  [&lt;ffffffff81216bb6&gt;] ext4_do_update_inode+0x2c6/0x4c0</div><div>[1424954.625472]  [&lt;ffffffff81219251&gt;] ext4_mark_iloc_dirty+0x71/0x90</div>
<div>[1424954.625473]  [&lt;ffffffff812526da&gt;] ext4_xattr_set_handle+0x23a/0x4f0</div><div>[1424954.625476]  [&lt;ffffffff81252a22&gt;] ext4_xattr_set+0x92/0x100</div><div>[1424954.625477]  [&lt;ffffffff81250cf0&gt;] ? ext4_xattr_find_entry+0x90/0x100</div>
<div>[1424954.625479]  [&lt;ffffffff812534fd&gt;] ext4_xattr_trusted_set+0x2d/0x30</div><div>[1424954.625481]  [&lt;ffffffff8119afcb&gt;] generic_setxattr+0x6b/0x90</div><div>[1424954.625483]  [&lt;ffffffff8119b82b&gt;] __vfs_setxattr_noperm+0x7b/0x1c0</div>
<div>[1424954.625485]  [&lt;ffffffff812dbc3e&gt;] ? evm_inode_setxattr+0xe/0x10</div><div>[1424954.625487]  [&lt;ffffffff8119ba2c&gt;] vfs_setxattr+0xbc/0xc0</div><div>[1424954.625489]  [&lt;ffffffff8119baf6&gt;] setxattr+0xc6/0x120</div>
<div>[1424954.625491]  [&lt;ffffffff816599ce&gt;] ? _raw_spin_lock+0xe/0x20</div><div>[1424954.625492]  [&lt;ffffffff8109efa3&gt;] ? futex_wake+0x113/0x130</div><div>[1424954.625494]  [&lt;ffffffff810a0aa8&gt;] ? do_futex+0xd8/0x1b0</div>
<div>[1424954.625496]  [&lt;ffffffff8119bf0b&gt;] sys_fsetxattr+0xbb/0xe0</div><div>[1424954.625498]  [&lt;ffffffff81661fc2&gt;] system_call_fastpath+0x16/0x1b</div><div>[1424954.625499] Code: c8 4c 89 7d c0 49 87 06 48 8d 7d c0 31 f6 48 89 45 c8 48 8b 45 c8 e8 d6 a1 3f 00 0f b6 43 14 48 8b 55 b8 83 e0 01 e9 9b fe ff ff &lt;0f&gt; 0b 0f 0b 66 90 55 48 89 e5 66 66 66 66 90 be 01 00 00 00 e8 </div>
<div>[1424954.625512] RIP  [&lt;ffffffff8125ea6a&gt;] jbd2_journal_stop+0x29a/0x2a0</div><div>[1424954.625514]  RSP &lt;ffff8824043919f8&gt;</div><div>[1424954.649028] ---[ end trace 4901c4efb88aa10c ]---</div><div>[1511244.755144] EXT4-fs (sdb1): error count: 2</div>
<div>[1511244.761993] EXT4-fs (sdb1): initial error at 1343085498: ext4_xattr_release_block:496</div><div>[1511244.775557] EXT4-fs (sdb1): last error at 1343085498: ext4_xattr_release_block:504</div><div>[1597554.484787] EXT4-fs (sdb1): error count: 2</div>
<div>[1597554.492094] EXT4-fs (sdb1): initial error at 1343085498: ext4_xattr_release_block:496</div><div>[1597554.507148] EXT4-fs (sdb1): last error at 1343085498: ext4_xattr_release_block:504</div><div>[1683864.286198] EXT4-fs (sdb1): error count: 2</div>
<div>[1683864.294365] EXT4-fs (sdb1): initial error at 1343085498: ext4_xattr_release_block:496</div><div>[1683864.310651] EXT4-fs (sdb1): last error at 1343085498: ext4_xattr_release_block:504</div><div>[1770174.105169] EXT4-fs (sdb1): error count: 2</div>
<div>[1770174.113928] EXT4-fs (sdb1): initial error at 1343085498: ext4_xattr_release_block:496</div><div>[1770174.131699] EXT4-fs (sdb1): last error at 1343085498: ext4_xattr_release_block:504</div><div>[1856483.884918] EXT4-fs (sdb1): error count: 2</div>
<div>[1856483.894541] EXT4-fs (sdb1): initial error at 1343085498: ext4_xattr_release_block:496</div><div>[1856483.914191] EXT4-fs (sdb1): last error at 1343085498: ext4_xattr_release_block:504</div><div>[1942793.613632] EXT4-fs (sdb1): error count: 2</div>
<div>[1942793.623403] EXT4-fs (sdb1): initial error at 1343085498: ext4_xattr_release_block:496</div><div>[1942793.642674] EXT4-fs (sdb1): last error at 1343085498: ext4_xattr_release_block:504</div><div>[2029103.473721] EXT4-fs (sdb1): error count: 2</div>
<div>[2029103.483627] EXT4-fs (sdb1): initial error at 1343085498: ext4_xattr_release_block:496</div><div>[2029103.503299] EXT4-fs (sdb1): last error at 1343085498: ext4_xattr_release_block:504</div><div><br></div><div>I checked the raid (bultin hw controller from Dell), and all the disks are ok.</div>
<div>Next step would be to do a fsck first I guess. But why can such errors occure? Any ideas?</div><div><br></div><div>Cheers,</div><div>Christian</div><br><div class="gmail_quote">2012/7/31 Brian Candler <span dir="ltr">&lt;<a href="mailto:B.Candler@pobox.com" target="_blank">B.Candler@pobox.com</a>&gt;</span><br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div class="im">On Tue, Jul 31, 2012 at 02:04:25PM +0200, Christian Wittwer wrote:<br>
&gt;    b) Can I just restart glusterd on that node to trigger the self<br>
&gt;    healing?<br>
<br>
</div>I would double-check that the underlying filesystem on<br>
unic-prd-os-compute4:/data/brick0 is OK first.  Look for errors in dmesg;<br>
look at your RAID status (e.g.  if it&#39;s mdraid then cat /proc/mdstat);<br>
check RAID logs, SMART logs etc.<br>
</blockquote></div><br></div>