Hi<div><br></div><div>I moved a replicated gluster cluster with two backend nodes into our staging environment today.</div><div>Initial tests where Ok, but the client nodes began showing errors quickly.</div><div><br></div>
<div>On doing an ls of newly created directories, the nodes give File descriptor in bad state errors </div><div>The parent directory shows up as:  drwxr-xr-x 1 root root 16 Jul 29 10:32 ..</div><font size="2">
?????????? ? ?    ?     ?            ? dev</font><div><font size="2"><br></font></div><div>Gluster verion is 3.1.1 from EPEL repos on Scientific Linux 6.0 (a RHEL6 clone).</div><div><br></div><div>This is the log file for that volume:</div>
<div><div>[2011-07-28 15:24:33.167689] I [client-handshake.c:993:select_server_supported_programs] remote2: Using Program GlusterFS-3.1.0, Num (1298437), Version (310)</div><div>[2011-07-28 15:24:33.168086] I [client-handshake.c:829:client_setvolume_cbk] remote1: Connected to <a href="http://10.9.144.11:24007">10.9.144.11:24007</a>, attached to remote volume &#39;brick&#39;.</div>
<div>[2011-07-28 15:24:33.168139] I [afr-common.c:2571:afr_notify] replicate: Subvolume &#39;remote1&#39; came back up; going online.</div><div>[2011-07-28 15:24:33.171751] I [client-handshake.c:829:client_setvolume_cbk] remote2: Connected to <a href="http://10.9.144.12:24007">10.9.144.12:24007</a>, attached to remote volume &#39;brick&#39;.</div>
<div>[2011-07-28 15:24:33.171775] I [fuse-bridge.c:2817:fuse_init] glusterfs-fuse: FUSE inited with protocol versions: glusterfs 7.13 kernel 7.13</div><div>[2011-07-28 15:24:33.172460] I [afr-common.c:819:afr_fresh_lookup_cbk] replicate: added root inode</div>
<div>[2011-07-29 15:51:52.716659] I [afr-dir-read.c:171:afr_examine_dir_readdir_cbk] replicate:  entry self-heal triggered. path: /data/tst/mysite/csa, reason: checksums of directory differ, forced merge option set</div><div>
[2011-07-29 15:51:52.718539] E [afr-common.c:110:afr_set_split_brain] replicate: invalid argument: inode</div><div>[2011-07-29 15:51:52.718569] I [afr-self-heal-common.c:1526:afr_self_heal_completion_cbk] replicate: background  entry self-heal completed on /data/tst/mysite/csa</div>
<div>[2011-07-29 15:51:52.718682] W [fuse-bridge.c:2021:fuse_readdir_cbk] glusterfs-fuse: 383: READDIR =&gt; -1 (File descriptor in bad state)</div></div><div><br></div><div>What is going on?</div><div><br></div><div>Guy</div>