<div dir="ltr"><div>I&#39;m using the Ubuntu repositories for Precise ( ppa:zfs-native/stable ), so not sure, but I can guarantee there are no symlinks anywhere within the volume.  The data is all created and maintained by one app that I wrote, and symlinks aren&#39;t ever used.<br>
</div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Tue, Jul 30, 2013 at 10:03 AM, Joe Julian <span dir="ltr">&lt;<a href="mailto:joe@julianfamily.org" target="_blank">joe@julianfamily.org</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div>Are you using the zfs that doesn&#39;t allow setting extended attributes on symlinks?<br><br><div class="gmail_quote">
Tony Maro &lt;<a href="mailto:tonym@evrichart.com" target="_blank">tonym@evrichart.com</a>&gt; wrote:<blockquote class="gmail_quote" style="margin:0pt 0pt 0pt 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<div><div class="h5">
<div dir="ltr">Well I guess I&#39;m carrying on a conversation with myself here, but I&#39;ve turned on Debug and gsyncd appears to be crashing in _query_xattr - which is odd because as mentioned before I was previously able to get this volume to sync the first 1TB of data before this started, but now it won&#39;t even do that.<div>

<br></div><div>To recap, I&#39;m trying to set up geo-rep over SSH.  The Gluster volume is a mirror setup with two bricks.  The underlying filesystem is ZFS on both source and destination.  The SSH session appears to be started by the client, as the auth log on the destination server does log the following:</div>

<div><br></div><div><div>Jul 30 08:21:37 backup-ds2 sshd[4364]: Accepted publickey for root from 10.200.1.6 port 38865 ssh2</div><div>Jul 30 08:21:37 backup-ds2 sshd[4364]: pam_unix(sshd:session): session opened for user root by (uid=0)</div>

<div>Jul 30 08:21:51 backup-ds2 sshd[4364]: Received disconnect from <a href="http://10.200.1.6" target="_blank">10.200.1.6</a>: 11: disconnected by user</div><div>Jul 30 08:21:51 backup-ds2 sshd[4364]: pam_unix(sshd:session): session closed for user root</div>

<div><br></div><div>I begin the geo-rep with the following command:</div><div><br></div><div>gluster volume geo-replication docstore1 root@backup-ds2.gluster:/data/docstore1 start<br></div><div><br></div><div>Checking the status will show &quot;starting...&quot; for about 7 seconds and then it goes &quot;faulty&quot;.</div>

<div><br></div><div>The debug gluster.log file on the brick I run the command from shows:</div><div><br></div><div><div>[2013-07-30 08:21:37.224934] I [monitor(monitor):21:set_state] Monitor: new state: starting...</div>
<div>
[2013-07-30 08:21:37.235110] I [monitor(monitor):80:monitor] Monitor: ------------------------------------------------------------</div><div>[2013-07-30 08:21:37.235295] I [monitor(monitor):81:monitor] Monitor: starting gsyncd worker</div>

<div>[2013-07-30 08:21:37.298254] I [gsyncd:354:main_i] &lt;top&gt;: syncing: gluster://localhost:docstore1 -&gt; ssh://root@backup-ds2.gluster:/data/docstore1</div><div>[2013-07-30 08:21:37.302464] D [repce:175:push] RepceClient: call 21246:139871057643264:1375186897.3 __repce_version__() ...</div>

<div>[2013-07-30 08:21:39.376665] D [repce:190:__call__] RepceClient: call 21246:139871057643264:1375186897.3 __repce_version__ -&gt; 1.0</div><div>[2013-07-30 08:21:39.376894] D [repce:175:push] RepceClient: call 21246:139871057643264:1375186899.38 version() ...</div>

<div>[2013-07-30 08:21:39.378207] D [repce:190:__call__] RepceClient: call 21246:139871057643264:1375186899.38 version -&gt; 1.0</div><div>[2013-07-30 08:21:39.393198] D [resource:701:inhibit] DirectMounter: auxiliary glusterfs mount in place</div>

<div>[2013-07-30 08:21:43.408195] D [resource:747:inhibit] DirectMounter: auxiliary glusterfs mount prepared</div><div>[2013-07-30 08:21:43.408740] D [monitor(monitor):96:monitor] Monitor: worker seems to be connected (?? racy check)</div>

<div>[2013-07-30 08:21:43.410413] D [repce:175:push] RepceClient: call 21246:139870643156736:1375186903.41 keep_alive(None,) ...</div><div>[2013-07-30 08:21:43.411798] D [repce:190:__call__] RepceClient: call 21246:139870643156736:1375186903.41 keep_alive -&gt; 1</div>

<div>[2013-07-30 08:21:44.449774] D [master:220:volinfo_state_machine] &lt;top&gt;: (None, None) &lt;&lt; (None, 24f8c92d) -&gt; (None, 24f8c92d)</div><div>[2013-07-30 08:21:44.450082] I [master:284:crawl] GMaster: new master is 24f8c92d-723e-4513-9593-40ef4b7e766a</div>

<div>[2013-07-30 08:21:44.450254] I [master:288:crawl] GMaster: primary master with volume id 24f8c92d-723e-4513-9593-40ef4b7e766a ...</div><div>[2013-07-30 08:21:44.450398] D [master:302:crawl] GMaster: entering .</div>
<div>
[2013-07-30 08:21:44.451534] E [syncdutils:178:log_raise_exception] &lt;top&gt;: glusterfs session went down [ENOTCONN]</div><div>[2013-07-30 08:21:44.451721] E [syncdutils:184:log_raise_exception] &lt;top&gt;: FULL EXCEPTION TRACE:</div>

<div>Traceback (most recent call last):</div><div>  File &quot;/usr/lib/glusterfs/glusterfs/python/syncdaemon/gsyncd.py&quot;, line 115, in main</div><div>    main_i()</div><div>  File &quot;/usr/lib/glusterfs/glusterfs/python/syncdaemon/gsyncd.py&quot;, line 365, in main_i</div>

<div>    local.service_loop(*[r for r in [remote] if r])</div><div>  File &quot;/usr/lib/glusterfs/glusterfs/python/syncdaemon/resource.py&quot;, line 827, in service_loop</div><div>    GMaster(self, args[0]).crawl_loop()</div>

<div>  File &quot;/usr/lib/glusterfs/glusterfs/python/syncdaemon/master.py&quot;, line 143, in crawl_loop</div><div>    self.crawl()</div><div>  File &quot;/usr/lib/glusterfs/glusterfs/python/syncdaemon/master.py&quot;, line 304, in crawl</div>

<div>    xtl = self.xtime(path)</div><div>  File &quot;/usr/lib/glusterfs/glusterfs/python/syncdaemon/master.py&quot;, line 74, in xtime</div><div>    xt = rsc.server.xtime(path, self.uuid)</div><div>  File &quot;/usr/lib/glusterfs/glusterfs/python/syncdaemon/resource.py&quot;, line 270, in ff</div>

<div>    return f(*a)</div><div>  File &quot;/usr/lib/glusterfs/glusterfs/python/syncdaemon/resource.py&quot;, line 365, in xtime</div><div>    return struct.unpack(&#39;!II&#39;, Xattr.lgetxattr(path, &#39;.&#39;.join([cls.GX_NSPACE, uuid, &#39;xtime&#39;]), 8))</div>

<div>  File &quot;/usr/lib/glusterfs/glusterfs/python/syncdaemon/libcxattr.py&quot;, line 43, in lgetxattr</div><div>    return cls._query_xattr( path, siz, &#39;lgetxattr&#39;, attr)</div><div>  File &quot;/usr/lib/glusterfs/glusterfs/python/syncdaemon/libcxattr.py&quot;, line 35, in _query_xattr</div>

<div>    cls.raise_oserr()</div><div>  File &quot;/usr/lib/glusterfs/glusterfs/python/syncdaemon/libcxattr.py&quot;, line 25, in raise_oserr</div><div>    raise OSError(errn, os.strerror(errn))</div><div>OSError: [Errno 107] Transport endpoint is not connected</div>

<div>[2013-07-30 08:21:44.453290] I [syncdutils:142:finalize] &lt;top&gt;: exiting.</div><div>[2013-07-30 08:21:45.411412] D [monitor(monitor):100:monitor] Monitor: worker died in startup phase</div><div>[2013-07-30 08:21:45.411653] I [monitor(monitor):21:set_state] Monitor: new state: faulty</div>

<div>[2013-07-30 08:21:51.165136] I [syncdutils(monitor):142:finalize] &lt;top&gt;: exiting.</div></div><div><br></div></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Fri, Jul 26, 2013 at 10:42 AM, Tony Maro <span dir="ltr">&lt;<a href="mailto:tonym@evrichart.com" target="_blank">tonym@evrichart.com</a>&gt;</span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><div dir="ltr">Correction: Manually running the command after creating the temp directory actually doesn&#39;t work, but it doesn&#39;t error out it just hangs and never connects to the remote server.  Dunno if this is something within gsyncd or what...</div>


<div class="gmail_extra"><div><div><br><br><div class="gmail_quote">On Fri, Jul 26, 2013 at 10:38 AM, Tony Maro <span dir="ltr">&lt;<a href="mailto:tonym@evrichart.com" target="_blank">tonym@evrichart.com</a>&gt;</span> wrote:<br>

<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div dir="ltr">Setting up Geo-replication with an existing 3 TB of data is turning out to be a huge pain.
<div><br></div><div>It was working for a bit but would go faulty by the time it hit 1TB synced.  Multiple attempts resulted in the same thing.</div><div><br></div><div>Now, I don&#39;t know what&#39;s changed, but it never actually tries to log into the remote server anymore.  Checking &quot;last&quot; logs on the destination shows that it never actually attempts to make the SSH connection.  The geo-replication command is as such:</div>



<div><br></div><div>gluster volume geo-replication docstore1 root@backup-ds2.gluster:/data/docstore1 start<br></div><div><br></div><div>From the log:</div><div><br></div><div><div>[2013-07-26 10:26:04.317667] I [gsyncd:354:main_i] &lt;top&gt;: syncing: gluster://localhost:docstore1 -&gt; ssh://root@backup-ds2.gluster:/data/docstore1</div>



<div>[2013-07-26 10:26:08.258853] I [syncdutils(monitor):142:finalize] &lt;top&gt;: exiting.</div><div>[2013-07-26 10:26:08.259452] E [syncdutils:173:log_raise_exception] &lt;top&gt;: connection to peer is broken</div><div>



<b>[2013-07-26 10:26:08.260386] E [resource:191:errlog] Popen: command &quot;ssh -oControlMaster=auto -S /tmp/gsyncd-aux-ssh-WlTfNb/gsycnd-ssh-%r@%h:%p root@backup-ds2.gluster /usr/lib/glusterfs/glusterfs/gsyncd --session-owner 24f8c92d-723e-4513-9593-40ef4b7e766a -N --listen --timeout 120 file:///data/docstore1&quot; returned with 143</b></div>



</div><div><br></div><div>When I attempt to run the SSH command from the logs directly in the console, ssh replies with:</div><div><br></div><div>muxserver_listen bind(): No such file or directory<br></div><div><br></div>



<div>And, there&#39;s no gsyncd temp directory where specified.  If I manually create that directory and re-run the same command it works.  The problem of course is that the tmp directory is randomly named and starting Gluster geo-rep again will result in a new directory it tries to use.</div>



<div><br></div><div>Running Gluster 3.3.1-ubuntu1~precise9</div><div><br></div><div>Any ideas why this would be happening?  I did find that my Ubuntu packages were trying to access gsyncd in the wrong path so I corrected things.  I&#39;ve also got auto-ssh login using root so I changed my ssh command (and my global ssh config) to make sure the options would work.  Here&#39;s the important geo-rep configs:</div>



<div><br></div><div><div>ssh_command: ssh</div><div>remote_gsyncd: /usr/lib/glusterfs/glusterfs/gsyncd</div><div>gluster_command_dir: /usr/sbin/</div><div>gluster_params: xlator-option=*-dht.assert-no-child-down=true</div>



</div><div><br></div><div>Thanks,</div><div>Tony</div></div>
</blockquote></div><br><br clear="all"><div><br></div></div></div><span><font color="#888888">-- <br></font><div dir="ltr"><font color="#888888">Thanks,<br><br><b>Tony Maro</b><br>Chief Information Officer<br>EvriChart • <a href="http://www.evrichart.com" target="_blank">www.evrichart.com</a><br>


Advanced Records Management<br>Office | 888.801.2020 • 304.536.1290<br></font><div><font color="#888888"><img><br></font></div></div>
</span></div>
</blockquote></div><br><br clear="all"><div><br></div>-- <br><div dir="ltr">Thanks,<br><br><b>Tony Maro</b><br>Chief Information Officer<br>EvriChart • <a href="http://www.evrichart.com" target="_blank">www.evrichart.com</a><br>

Advanced Records Management<br>Office | 888.801.2020 • 304.536.1290<br><div><img><br></div></div>
</div>
<p style="margin-top:2.5em;margin-bottom:1em;border-bottom:1px solid #000"></p></div></div><pre><hr><br>Gluster-users mailing list<br><a href="mailto:Gluster-users@gluster.org" target="_blank">Gluster-users@gluster.org</a><br>
<a href="http://supercolony.gluster.org/mailman/listinfo/gluster-users" target="_blank">http://supercolony.gluster.org/mailman/listinfo/gluster-users</a></pre></blockquote></div></div></blockquote></div><br><br clear="all">
<div><br></div>-- <br><div dir="ltr">Thanks,<br><br><b>Tony Maro</b><br>Chief Information Officer<br>EvriChart • <a href="http://www.evrichart.com" target="_blank">www.evrichart.com</a><br>Advanced Records Management<br>Office | 888.801.2020 • 304.536.1290<br>
<div><img src="http://www.evrichart.com/wp-content/uploads/2013/02/evrichart-150w.gif"><br></div></div>
</div>