<div dir="ltr">Thank you for that information.<div><br></div><div>Are there plans to restore the previous functionality in a later release of 3.6.x? Or is this what we should expect going forward?</div><div><br></div><div><br></div></div><div class="gmail_extra"><br><div class="gmail_quote">On Thu, Nov 20, 2014 at 11:24 PM, Anuradha Talur <span dir="ltr">&lt;<a href="mailto:atalur@redhat.com" target="_blank">atalur@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex"><span class=""><br>
<br>
----- Original Message -----<br>
&gt; From: &quot;Joe Julian&quot; &lt;<a href="mailto:joe@julianfamily.org">joe@julianfamily.org</a>&gt;<br>
&gt; To: &quot;Anuradha Talur&quot; &lt;<a href="mailto:atalur@redhat.com">atalur@redhat.com</a>&gt;, &quot;Vince Loschiavo&quot; &lt;<a href="mailto:vloschiavo@gmail.com">vloschiavo@gmail.com</a>&gt;<br>
&gt; Cc: &quot;<a href="mailto:gluster-users@gluster.org">gluster-users@gluster.org</a>&quot; &lt;<a href="mailto:Gluster-users@gluster.org">Gluster-users@gluster.org</a>&gt;<br>
</span><div><div class="h5">&gt; Sent: Friday, November 21, 2014 12:06:27 PM<br>
&gt; Subject: Re: [Gluster-users] v3.6.1 vs v3.5.2 self heal - help (Nagios related)<br>
&gt;<br>
&gt;<br>
&gt;<br>
&gt; On November 20, 2014 10:01:45 PM PST, Anuradha Talur &lt;<a href="mailto:atalur@redhat.com">atalur@redhat.com</a>&gt;<br>
&gt; wrote:<br>
&gt; &gt;<br>
&gt; &gt;<br>
&gt; &gt;----- Original Message -----<br>
&gt; &gt;&gt; From: &quot;Vince Loschiavo&quot; &lt;<a href="mailto:vloschiavo@gmail.com">vloschiavo@gmail.com</a>&gt;<br>
&gt; &gt;&gt; To: &quot;<a href="mailto:gluster-users@gluster.org">gluster-users@gluster.org</a>&quot; &lt;<a href="mailto:Gluster-users@gluster.org">Gluster-users@gluster.org</a>&gt;<br>
&gt; &gt;&gt; Sent: Wednesday, November 19, 2014 9:50:50 PM<br>
&gt; &gt;&gt; Subject: [Gluster-users] v3.6.1 vs v3.5.2 self heal - help (Nagios<br>
&gt; &gt;related)<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; Hello Gluster Community,<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; I have been using the Nagios monitoring scripts, mentioned in the<br>
&gt; &gt;below<br>
&gt; &gt;&gt; thread, on 3.5.2 with great success. The most useful of these is the<br>
&gt; &gt;self<br>
&gt; &gt;&gt; heal.<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; However, I&#39;ve just upgraded to 3.6.1 on the lab and the self heal<br>
&gt; &gt;daemon has<br>
&gt; &gt;&gt; become quite aggressive. I continually get alerts/warnings on 3.6.1<br>
&gt; &gt;that<br>
&gt; &gt;&gt; virt disk images need self heal, then they clear. This is not the<br>
&gt; &gt;case on<br>
&gt; &gt;&gt; 3.5.2. This<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; Configuration:<br>
&gt; &gt;&gt; 2 node, 2 brick replicated volume with 2x1GB LAG network between the<br>
&gt; &gt;peers<br>
&gt; &gt;&gt; using this volume as a QEMU/KVM virt image store through the fuse<br>
&gt; &gt;mount on<br>
&gt; &gt;&gt; Centos 6.5.<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; Example:<br>
&gt; &gt;&gt; on 3.5.2:<br>
&gt; &gt;&gt; gluster volume heal volumename info: shows the bricks and number of<br>
&gt; &gt;entries<br>
&gt; &gt;&gt; to be healed: 0<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; On v3.5.2 - During normal gluster operations, I can run this command<br>
&gt; &gt;over and<br>
&gt; &gt;&gt; over again, 2-4 times per second, and it will always show 0 entries<br>
&gt; &gt;to be<br>
&gt; &gt;&gt; healed. I&#39;ve used this as an indicator that the bricks are<br>
&gt; &gt;synchronized.<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; Last night, I upgraded to 3.6.1 in lab and I&#39;m seeing different<br>
&gt; &gt;behavior.<br>
&gt; &gt;&gt; Running gluster volume heal volumename info , during normal<br>
&gt; &gt;operations, will<br>
&gt; &gt;&gt; show a file out-of-sync, seemingly between every block written to<br>
&gt; &gt;disk then<br>
&gt; &gt;&gt; synced to the peer. I can run the command over and over again, 2-4<br>
&gt; &gt;times per<br>
&gt; &gt;&gt; second, and it will almost always show something out of sync. The<br>
&gt; &gt;individual<br>
&gt; &gt;&gt; files change, meaning:<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; Example:<br>
&gt; &gt;&gt; 1st Run: shows file1 out of sync<br>
&gt; &gt;&gt; 2nd run: shows file 2 and file 3 out of sync but file 1 is now in<br>
&gt; &gt;sync (not<br>
&gt; &gt;&gt; in the list)<br>
&gt; &gt;&gt; 3rd run: shows file 3 and file 4 out of sync but file 1 and 2 are in<br>
&gt; &gt;sync<br>
&gt; &gt;&gt; (not in the list).<br>
&gt; &gt;&gt; ...<br>
&gt; &gt;&gt; nth run: shows 0 files out of sync<br>
&gt; &gt;&gt; nth+1 run: shows file 3 and 12 out of sync.<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; From looking at the virtual machines running off this gluster volume,<br>
&gt; &gt;it&#39;s<br>
&gt; &gt;&gt; obvious that gluster is working well. However, this obviously plays<br>
&gt; &gt;havoc<br>
&gt; &gt;&gt; with Nagios and alerts. Nagios will run the heal info and get<br>
&gt; &gt;different and<br>
&gt; &gt;&gt; non-useful results each time, and will send alerts.<br>
&gt; &gt;&gt;<br>
&gt; &gt;&gt; Is this behavior change (3.5.2 vs 3.6.1) expected? Is there a way to<br>
&gt; &gt;tune the<br>
&gt; &gt;&gt; settings or change the monitoring method to get better results into<br>
&gt; &gt;Nagios.<br>
&gt; &gt;&gt;<br>
&gt; &gt;In 3.6.1 the way heal info command works is different from that in<br>
&gt; &gt;3.5.2. In 3.6.1, it is self-heal daemon that gathers the entries that<br>
&gt; &gt;might need healing. Currently, in 3.6.1, there isn&#39;t a method to<br>
&gt; &gt;distinguish between a file that is being healed and a file with<br>
&gt; &gt;on-going I/O while listing. Hence you see files with normal operation<br>
&gt; &gt;too listed in the output of heal info command.<br>
&gt;<br>
&gt; How did that regression pass?!<br>
</div></div>Test cases to check this condition was not written in regression tests.<br>
&gt;<br>
<span class="HOEnZb"><font color="#888888"><br>
--<br>
Thanks,<br>
Anuradha.<br>
</font></span></blockquote></div><br><br clear="all"><div><br></div>-- <br><div class="gmail_signature">-Vince Loschiavo<br></div>
</div>