<div dir="ltr"><div>Hi Vijay,</div><div><br></div><div>I make following test:<br></div><div>Start glusterfs volume, kill glusterfsd, and start glusterfsd with following command:</div><div><br></div><div><font color="#ff0000">valgrind --log-file=/root/dingyuan/logs/valgrind.log</font> /usr/sbin/glusterfsd -s server241 --volfile-id vol1.server241.fsmnt-fs1 -p /var/lib/glusterd/vols/vol1/run/server241-fsmnt-fs1.pid -S /var/run/4f8241255dc7142a794af68d66dcedeb.socket --brick-name /fsmnt/fs1 -l /var/log/glusterfs/bricks/fsmnt-fs1.log --xlator-option *-posix.glusterd-uuid=41da2eae-c2c8-41a0-8873-5286699a8b95 --brick-port 49153 --xlator-option vol1-server.listen-port=49153 <font color="#ff0000">-N</font><br>
</div><div><br></div><div>The command line option is the same with default command line option except the red region. </div><div>Then mount nfs client, run ltp test.</div><div>After a few minutes, valgrind seems run into a dead loop. top shows below:(glusterfsd run in the process &#39;memcheck-amd64-&#39;)</div>
<div><br></div><div><div>  PID USER      PR  NI  VIRT  RES  SHR S %CPU %MEM    TIME+  COMMAND</div><div>21255 root      20   0  309m 106m 4328 R 100.1  1.4   1121:42 memcheck-amd64- </div></div><div><br></div><div>The process can not be killed by SIGTERM. SIGKILL can kill it, but no valgrind report generated...</div>
<div><br></div><div>Is there something wrong with my test procedure. Or is there other method to catch more information?</div><div><br></div><div>Thanks!</div><div><br></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">
On Wed, Feb 19, 2014 at 2:20 PM, Vijay Bellur <span dir="ltr">&lt;<a href="mailto:vbellur@redhat.com" target="_blank">vbellur@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div class="HOEnZb"><div class="h5">On 02/18/2014 03:18 PM, Yuan Ding wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
I tested gluster nfs server with 1 nfs client. And run ltp&#39;s fs test<br>
cases on that nfs client. There seems to have 2 memory leak problem.<br>
(See my nfs server &amp; 2 glusterfsd config file is in attach)<br>
The 2 problem describes below:<br>
<br>
1. The glusterfs runs as nfs server exhaust system memory(1GB) in server<br>
minutes. After disable drc, this problem no longer exist.<br>
<br>
2. After disable drc, the test run 1 day with no problem. But I found<br>
glusterfsd used more than 50% system memory(ps command line output sees<br>
below). Stop the test can not release memory.<br>
<br>
[root@server155 ~]# ps aux | grep glusterfsd<br>
root      7443  3.7 52.8 1731340 539108 ?      Ssl  Feb17  70:01<br>
/usr/sbin/glusterfsd -s server155 --volfile-id vol1.server155.fsmnt-fs1<br>
-p /var/lib/glusterd/vols/vol1/<u></u>run/server155-fsmnt-fs1.pid -S<br>
/var/run/<u></u>5b7fe23f0aec78ffa0e6968dece0a8<u></u>b0.socket --brick-name /fsmnt/fs1<br>
-l /var/log/glusterfs/bricks/<u></u>fsmnt-fs1.log --xlator-option<br>
*-posix.glusterd-uuid=<u></u>d4f3d342-dd41-4dc7-b0fc-<u></u>d3ce9998d21f --brick-port<br>
49152 --xlator-option vol1-server.listen-port=49152<br>
<br>
I use kill -SIGUSR1 7443 to collected some dump information(in attached<br>
fsmnt-fs1.7443.dump.<u></u>1392711830).<br>
<br>
Any help is appreciate!<br>
</blockquote>
<br></div></div>
Thanks for the report, there seem to be a lot of dict_t allocations as seen from statedump. Would it be possible to run the tests after starting glusterfsd with valgrind and share the report here?<span class="HOEnZb"><font color="#888888"><br>

<br>
-Vijay<br>
</font></span></blockquote></div><br></div>