<div dir="ltr">has the 32 group limit been fixed yet? If not how about that :) ? <a href="https://bugzilla.redhat.com/show_bug.cgi?id=789961">https://bugzilla.redhat.com/show_bug.cgi?id=789961</a></div><div class="gmail_extra">
<br><br><div class="gmail_quote">On Thu, Mar 13, 2014 at 8:01 AM, Jeff Darcy <span dir="ltr">&lt;<a href="mailto:jdarcy@redhat.com" target="_blank">jdarcy@redhat.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<div class="">&gt; I am a little bit impressed by the lack of action on this topic. I hate to be<br>
&gt; &quot;that guy&quot;, specially being new here, but it has to be done.<br>
&gt; If I&#39;ve got this right, we have here a chance of developing Gluster even<br>
&gt; further, sponsored by Google, with a dedicated programmer for the summer.<br>
&gt; In other words, if we play our cards right, we can get a free programmer and<br>
&gt; at least a good start/advance on this fantastic.<br>
<br>
</div>Welcome, Carlos.  I think it&#39;s great that you&#39;re taking initiative here.<br>
However, it&#39;s also important to set proper expectations for what a GSoC intern<br>
could reasonably be expected to achieve.  I&#39;ve seen some amazing stuff out of<br>
GSoC, but if we set the bar too high then we end up with incomplete code and<br>
the student doesn&#39;t learn much except frustration.<br>
<br>
GlusterFS consists of 430K lines of code in the core project alone.  Most of<br>
it&#39;s written in a style that is generally hard for newcomers to pick up -<br>
both callback-oriented and highly concurrent, often using our own &quot;unique&quot;<br>
interpretation of standard concepts.  It&#39;s also in an area (storage) that is<br>
not well taught in most universities.  Given those facts and the short<br>
duration of GSoC, it&#39;s important to focus on projects that don&#39;t require deep<br>
knowledge of existing code, to keep the learning curve short and productive<br>
time correspondingly high.  With that in mind, let&#39;s look at some of your<br>
suggestions.<br>
<div class=""><br>
&gt; I think it would be nice to listen to the COMMUNITY (yes, that means YOU),<br>
&gt; for either suggestions, or at least a vote.<br>
<br>
</div>It certainly would have been nice to have you at the community IRC meeting<br>
yesterday, at which we discussed release content for 3.6 based on the<br>
feature proposals here:<br>
<br>
   <a href="http://www.gluster.org/community/documentation/index.php/Planning36" target="_blank">http://www.gluster.org/community/documentation/index.php/Planning36</a><br>
<br>
The results are here:<br>
<br>
   <a href="http://titanpad.com/glusterfs-3-6-planning" target="_blank">http://titanpad.com/glusterfs-3-6-planning</a><br>
<div class=""><br>
&gt; My opinion, being also my vote, in order of PERSONAL preference:<br>
</div>&gt; 1) There is a project going on ( <a href="https://forge.gluster.org/disperse" target="_blank">https://forge.gluster.org/disperse</a> ), that<br>
<div class="">&gt; consists on re-writing the stripe module on gluster. This is specially<br>
&gt; important because it has a HUGE impact on Total Cost of Implementation<br>
&gt; (customer side), Total Cost of Ownership, and also matching what the<br>
&gt; competition has to offer. Among other things, it would allow gluster to<br>
&gt; implement a RAIDZ/RAID5 type of fault tolerance, much more efficient, and<br>
&gt; would, as far as I understand, allow you to use 3 nodes as a minimum<br>
&gt; stripe+replication. This means 25% less money in computer hardware, with<br>
&gt; increased data safety/resilience.<br>
<br>
</div>This was decided as a core feature for 3.6.  I&#39;ll let Xavier (the feature<br>
owner) answer w.r.t. whether there&#39;s any part of it that would be<br>
appropriate for GSoC.<br>
<div class=""><br>
&gt; 2) We have a recurring issue with split-brain solution. There is an entry on<br>
&gt; trello asking/suggesting a mechanism that arbitrates this resolution<br>
&gt; automatically. I pretty much think this could come together with another<br>
&gt; solution that is file replication consistency check.<br>
<br>
</div>This is also core for 3.6 under the name &quot;policy based split brain<br>
resolution&quot;:<br>
<br>
   <a href="http://www.gluster.org/community/documentation/index.php/Features/pbspbr" target="_blank">http://www.gluster.org/community/documentation/index.php/Features/pbspbr</a><br>
<br>
Implementing this feature requires significant knowledge of AFR, which both<br>
causes split brain and would be involved in its repair.  Because it&#39;s also<br>
one of our most complicated components, and the person who just rewrote it<br>
won&#39;t be around to offer help, I don&#39;t think this project *as a whole*<br>
would be a good fit for GSoC.  On the other hand, there might be specific<br>
pieces of the policy implementation (not execution) that would be a good<br>
fit.<br>
<div class=""><br>
&gt; 3) Accelerator node project. Some storage solutions out there offer an<br>
&gt; &quot;accelerator node&quot;, which is, in short, a, extra node with a lot of RAM,<br>
&gt; eventually fast disks (SSD), and that works like a proxy to the regular<br>
&gt; volumes. active chunks of files are moved there, logs (ZIL style) are<br>
&gt; recorded on fast media, among other things. There is NO active project for<br>
&gt; this, or trello entry, because it is something I started discussing with a<br>
&gt; few fellows just a couple of days ago. I thought of starting to play with<br>
&gt; RAM disks (tmpfs) as scratch disks, but, since we have an opportunity to do<br>
&gt; something more efficient, or at the very least start it, why not ?<br>
<br>
</div>Looks like somebody has read the Isilon marketing materials.  ;)<br>
<br>
A full production-level implementation of this, with cache consistency and<br>
so on, would be a major project.  However, a non-consistent prototype good<br>
for specific use cases - especially Hadoop, as Jay mentions - would be<br>
pretty easy to build.  Having a GlusterFS server (for the real clients)<br>
also be a GlusterFS client (to the real cluster) is pretty straightforward.<br>
Testing performance would also be a significant component of this, and IMO<br>
that&#39;s something more developers should learn about early in their careers.<br>
I encourage you to keep thinking about how this could be turned into a real<br>
GSoC proposal.<br>
<br>
<br>
Keep the ideas coming!<br>
_______________________________________________<br>
Gluster-users mailing list<br>
<a href="mailto:Gluster-users@gluster.org">Gluster-users@gluster.org</a><br>
<a href="http://supercolony.gluster.org/mailman/listinfo/gluster-users" target="_blank">http://supercolony.gluster.org/mailman/listinfo/gluster-users</a><br>
</blockquote></div><br></div>