hmmm sent one reply to this, but forgot to comment :-p<br><br>so, comments below <br><br>mark<br><br><div class="gmail_quote">On Mon, Mar 31, 2008 at 2:04 AM, Dennis Kubes &lt;<a href="mailto:kubes@apache.org">kubes@apache.org</a>&gt; wrote:<br>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">Hi Markie,<br>
<br>
First let me say that if anything has been missed, or promised and then<br>
not delivered, it was not intentional. &nbsp;</blockquote><div><br>okay so maybe there not intentional, but any chance of them being sorted? :-p<br>&nbsp;</div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Second, I would agree with you<br>
that while we have been working to make changes to improve the accuracy<br>
of the search results, we have not been doing a very good job of keeping<br>
the community informed about those or other changes and that is<br>
something we need to work on.<br>
<br>
For my part I will attempt to communicate more of what we are working on<br>
 &nbsp;in terms of the search engine internals, starting now. &nbsp;</blockquote><div><br>excellent :-D many thanks<br>&nbsp;</div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
Probably the<br>
biggest improvement we have seen in terms of relevancy is changing how<br>
inbound link text is index.<br>
<br>
Inbound link text the text of anchors pointing to a page. &nbsp;We currently<br>
index that text along with a given page. &nbsp;So for example if page x links<br>
to page y and the anchor text reads &quot;hotels&quot; that text will get put into<br>
the index under page y. &nbsp;The problem we were having was we would index<br>
the first N number of links pointing to a page without regard for what<br>
were the best links. &nbsp;That provided for some weird results when we<br>
launched, for instance <a href="http://google.com" target="_blank">google.com</a> would come up in a search for dallas<br>
hotels because it had one inbound link that said &quot;dallas&quot; and another<br>
that said &quot;hotels&quot;. &nbsp;To fix this we started looking and inbound links<br>
according to the score of their parent (pointing from) page. &nbsp;The idea<br>
behind this was that higher scoring pages would have better outbound<br>
links. &nbsp;In our current index we first determine what the *best* links<br>
are by their parent pages score and then index the first N best links.<br>
And what we have seen as a result is a big increase in the relevancy of<br>
the search results.<br>
</blockquote><div><br>excellent, as this has been one of our major problems, so im glad to hear that work is being done to sort the problem<br>&nbsp;</div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<br>
Here is a list of the things I see that could help improve search<br>
relevancy going forward:<br>
<br>
- Being able to score elements of web pages. &nbsp;For example determine if a<br>
 &nbsp;piece of text is a h1, h2, div, etc. &nbsp;Currently our web pages parsers<br>
don&#39;t support that.</blockquote><div><br>are these codes available anywhere in wikia&#39;s svn?<br>&nbsp;</div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
<br>
<br>
- Better integration of the star system into the rankings and better<br>
ability for the community to tag pages as spam. &nbsp;This is part of the KT<br>
stuff Jer has been working on.</blockquote><div><br>:-D<br>&nbsp;</div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><br>
<br>
- Overall improvement in the search algorithm. &nbsp;Currently the algorithm<br>
is based on nutch&#39;s OPIC implementation. &nbsp;Long story short this<br>
algorithm is unstable after a few iterations because web page score keep<br>
increasing exponentially. &nbsp;This is more of a Nutch problem and has<br>
already been discussed on the Nutch lists but essentially we need a new<br>
process for scoring and probably a new algorithm that is more<br>
pagerank-like and has some type of convergence.<br>
<br>
There are other items as well but I think these things would help show a<br>
 &nbsp;dramatic improvement in search quality.<br>
<br>
Last let me say that anybody should feel free to email me at any time.<br>
If something isn&#39;t being done fast enough or something seems to be<br>
getting left out. &nbsp;Give me a nudge. :)<br>
</blockquote><div><br>/me adds you to contacts :-p<br>&nbsp;</div><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;"><br>
Dennis<br>
<div class="Ih2E3d"><br>
<br>
Mark (Markie) wrote:<br>
&gt; re sending in case it was missed, from 4/5 days ago, maybe the people<br>
&gt; copied in (wikia staff/founders) would be willing to give a small amount<br>
&gt; of time to reply?!?<br>
&gt;<br>
&gt; mark<br>
&gt;<br>
&gt; ---------- Forwarded message ----------<br>
&gt; From: *Mark (Markie)* &lt;<a href="mailto:newsmarkie@googlemail.com">newsmarkie@googlemail.com</a><br>
</div><div class="Ih2E3d">&gt; &lt;mailto:<a href="mailto:newsmarkie@googlemail.com">newsmarkie@googlemail.com</a>&gt;&gt;<br>
&gt; Date: Wed, Mar 26, 2008 at 11:13 PM<br>
&gt; Subject: Sorry to do this but its coming, yes a rant :-(<br>
&gt; To: Mailing list for Search Wikia &lt;<a href="mailto:search-l@wikia.com">search-l@wikia.com</a><br>
</div><div class="Ih2E3d">&gt; &lt;mailto:<a href="mailto:search-l@wikia.com">search-l@wikia.com</a>&gt;&gt;, Search Wiki &lt;<a href="mailto:searchwiki@wikia.com">searchwiki@wikia.com</a><br>
&gt; &lt;mailto:<a href="mailto:searchwiki@wikia.com">searchwiki@wikia.com</a>&gt;&gt;, Jimmy Wales &lt;<a href="mailto:jwales@wikia.com">jwales@wikia.com</a><br>
&gt; &lt;mailto:<a href="mailto:jwales@wikia.com">jwales@wikia.com</a>&gt;&gt;, jer &lt;<a href="mailto:jeremie@jabber.org">jeremie@jabber.org</a><br>
&gt; &lt;mailto:<a href="mailto:jeremie@jabber.org">jeremie@jabber.org</a>&gt;&gt;, <a href="mailto:dennis@igfoo.com">dennis@igfoo.com</a> &lt;mailto:<a href="mailto:dennis@igfoo.com">dennis@igfoo.com</a>&gt;<br>
&gt;<br>
&gt;<br>
&gt; Right, im afraid the time has come once again where i have been<br>
&gt; wondering to my self again, and i feel that things need to be said, so<br>
&gt; here they are.<br>
&gt;<br>
&gt; *Whats happening with the project. &nbsp;AFAIK overall (and i know somethings<br>
&gt; have happened) but *very* little seems to have happened since the<br>
&gt; launch. &nbsp;Now i know that things are probably happening with the team,<br>
&gt; but any chance of actually telling the users about this, cos its not<br>
&gt; looking good from here atm.<br>
&gt;<br>
&gt; Ive copied in the so called pillars of search<br>
&gt;<br>
</div><div class="Ih2E3d">&gt; &nbsp; &nbsp;1. *Transparency* - riiiiiiight :-(<br>
&gt; &nbsp; &nbsp;2. *Community* - hmmm contribute to stale projects?<br>
&gt; &nbsp; &nbsp;3. *Quality* - well....<br>
</div>&gt; &nbsp; &nbsp;4. *Privacy &lt;<a href="http://search.wikia.com/wiki/search:Privacy" target="_blank">http://search.wikia.com/wiki/search:Privacy</a>&gt;* - hmm yes<br>
<div><div></div><div class="Wj3C7c">&gt; &nbsp; &nbsp; &nbsp; that seems to have been done to an extent ( by the community mind)<br>
&gt;<br>
&gt;<br>
&gt; Ive been on the project since dec 2006, and so have been waiting along<br>
&gt; time for this to happen, so its not purely a case of i want everything<br>
&gt; to happen NOW, i just want it to look like SOMETHING will happen SOON.<br>
&gt;<br>
&gt; *This brings me onto the next topic of where is the project going???<br>
&gt; There has been practically no progress, and frankly i cant see much<br>
&gt; being done from my point. &nbsp;The launch has happened, many people were<br>
&gt; interested, contributed but have now left, because NOTHING has happened.<br>
&gt; so overall the net gain of launching the project?? bad press and a few<br>
&gt; (relative to the web) minis.<br>
&gt;<br>
&gt; *Many things have been promised by various people, which havent<br>
&gt; happened. Most specifically this has come from a certain member of<br>
&gt; staff, one specifically, that has said that they will do many things,<br>
&gt; but even the most basic of tasks seem to have not happened. so<br>
&gt; Broken/missed promises. Well iirc (name here) said he would make sure<br>
&gt; that the about pages etc were created, hmm...<br>
&gt; (<a href="http://alpha.search.wikia.com/about.html" target="_blank">http://alpha.search.wikia.com/about.html</a> in case you forgot where those<br>
&gt; were). &nbsp;This is a wikia project, any chance of getting ANY<br>
&gt; involvement/input/co-ordination from the team who, ultimately, want us<br>
&gt; to make them more successfull and a profit (if were being frank).<br>
&gt;<br>
&gt; Now i know i havent been that active recently on the wiki, but i have<br>
&gt; been reading the mailing lists and talking in irc, but the main reason<br>
&gt; for me not being active on the wiki, is mainly the fact that i just dont<br>
&gt; have the motivation to do anything because of the above. &nbsp;Frankly atm<br>
&gt; its a stale project, but hopefully this rant (which i hate doing) will<br>
&gt; mean that the project will hopefully become better.<br>
&gt;<br>
&gt; If i have offended anyone above then i am sorry, but i feel that certain<br>
&gt; things need to be said right now, in order to make the project better,<br>
&gt; which is my aim.<br>
&gt;<br>
&gt; Many thanks and look forward to the responses to this, especially from<br>
&gt; wikia staff<br>
&gt;<br>
&gt; Regards<br>
&gt;<br>
&gt; mark<br>
&gt;<br>
&gt; (user:Markie)<br>
&gt;<br>
&gt;<br>
</div></div>&gt; ------------------------------------------------------------------------<br>
&gt;<br>
&gt; _______________________________________________<br>
&gt; Wikia Search mailing list<br>
<div class="Ih2E3d">&gt; <a href="http://alpha.search.wikia.com/" target="_blank">http://alpha.search.wikia.com/</a><br>
</div><div class="Ih2E3d">&gt; Change options or unsubscribe: <a href="http://lists.wikia.com/mailman/options/search-l" target="_blank">http://lists.wikia.com/mailman/options/search-l</a><br>
</div>_______________________________________________<br>
Wikia Search mailing list<br>
<div class="Ih2E3d"><a href="http://alpha.search.wikia.com/" target="_blank">http://alpha.search.wikia.com/</a><br>
</div><div><div></div><div class="Wj3C7c">Change options or unsubscribe: <a href="http://lists.wikia.com/mailman/options/search-l" target="_blank">http://lists.wikia.com/mailman/options/search-l</a><br>
</div></div></blockquote></div><br>