Instead of publicly crawling the human indexes (<a href="http://del.icio.us">del.icio.us</a> / stumbleupon, etc.) ourselves, why don&#39;t we have our users to do it? It&#39;s not a complete work around, but might be an approach that works for a bit. Here&#39;s how I envision it:
<br><br>* A client side crawler (similar to yacy, but not targeting the entire web, just metadata rich places) implemented through a Firefox extension or Greasemonkey script.<br>* When a client visits a social network with valuable data (as determined by a list managed by us) their local client makes a copy of all the data delivered to their client side browser. 
<br>* The server can&#39;t tell the difference between a user surfing with the extension or without the extension. <br>* That data is then meta-tagged and packaged properly locally and sent to the Wikia Search servers from the client&#39;s machine. 
<br>* The Wikia Search servers then index and make sense of all of this data culled from the various clients running the Wikia Search client / extension.<br><br>This way we&#39;re able to work around the bandwidth concerns that Yahoo and company would have with us crawling their databases. And the data that we&#39;re getting is merely stuff that is being browsed naturally, by live humans, so it&#39;s likely of more value. 
<br><br>But bandwidth is obviously not just what they&#39;re concerned with. As has been mentioned, these sites view these databases of useful human tagged information as enormously valuable assets that give them a competitive edge. So then it&#39;s a question of the &quot;intellectual property&quot; contained in those databases. Now, I&#39;m not sure if other networks do this, but 
<a href="http://Del.icio.us">Del.icio.us</a> and Flickr have Creative Commons license implementation. That means that a particular user&#39;s stream of content that they&#39;ve created (links, photos, etc.) can be set for people to share it. I think this would be a perfect opportunity for our distributed crawlers to take advantage of. 
<br><br>Thoughts?<br><br><br>Fred<br><br><br><br><br><div><span class="gmail_quote">On 6/3/07, <b class="gmail_sendername">Nitin Borwankar</b> &lt;<a href="mailto:nitin@borwankar.com">nitin@borwankar.com</a>&gt; wrote:</span>
<blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">jer wrote:<br><br>&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp; So, here it is:&nbsp;&nbsp;Getting data from existent social bookmarking
<br>&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp; services may be an option we should consider.&nbsp;&nbsp;Think of it -<br>&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp; aggregating data from <a href="http://del.icio.us">del.icio.us</a> &lt;<a href="http://del.icio.us">http://del.icio.us</a>&gt;,
<br>&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp; stumbleupon, etc.&nbsp;&nbsp;Now, I can&#39;t imagine how we&#39;d get Yahoo to<br>&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp; give us the data from <a href="http://del.icio.us">del.icio.us</a> &lt;<a href="http://del.icio.us">http://del.icio.us
</a>&gt;, but maybe<br>&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp; there are other providers who would be willing to do this.&nbsp;&nbsp;Or<br>&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp; perhaps we look at paying them for it, at least enough to cover<br>&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp; their bandwidth and other overhead.
<br>&gt;&gt;<br>&gt;&gt;&nbsp;&nbsp;&nbsp;&nbsp; Anybody got an ideas around this type of thing?<br>&gt;&gt;<br>&gt;&gt;<br>&gt;&gt; Yeah.. its a good way to find the actual interest of the people thru<br>&gt;&gt; social book marking, digg and many other social websites.. But it all
<br>&gt;&gt; matters whether they are ready to release data open to such open<br>&gt;&gt; source search projects..<br>&gt;<br>&gt;<br>&gt; For the most part, all of those sites and all of that data *is* open,<br>&gt; it just needs to be intelligently crawled and indexed.&nbsp;&nbsp;They&#39;re great
<br>&gt; seed sites for keeping a crawler fresh.<br>&gt;<br>&gt; Sure it would be nice to have it in a more digestible form, but it&#39;s<br>&gt; all there already :)<br>&gt;<br>&gt; Jer<br><br><br>Hi All,<br><br>I did some work for a university professor who is trying to tackle the
<br>problem that publishers of technical periodicals own the bibliography<br>citations in articles. However individual researchers own the<br>bibliographies of their own publications, so by aggregating the<br>bibliographies of individual researchers one can build an alternate open
<br>source of bibliography data.&nbsp;&nbsp;Apply the same principle to del.ici.ous,<br>stumbleupon etc data.<br><br>Individuals who have data on these services can individually and<br>voluntarily copy their data out of those systems and into any public
<br>aggregation<br>of such data.&nbsp;&nbsp;Now that Yahoo has BBAuth - a single-login authentication<br>service, one could build a single web page where such a volunteer<br>individual could go and authorize the download of their del.ici.ous
 data<br>into their account(s) on any other web service(s).<br><br>There is no need to crawl the web pages and get into the arms race of IP<br>blocking etc. that will naturally come up.<br><br>The bigger picture here is that we as individuals own our own data and
<br>we should not let it be captive on web applications, rather we should be<br>able to aggregate it wherever we choose - and if we should choose to do<br>so we should be able to very simply push a few buttons and have *our own
<br>data* transferred between web applications.<br><br><br>Nitin Borwankar.<br><br><br><br>&gt;------------------------------------------------------------------------<br>&gt;<br>&gt;_______________________________________________
<br>&gt;Search-l mailing list<br>&gt;<a href="mailto:Search-l@wikia.com">Search-l@wikia.com</a><br>&gt;<a href="http://lists.wikia.com/mailman/listinfo/search-l">http://lists.wikia.com/mailman/listinfo/search-l</a><br>&gt;Change options or unsubscribe: 
<a href="http://lists.wikia.com/mailman/options/search-l">http://lists.wikia.com/mailman/options/search-l</a><br>&gt;<br><br><br>--<br><br><br>Nitin Borwankar<br><br><a href="http://walruscarpenter.wordpress.com">http://walruscarpenter.wordpress.com
</a>&nbsp;&nbsp;&nbsp;&nbsp;Of shoes&nbsp;&nbsp;and ships&nbsp;&nbsp;and sealing wax&nbsp;&nbsp;of cabbages and kings<br><a href="http://greener.com">http://greener.com</a>&nbsp;&nbsp;&nbsp;&nbsp;Find, Learn, Act .... Greener, the search engine for the planet<br><a href="http://tagschema.com">
http://tagschema.com</a>&nbsp;&nbsp;Implementation of tag database applications<br><br><a href="mailto:nitin@borwankar.com">nitin@borwankar.com</a><br>510-872-7066<br><br><br>_______________________________________________<br>Search-l mailing list
<br><a href="mailto:Search-l@wikia.com">Search-l@wikia.com</a><br><a href="http://lists.wikia.com/mailman/listinfo/search-l">http://lists.wikia.com/mailman/listinfo/search-l</a><br>Change options or unsubscribe: <a href="http://lists.wikia.com/mailman/options/search-l">
http://lists.wikia.com/mailman/options/search-l</a><br></blockquote></div><br>