<div dir="ltr"><div class="gmail_quote">&gt; 2008-08-02, 16:04:17<br>
&gt; Balinny &lt;<a href="mailto:balinny@gmail.com">balinny@gmail.com</a>&gt; wrote:<br>
&gt;<br>
&gt; &gt; I always assumedthat Wikipedia simply has blocked queries with the<br>
&gt; &gt; substring Grub in the User-Agent.<br>
&gt; &gt; And i stand on it. See evidence below. You can even see from the<br>
&gt; &gt; queries that it is blocked by the squids.<br>
&gt; &gt; What&#39;s needed in order to crawl wikipedia is to ask the system<br>
&gt; &gt; administrators to lift the block (or changing<br>
&gt; &gt; the user-agent). I don&#39;t see the reason the C# client avoids it.<br>
&gt; &gt; Perhaps it&#39;s getting a cached response?<br>
&gt;<br>
<br>
Ok, everyone can start laugh - after check code for C# client i found<br>
it send wrong User-Agent header. Bug fixed (new version of client -<br>
0.7.5 are available). So on 100% this is problem with Squid.<br>
<br>
But there is still problem with Accept header. Most crawlers have it set<br>
on:<br>
<br>
Accept: */*<br>
<br>
Headers for googlebot:<br>
<br>
<a href="http://209.85.135.104/search?q=cache:Z8EzzvyAqH8J:pgl.yoyo.org/http/browser-headers.php+googlebot+http+headers&amp;hl=en&amp;ct=clnk&amp;cd=5" target="_blank">http://209.85.135.104/search?q=cache:Z8EzzvyAqH8J:pgl.yoyo.org/http/browser-headers.php+googlebot+http+headers&amp;hl=en&amp;ct=clnk&amp;cd=5</a><br>

<br>
And for crawl.yahoo:<br>
<br>
<a href="http://cache.search.yahoo.net/search/cache?ei=UTF-8&amp;p=http%3A%2F%2Fpgl.yoyo.org%2Fhttp%2Fbrowser-headers.php&amp;y=Search&amp;rd=r1&amp;meta=vc%3Dpl&amp;fr=yfp-t-501&amp;fp_ip=PL&amp;u=pgl.yoyo.org/http/browser-headers.php&amp;d=FxR1ZC72ROH4&amp;icp=1&amp;.intl=us" target="_blank">http://cache.search.yahoo.net/search/cache?ei=UTF-8&amp;p=http%3A%2F%2Fpgl.yoyo.org%2Fhttp%2Fbrowser-headers.php&amp;y=Search&amp;rd=r1&amp;meta=vc%3Dpl&amp;fr=yfp-t-501&amp;fp_ip=PL&amp;u=pgl.yoyo.org/http/browser-headers.php&amp;d=FxR1ZC72ROH4&amp;icp=1&amp;.intl=us</a><br>

<font color="#888888"><br>
Bartek<br>
</font></div><br></div>