I&#39;ve got to re-read all the stuff about the arc format and incorporate it into the patch. Expect v3 sometime late tomorrow.<br><br>II&#39;m also going to have to re-read the emails Jer just sent to the wikia mailing list to fully digest, but I really look forward to learning more about the Nutch setup wikia is using to gain the full &quot;perspective&quot; on the back-end aspects of wikia search.
<br><br>Per the generated work-units -- Jer: how are you generating them now? I&#39;m assuming this isn&#39;t the current &quot;server&quot; but some modified version you have running? It would be great to learn a bit about your next steps around that.
<br><br>More tomorrow.<br><br>Thanks.<br>Yousef<br><br><br><div><span class="gmail_quote">On 1/10/08, <b class="gmail_sendername">jer</b> &lt;<a href="mailto:jeremie@jabber.org">jeremie@jabber.org</a>&gt; wrote:</span><blockquote class="gmail_quote" style="border-left: 1px solid rgb(204, 204, 204); margin: 0pt 0pt 0pt 0.8ex; padding-left: 1ex;">
&gt;&gt; So, I think you&#39;re right and it&#39;s missing a \n, but maybe it&#39;s<br>&gt;&gt; missing TWO of them?<br>&gt;&gt;<br>&gt;&gt; doc == &lt;nl&gt;&lt;URL-record&gt;&lt;nl&gt;&lt;network_doc&gt;<br>&gt;&gt;<br>
&gt;&gt; URL-record-v1 == &lt;url&gt;&lt;sp&gt;<br>&gt;&gt; &lt;ip-address&gt;&lt;sp&gt;<br>&gt;&gt; &lt;archive-date&gt;&lt;sp&gt;<br>&gt;&gt; &lt;content-type&gt;&lt;sp&gt;<br>&gt;&gt; &lt;length&gt;&lt;nl&gt;<br>&gt;&gt;
<br>&gt;&gt; So, there should be a \n before each URL record, and two of them<br>&gt;&gt; after it, one defined as the terminator in URL-record-v1, and one<br>&gt;&gt; defined as the separator between URL-record and network_doc.&nbsp;&nbsp;Is that
<br>&gt;&gt; correct?<br>&gt;&gt;<br>&gt;&gt; print $arc &quot;\nhttp://$host$path $ip 19691231175959 $ctype&quot;,length<br>&gt;&gt; ($body),&quot;\n\n$body&quot;;<br>&gt;&gt;<br>&gt;&gt; Is that correct?&nbsp;&nbsp;Can anyone else verify?
<br>&gt;&gt;<br>&gt; So it seems.<br><br>Anyone else can verify this is correct?&nbsp;&nbsp;\n URL-stuff \n \n CONTENT ?<br><br>&gt;&gt; The workunits can (someday) start to define HTTP/1.1 with a<br>&gt;&gt; Connection: close, and an Accept-encoding: gzip.&nbsp;&nbsp;A client supporting
<br>&gt;&gt; the current workunit format shouldn&#39;t care or know any different,<br>&gt;&gt; right?<br>&gt;&gt;<br>&gt; The client&#39;s bandwidth might care ;-)<br><br>Yep, easy enough to add these headers in the workunits as well :)
<br><br>&gt;&gt; Doh!&nbsp;&nbsp;My bad, I can fix it when I generate some more workunits :)<br>&gt; Aren&#39;t they generated on-the-fly?<br><br>Heh, nope, there&#39;s no DB in this back-end so it&#39;s much faster and<br>easier to pre-generate batches of these from flat lists right now.
<br><br>Jer<br>_______________________________________________<br>Grub-dev mailing list<br><a href="mailto:Grub-dev@wikia.com">Grub-dev@wikia.com</a><br><a href="http://lists.wikia.com/mailman/listinfo/grub-dev">http://lists.wikia.com/mailman/listinfo/grub-dev
</a><br></blockquote></div><br>