<html><head><meta http-equiv="Content-Type" content="text/html charset=iso-8859-1"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; "><div><div><div>On Jan 4, 2013, at 4:34 PM, Chris Burrell &lt;<a href="mailto:chris@burrell.me.uk">chris@burrell.me.uk</a>&gt; wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite"><div dir="ltr"><div style="">There are two separate issues here.</div><div style=""><br></div><div style="">1- The fact that we retrieve the closest match to a strong number is IMHO rather obscure and confusing in itself. I've hit this several times and found through rather laborious investigation that a module was using a bad strong number, or some piece of code hadn't quite formatted the number right, etc.</div></div></blockquote><div><br></div>This is a feature of a dictionary lookup. This will typically find the longest common prefix.</div><div><br></div><div>It'd probably be good to mark some dictionaries as exact match only. Strong's, Robinson's, and maybe daily devotions seem like candidates.</div><div><br><blockquote type="cite"><div dir="ltr">
<div><br></div>2- H00: The KJV is the most obvious example of a module that has/had it. It looks like someone has removed them all in the KJV2006 project (<a href="http://www.crosswire.org/~dmsmith/kjv2006/index.html">http://www.crosswire.org/~dmsmith/kjv2006/index.html</a>). Version 2.3 of the module still has it. Did we replace this with something else?&nbsp;H00 was used to indicate that the first occurrence of the strong number was the same original word as the second one.&nbsp;We were going to put them into the ESV.&nbsp;<div>
<br></div><div>So for example Gen 2.9, used to read something like this:</div><div><br><div><div>&lt;div&gt;&lt;title type="x-gen"&gt;Genesis 2:9&lt;/title&gt;</div><div>&lt;verse osisID="Gen.2.9"&gt;</div>
<div><span class="" style="white-space:pre">        </span>&lt;w lemma="strong:H04480"&gt;And out&lt;/w&gt;&nbsp;</div><div><span class="" style="white-space:pre">        </span>&lt;w lemma="strong:H0127"&gt;of the ground&lt;/w&gt;&nbsp;</div>
<div><span class="" style="white-space:pre">        </span><b>&lt;w lemma="strong:H00&nbsp;strong:H06779"&gt;made&lt;/w&gt;&nbsp;</b></div><div><span class="" style="white-space:pre">        </span>&lt;w lemma="strong:H03068"&gt;the &lt;seg&gt;&lt;divineName&gt;Lord&lt;/divineName&gt;&lt;/seg&gt;&lt;/w&gt;&nbsp;</div>
<div><span class="" style="white-space:pre">        </span><b>&lt;w lemma="strong:H0430"&gt;God&lt;/w&gt;&nbsp;</b></div><div><span class="" style="white-space:pre">        </span>&lt;w lemma="strong:H06779" morph="strongMorph:TH8686"&gt;to grow&lt;/w&gt;&nbsp;</div>
<div style="">&nbsp; &nbsp; &nbsp; &nbsp; &nbsp;[ ... ... ... some more stuff goes here ... ... ...]</div><div>&lt;/verse&gt;&lt;/div&gt;<br></div></div></div><div><br></div><div style="">In the above, this indicates that the translators split the word H06779 into "made" and into "to grow".&nbsp;</div>
<div style=""><br></div><div style="">It seems someone has removed all of these marks. However we don't have the "src" tag either so can anyone suggest how I can tell which bits go together and which bits go apart? What was the reasoning behind this change?</div></div></blockquote><br>I maintain the KJV. I couldn't find a purpose of H00. So I took it out as being wrong. If it is the splitting of words, we have a mechanism for that in the NT, which could be used. It uses src="XX" (which for the NT ties back to the XX word in the verse in a particular Greek module), the type="x-split" and subType="x-NN" where NN is a unique number w/in the verse having a value greater than the greatest value of src="XX". I'm not at all sure that subType is still needed. Both src and type are each sufficient to solve the problem.</div><div><br></div><div>A bit more exploring to do on the KJV...<br><div><br><div></div></div><blockquote type="cite"><div dir="ltr">
<div style=""><br></div><div style="">Chris</div><div style=""><br></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On 4 January 2013 21:07, DM Smith <span dir="ltr">&lt;<a href="mailto:dmsmith@crosswire.org" target="_blank">dmsmith@crosswire.org</a>&gt;</span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">H00 is not a valid Strong's number. The modules that have it should be re-done. Do you know which are the problem modules?<br>

<br>
The problem with allowing H00 is that it will not find an entry in a Strong's dictionary and will get the nearest one. Which is better? An error filling the console or confusing the user?<br>
<br>
I don't mind changing the regex to be simpler, but it should not create further problems.<br>
<br>
The part at the end is an optional extension. We have a module in the wings that has it.<br>
<br>
In Him,<br>
&nbsp; &nbsp; &nbsp; &nbsp; DM<br>
<div><div class="h5"><br>
On Jan 4, 2013, at 3:34 PM, Chris Burrell &lt;<a href="mailto:chris@burrell.me.uk">chris@burrell.me.uk</a>&gt; wrote:<br>
<br>
&gt; Hi<br>
&gt;<br>
&gt; Can I suggest a fix to the StrongNumberFilter, which currently relies on<br>
&gt; org.crosswire.jsword.book.study.StrongsNumber<br>
&gt;<br>
&gt; The regular expression used to match the Strong number is:<br>
&gt; private static final Pattern STRONGS_PATTERN = Pattern.compile("([GgHh])0*([1-9][0-9]*)!?([A-Za-z]+)?");<br>
&gt;<br>
&gt; Unfortunately, some texts use H00 as a strong number to indicate that the tagged word is in 2 places (i.e. this is only the first part of the tag).<br>
&gt;<br>
&gt; The above expression causes huge amounts of Logging to be output to the console.<br>
&gt;<br>
&gt; I suggest we change it to something like<br>
&gt;<br>
&gt; [GgHh][0-9]+<br>
&gt;<br>
&gt; Also, what's the stuff at the end of the regex? Haven't come across any like that...<br>
&gt;<br>
&gt; Chris<br>
&gt;<br>
</div></div>&gt; _______________________________________________<br>
&gt; jsword-devel mailing list<br>
&gt; <a href="mailto:jsword-devel@crosswire.org">jsword-devel@crosswire.org</a><br>
&gt; <a href="http://www.crosswire.org/mailman/listinfo/jsword-devel" target="_blank">http://www.crosswire.org/mailman/listinfo/jsword-devel</a><br>
<br>
</blockquote></div><br></div>
</blockquote></div><br></div></body></html>