<html><head><meta http-equiv="Content-Type" content="text/html charset=windows-1252"></head><body style="word-wrap: break-word; -webkit-nbsp-mode: space; -webkit-line-break: after-white-space; ">Lucene is highly configurable, but out of the box StandardAnalyzer and SimpleAnalyzer do not do anything with this. To handle it requires adding a folding filter. I think they have one suitable for it, but it is not hard to write one to do it.<div><br></div><div>It may require creating ones own Analyzer, which is nothing more than a tokenizer and a chain of filters, to add in a filter.</div><div><br></div><div>This is something that JSword needs also and I haven't gotten around to work on it. I see it as part of a larger solution of handling accents which is another folding problem.</div><div><br></div><div>In Him,</div><div><span class="Apple-tab-span" style="white-space:pre">        </span>DM</div><div><br><div><div>On Mar 3, 2013, at 7:53 AM, Jonathan Morgan &lt;<a href="mailto:jonmmorgan@gmail.com">jonmmorgan@gmail.com</a>&gt; wrote:</div><br class="Apple-interchange-newline"><blockquote type="cite">Another possibly related normalisation problem which BPBible at least has an open issue about is Caesar vs. Cæsar.&nbsp; Theoretically I guess you want either search to match both forms.&nbsp; I don't know how Lucene etc. deals with this (if at all).<br>

<br>Jon<br><br><div class="gmail_quote">On Mon, Feb 25, 2013 at 2:48 AM, David Haslam <span dir="ltr">&lt;<a href="mailto:dfhmch@googlemail.com" target="_blank">dfhmch@googlemail.com</a>&gt;</span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">

In the KJV module, if you want to search for [say] the hyphenated name<br>
"Maher–shalal–hash–baz", you first have to be aware that this module uses<br>
the ndash in place of the hyphen.<br>
<br>
btw. &nbsp;It's not so easy to enter the ndash from a keyboard, and probably even<br>
harder in an Android tablet or mobile.<br>
<br>
If you use ordinary hyphen/minus for the search key hyphen for this module,<br>
you don't find anything with "Exact phrase".<br>
If you use "Multi-word", you do find "Maher" highlighted in the found verse.<br>
(e.g. using Xiphos).<br>
<br>
For modules in general, however, the user cannot usually know in advance<br>
whether hyphenated words use the ndash, the hyphen or something else.<br>
<br>
Has anyone else looked into this aspect of the search feature?<br>
<br>
David<br>
<br>
<br>
<br>
<br>
<br>
--<br>
View this message in context: <a href="http://sword-dev.350566.n4.nabble.com/Searching-for-hyphenated-words-tp4652016.html" target="_blank">http://sword-dev.350566.n4.nabble.com/Searching-for-hyphenated-words-tp4652016.html</a><br>


Sent from the SWORD Dev mailing list archive at <a href="http://Nabble.com">Nabble.com</a>.<br>
<br>
_______________________________________________<br>
sword-devel mailing list: <a href="mailto:sword-devel@crosswire.org">sword-devel@crosswire.org</a><br>
<a href="http://www.crosswire.org/mailman/listinfo/sword-devel" target="_blank">http://www.crosswire.org/mailman/listinfo/sword-devel</a><br>
Instructions to unsubscribe/change your settings at above page</blockquote></div><br>
_______________________________________________<br>sword-devel mailing list: <a href="mailto:sword-devel@crosswire.org">sword-devel@crosswire.org</a><br><a href="http://www.crosswire.org/mailman/listinfo/sword-devel">http://www.crosswire.org/mailman/listinfo/sword-devel</a><br>Instructions to unsubscribe/change your settings at above page</blockquote></div><br></div></body></html>