<div dir="ltr"><div class="gmail_default" style="font-family:garamond,serif;font-size:large">I unzipped the pagemaker file, and when I open NT_Proverb/Pagemaker (10.1mb), with a Hex editor, I can &#39;find&#39; all of the book names, and see the text there.  <br><br>To see the raw text: rename NT_Proverb.pmd &gt; NT_Proverb.zip and open it with a zip archive progeram.  The text is in the Pagemaker file at the top level of the archive, but encoded with a lot of extraneous information.  (The English text &quot;Matthew&quot; appears at hex location 7A76972). <br><br>When I open the fonts with fontforge, Fontforge suggests the fonts are encoded as unicode (but the glyphs are obviously not in the right spot.) <br>However when I copy the text (I copied from LO Draw) and paste it into jedit and save that as unicode: Reopening the file has a warning &#39;not unicode, text may be missing&#39;. <br><br>So, what this means is that there are some glyphs encoded into locations that unicode treats as control or non-printing codes. The text needs to be dealt with as a specific encoding that matches whatever the original font actually uses. I haven&#39;t figured out what the original text files were encoded with. Without that knowledge, I&#39;m not sure my system clipboard or editor (jedit) will properly respect the glyphs in unusual locations until the conversion to unicode, and I don&#39;t trust myself to be able to detect if it is or is not properly converted. <br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, May 13, 2019 at 10:11 AM Cyrille &lt;<a href="mailto:lafricain79@gmail.com">lafricain79@gmail.com</a>&gt; wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
  
    
  
  <div bgcolor="#FFFFFF">
    David,<br>
    Probably you are right about <a href="http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&amp;cat_id=TECkit" target="_blank">TECkit</a>,
    if we get the text it will help us to convert in UNICODE.<br>
    About how to get the text, your method is out of my skills :)<br>
    I you succeed please let me know.<br>
    <br>
    <div class="gmail-m_-2496802141858019636moz-cite-prefix">Il 13/05/2019 16:21, David Haslam ha
      scritto:<br>
    </div>
    <blockquote type="cite">
      
      <div>Given the insights from Michael Hart, it may be feasible to
        temporarily rearrange the main text stream as follows :</div>
      <div><br>
      </div>
      <div>1. Replace every EOL by a horizontal tab. </div>
      <div>2. Insert an EOL after each verse end character. </div>
      <div><br>
      </div>
      <div>Observe that the above two steps are wholly reversible such
        that the original text stream can be restored later. </div>
      <div><br>
      </div>
      <div>In effect the text stream is now in verse per line (VPL)
        layout, albeit without verse tags. Some adjustments may be
        necessary if there any section headings, etc. </div>
      <div><br>
      </div>
      <div>3. Add line numbers with the first number being reset to 1 at
        the start of each chapter, numbers incrementing by 1 for each
        line. </div>
      <div>4. Add a left margin USFM verse tag \v_<br>
      </div>
      <div><br>
      </div>
      <div id="gmail-m_-2496802141858019636protonmail_mobile_signature_block">
        <div>Steps 3&amp;4 can be implemented in various ways. For my
          part, I’d use a bespoke TextPipe filter. </div>
        <div><br>
        </div>
        <div>Another method to consider might be to use Excel formulae.
          I recall resorting to such a method in the early days of Go
          Bible. </div>
        <div><br>
        </div>
        <div>Now restore the original layout by reverting steps 2 &amp;
          1, if this is really necessary. That is, if the original text
          layout appeared to be paragraphed. </div>
        <div><br>
        </div>
        <div>5. Decide how &amp; where to insert paragraph tags. </div>
        <div><br>
        </div>
        <div>6. Add chapter tags, book ID and main title tags, etc. </div>
        <div><br>
        </div>
        <div>Hope this gives some useful suggestions that point towards
          a practical solution. </div>
        <div><br>
        </div>
        <div>Best regards </div>
        <div><br>
        </div>
        <div>David</div>
        <div><br>
        </div>
        <div><br>
        </div>
        <div>Sent from ProtonMail Mobile</div>
      </div>
      <div><br>
      </div>
      <div><br>
      </div>
      On Mon, May 13, 2019 at 14:57, Michael H &lt;<a href="mailto:cmahte@gmail.com" target="_blank">cmahte@gmail.com</a>&gt;
      wrote:
      <blockquote class="gmail-m_-2496802141858019636protonmail_quote" type="cite">
        <div dir="ltr">
          <div dir="ltr">
            <div dir="ltr">
              <div dir="ltr">
                <div class="gmail_default" style="font-family:garamond,serif;font-size:large">Cyrille<br>
                  <br>
                  LibreOffice Draw attempts to open the pagemaker file,
                  with limited success. But it confirms that even in the
                  pagemaker source, the verse numbers are a separate
                  text stream. With this source, there is no way to copy
                  the text with verse numbers intact. It appears to be
                  stored with each book in it&#39;s own text stream. Each
                  book is a separate text stream in the page maker file.
                  LO Draw isn&#39;t rendering all of the pages, only the
                  first 10, So I&#39;ve only explored Matthew further. <br>
                  <br>
                  Based on Matthew only, the verses seem to all end with
                  the character &quot;-&quot; or &quot;;/&quot;, which should aid in the
                  reconstruction. I&#39;ve looked through the PDF and this
                  seems to be the case for all books visually as well.
                  However, this isn&#39;t perfect: I find 1107 of these
                  characters in Matthew, instead of the expected 1071
                  verses.  But since the text stream has a book
                  introduction, this is likely easily explained.
                  Hopefully this gets you well down the path to creating
                  a stream with verses. <br>
                  <br>
                  I would NOT start from the PDF file, but from the
                  pagemaker file.  The PDF almost certainly has a lot of
                  text rearranging and extra characters like page
                  numbers and running heads.  Pagemaker has the book
                  text in a single stream, in a form that will convert
                  to unicode relatively easily. </div>
                <div class="gmail_default" style="font-family:garamond,serif;font-size:large"><br>
                </div>
              </div>
            </div>
          </div>
        </div>
      </blockquote>
      <div><br>
      </div>
      <div><br>
      </div>
      <br>
      <fieldset class="gmail-m_-2496802141858019636mimeAttachmentHeader"></fieldset>
      <pre class="gmail-m_-2496802141858019636moz-quote-pre">_______________________________________________
sword-devel mailing list: <a class="gmail-m_-2496802141858019636moz-txt-link-abbreviated" href="mailto:sword-devel@crosswire.org" target="_blank">sword-devel@crosswire.org</a>
<a class="gmail-m_-2496802141858019636moz-txt-link-freetext" href="http://www.crosswire.org/mailman/listinfo/sword-devel" target="_blank">http://www.crosswire.org/mailman/listinfo/sword-devel</a>
Instructions to unsubscribe/change your settings at above page</pre>
    </blockquote>
    <br>
  </div>

_______________________________________________<br>
sword-devel mailing list: <a href="mailto:sword-devel@crosswire.org" target="_blank">sword-devel@crosswire.org</a><br>
<a href="http://www.crosswire.org/mailman/listinfo/sword-devel" rel="noreferrer" target="_blank">http://www.crosswire.org/mailman/listinfo/sword-devel</a><br>
Instructions to unsubscribe/change your settings at above page</blockquote></div>