<div dir="ltr"><div dir="ltr"><div dir="ltr"><div class="gmail_default"><font face="garamond, serif" size="4">Cyrille, (Peter), <br><br>Maybe further discussion on this belongs in Gitlab as issues.  Can I get added to this project? <br><br>Here are the first few lines of Matthew copied from the PDF: </font><br>------<br><div class="gmail_default" style="font-family:garamond,serif;font-size:large">&amp;Sifrmaw;OD; {0Ha*vdusrf;</div><div class="gmail_default" style="font-family:garamond,serif;font-size:large">The Gospel According to Matthew</div><div class="gmail_default" style="font-family:garamond,serif;font-size:large">ed&#39;gef;</div><div class="gmail_default" style="font-family:garamond,serif;font-size:large">usr;f ûyy*k Kd¾v f &amp;iS rf maw;O;D \b0rwS wf r;f</div><div class="gmail_default" style="font-family:garamond,serif;font-size:large">usr;f ûyy*k Kd¾v f &amp;iS rf maw;O;Don f *gavav;,e,rf S*sL;vrl sK;d tmvaf z;O;D \om;jzp\f / (rmu k2;14)</div><div class="gmail_default" style="font-family:garamond,serif;font-size:large">olonf tcGefcHoltjzpf trIxrf;chJonf/ (vk 5;27) a,Zl;ocif\aemufvdkufwynfhrjzpfrD ol\trnfrSm</div><div class="gmail_default" style="font-family:garamond,serif;font-size:large">av0djzp\f / ool n f wad b;&amp;,d tidk tf e;DwGi f a,Z;lociEf iS ahf wG U Ny;D<br><br></div><div class="gmail_default" style="font-family:garamond,serif;font-size:large">-----</div><div class="gmail_default"><font face="garamond, serif" size="4">And here are the first few lines of Matthew copied from the Pagemaker file: </font></div><div class="gmail_default"><font face="garamond, serif" size="4">-----<br></font><div class="gmail_default"><font face="garamond, serif" size="4">Sifrmaw;OD; {0Ha*vdusrf;</font></div><div class="gmail_default"><font face="garamond, serif" size="4">The Gospel According to Matthew</font></div><div class="gmail_default"><span style="font-family:garamond,serif;font-size:large">ed&#39;gef;</span><br></div><div class="gmail_default"><span style="font-family:garamond,serif;font-size:large">usrf;�yyk*�dKvf  &amp;Sifrmaw;OD;\b0rSwfwrf;  </span><br></div><div class="gmail_default"><span style="font-family:garamond,serif;font-size:large">usrf;�yyk*�dKvf  &amp;Sifrmaw;OD;onf  *gavav;,e,frS *sL;vlrsKd; tmvfaz;OD;\om;jzpf\/ (rmuk 2;14) olonf  tcGefcHoltjzpf trIxrf;chJonf/ (vk 5;27) a,Zl;ocif\aemufvdkufwynfhrjzpfrD  ol\trnfrSm av0djzpf\/ olonf  wdab;&amp;d,tkdifteD;wGif  a,Zl;ocifESifhawGU  NyD;<br><br><br>You can see that some letters have changed, and some others are in a different order. <br><br></span><span style="font-family:garamond,serif;font-size:large">The letters that change are likely those points that aren&#39;t compatible with unicode, and pagemaker reassigned them to ensure that the file is more widely viewable. Since a conversion is already planned, these won&#39;t matter as much, but the font embedded in the PDF is different than the font attached to the pagemaker file,  If you do start from the PDF, you&#39;ll need to extract the font to get the code points. </span><br style="font-family:garamond,serif;font-size:large"><span style="font-family:garamond,serif;font-size:large"><br>The problem is that the PDF export from pagemaker sorts the letters into the order they appear on the page.  Burmese text has Indian style ligatures, where vowels tend to jump over or under the previous letters, sometimes back 2 or three letters. If you study the following snippets from the beginning of Matthew, you can see there is a difference in order, as well as some glyphs are modified. <br><br>So, from the PDF letters are out of order, but from Pagemaker, letters are encoded into control points. Fixing the control points is easy and happens with the unicode conversion.  Fixing the letter order is not easy. You&#39;ll need a first language speaker and plenty of time. </span></div><div class="gmail_default"><span style="font-family:garamond,serif;font-size:large"><br>The guidance I received on another group was to use either LO Draw or Indesign to export the text from Pagemaker.  I&#39;ll look into LO Draw again, but I don&#39;t have access to an older version of Indesign (the pagemaker import was removed in CS6). </span><span style="font-family:garamond,serif;font-size:large"><br></span></div></div></div></div></div></div><div dir="ltr"><div class="gmail_default" style="font-family:garamond,serif;font-size:large"><br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, May 13, 2019 at 10:40 AM Michael H &lt;<a href="mailto:cmahte@gmail.com" target="_blank">cmahte@gmail.com</a>&gt; wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex"><div dir="ltr"><div class="gmail_default" style="font-family:garamond,serif;font-size:large">I unzipped the pagemaker file, and when I open NT_Proverb/Pagemaker (10.1mb), with a Hex editor, I can &#39;find&#39; all of the book names, and see the text there.  <br><br>To see the raw text: rename NT_Proverb.pmd &gt; NT_Proverb.zip and open it with a zip archive progeram.  The text is in the Pagemaker file at the top level of the archive, but encoded with a lot of extraneous information.  (The English text &quot;Matthew&quot; appears at hex location 7A76972). <br><br>When I open the fonts with fontforge, Fontforge suggests the fonts are encoded as unicode (but the glyphs are obviously not in the right spot.) <br>However when I copy the text (I copied from LO Draw) and paste it into jedit and save that as unicode: Reopening the file has a warning &#39;not unicode, text may be missing&#39;. <br><br>So, what this means is that there are some glyphs encoded into locations that unicode treats as control or non-printing codes. The text needs to be dealt with as a specific encoding that matches whatever the original font actually uses. I haven&#39;t figured out what the original text files were encoded with. Without that knowledge, I&#39;m not sure my system clipboard or editor (jedit) will properly respect the glyphs in unusual locations until the conversion to unicode, and I don&#39;t trust myself to be able to detect if it is or is not properly converted. <br></div></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">On Mon, May 13, 2019 at 10:11 AM Cyrille &lt;<a href="mailto:lafricain79@gmail.com" target="_blank">lafricain79@gmail.com</a>&gt; wrote:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
  
    
  
  <div bgcolor="#FFFFFF">
    David,<br>
    Probably you are right about <a href="http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&amp;cat_id=TECkit" target="_blank">TECkit</a>,
    if we get the text it will help us to convert in UNICODE.<br>
    About how to get the text, your method is out of my skills :)<br>
    I you succeed please let me know.<br>
    <br>
    <div class="gmail-m_3757925966681618317gmail-m_-6550991463107192144gmail-m_-2496802141858019636moz-cite-prefix">Il 13/05/2019 16:21, David Haslam ha
      scritto:<br>
    </div>
    <blockquote type="cite">
      
      <div>Given the insights from Michael Hart, it may be feasible to
        temporarily rearrange the main text stream as follows :</div>
      <div><br>
      </div>
      <div>1. Replace every EOL by a horizontal tab. </div>
      <div>2. Insert an EOL after each verse end character. </div>
      <div><br>
      </div>
      <div>Observe that the above two steps are wholly reversible such
        that the original text stream can be restored later. </div>
      <div><br>
      </div>
      <div>In effect the text stream is now in verse per line (VPL)
        layout, albeit without verse tags. Some adjustments may be
        necessary if there any section headings, etc. </div>
      <div><br>
      </div>
      <div>3. Add line numbers with the first number being reset to 1 at
        the start of each chapter, numbers incrementing by 1 for each
        line. </div>
      <div>4. Add a left margin USFM verse tag \v_<br>
      </div>
      <div><br>
      </div>
      <div id="gmail-m_3757925966681618317gmail-m_-6550991463107192144gmail-m_-2496802141858019636protonmail_mobile_signature_block">
        <div>Steps 3&amp;4 can be implemented in various ways. For my
          part, I’d use a bespoke TextPipe filter. </div>
        <div><br>
        </div>
        <div>Another method to consider might be to use Excel formulae.
          I recall resorting to such a method in the early days of Go
          Bible. </div>
        <div><br>
        </div>
        <div>Now restore the original layout by reverting steps 2 &amp;
          1, if this is really necessary. That is, if the original text
          layout appeared to be paragraphed. </div>
        <div><br>
        </div>
        <div>5. Decide how &amp; where to insert paragraph tags. </div>
        <div><br>
        </div>
        <div>6. Add chapter tags, book ID and main title tags, etc. </div>
        <div><br>
        </div>
        <div>Hope this gives some useful suggestions that point towards
          a practical solution. </div>
        <div><br>
        </div>
        <div>Best regards </div>
        <div><br>
        </div>
        <div>David</div>
        <div><br>
        </div>
        <div><br>
        </div>
        <div>Sent from ProtonMail Mobile</div>
      </div>
      <div><br>
      </div>
      <div><br>
      </div>
      On Mon, May 13, 2019 at 14:57, Michael H &lt;<a href="mailto:cmahte@gmail.com" target="_blank">cmahte@gmail.com</a>&gt;
      wrote:
      <blockquote class="gmail-m_3757925966681618317gmail-m_-6550991463107192144gmail-m_-2496802141858019636protonmail_quote" type="cite">
        <div dir="ltr">
          <div dir="ltr">
            <div dir="ltr">
              <div dir="ltr">
                <div class="gmail_default" style="font-family:garamond,serif;font-size:large">Cyrille<br>
                  <br>
                  LibreOffice Draw attempts to open the pagemaker file,
                  with limited success. But it confirms that even in the
                  pagemaker source, the verse numbers are a separate
                  text stream. With this source, there is no way to copy
                  the text with verse numbers intact. It appears to be
                  stored with each book in it&#39;s own text stream. Each
                  book is a separate text stream in the page maker file.
                  LO Draw isn&#39;t rendering all of the pages, only the
                  first 10, So I&#39;ve only explored Matthew further. <br>
                  <br>
                  Based on Matthew only, the verses seem to all end with
                  the character &quot;-&quot; or &quot;;/&quot;, which should aid in the
                  reconstruction. I&#39;ve looked through the PDF and this
                  seems to be the case for all books visually as well.
                  However, this isn&#39;t perfect: I find 1107 of these
                  characters in Matthew, instead of the expected 1071
                  verses.  But since the text stream has a book
                  introduction, this is likely easily explained.
                  Hopefully this gets you well down the path to creating
                  a stream with verses. <br>
                  <br>
                  I would NOT start from the PDF file, but from the
                  pagemaker file.  The PDF almost certainly has a lot of
                  text rearranging and extra characters like page
                  numbers and running heads.  Pagemaker has the book
                  text in a single stream, in a form that will convert
                  to unicode relatively easily. </div>
                <div class="gmail_default" style="font-family:garamond,serif;font-size:large"><br>
                </div>
              </div>
            </div>
          </div>
        </div>
      </blockquote>
      <div><br>
      </div>
      <div><br>
      </div>
      <br>
      <fieldset class="gmail-m_3757925966681618317gmail-m_-6550991463107192144gmail-m_-2496802141858019636mimeAttachmentHeader"></fieldset>
      <pre class="gmail-m_3757925966681618317gmail-m_-6550991463107192144gmail-m_-2496802141858019636moz-quote-pre">_______________________________________________
sword-devel mailing list: <a class="gmail-m_3757925966681618317gmail-m_-6550991463107192144gmail-m_-2496802141858019636moz-txt-link-abbreviated" href="mailto:sword-devel@crosswire.org" target="_blank">sword-devel@crosswire.org</a>
<a class="gmail-m_3757925966681618317gmail-m_-6550991463107192144gmail-m_-2496802141858019636moz-txt-link-freetext" href="http://www.crosswire.org/mailman/listinfo/sword-devel" target="_blank">http://www.crosswire.org/mailman/listinfo/sword-devel</a>
Instructions to unsubscribe/change your settings at above page</pre>
    </blockquote>
    <br>
  </div>

_______________________________________________<br>
sword-devel mailing list: <a href="mailto:sword-devel@crosswire.org" target="_blank">sword-devel@crosswire.org</a><br>
<a href="http://www.crosswire.org/mailman/listinfo/sword-devel" rel="noreferrer" target="_blank">http://www.crosswire.org/mailman/listinfo/sword-devel</a><br>
Instructions to unsubscribe/change your settings at above page</blockquote></div>
</blockquote></div>