<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8">
  </head>
  <body text="#000000" bgcolor="#FFFFFF">
    Yesterday I thought, if a pdf tool give the possibility to cut the
    pdf in the middle, then the raw conversion to txt can be possible,
    the we only need to convert it to UTF8.<br>
    Any idea?<br>
    <br>
    <div class="moz-cite-prefix">Il 13/05/2019 17:40, Michael H ha
      scritto:<br>
    </div>
    <blockquote type="cite"
cite="mid:CAJ9hia8_AG=vTiChD7MYhG9kQx6cEivug4xYN3ZP_dnDXRXpeA@mail.gmail.com">
      <meta http-equiv="content-type" content="text/html; charset=UTF-8">
      <div dir="ltr">
        <div class="gmail_default"
          style="font-family:garamond,serif;font-size:large">I unzipped
          the pagemaker file, and when I open NT_Proverb/Pagemaker
          (10.1mb), with a Hex editor, I can 'find' all of the book
          names, and see the text there.  <br>
          <br>
          To see the raw text: rename NT_Proverb.pmd &gt; NT_Proverb.zip
          and open it with a zip archive progeram.  The text is in the
          Pagemaker file at the top level of the archive, but encoded
          with a lot of extraneous information.  (The English text
          "Matthew" appears at hex location 7A76972). <br>
          <br>
          When I open the fonts with fontforge, Fontforge suggests the
          fonts are encoded as unicode (but the glyphs are obviously not
          in the right spot.) <br>
          However when I copy the text (I copied from LO Draw) and paste
          it into jedit and save that as unicode: Reopening the file has
          a warning 'not unicode, text may be missing'. <br>
          <br>
          So, what this means is that there are some glyphs encoded into
          locations that unicode treats as control or non-printing
          codes. The text needs to be dealt with as a specific encoding
          that matches whatever the original font actually uses. I
          haven't figured out what the original text files were encoded
          with. Without that knowledge, I'm not sure my system clipboard
          or editor (jedit) will properly respect the glyphs in unusual
          locations until the conversion to unicode, and I don't trust
          myself to be able to detect if it is or is not properly
          converted. <br>
        </div>
      </div>
      <br>
      <div class="gmail_quote">
        <div dir="ltr" class="gmail_attr">On Mon, May 13, 2019 at 10:11
          AM Cyrille &lt;<a href="mailto:lafricain79@gmail.com"
            moz-do-not-send="true">lafricain79@gmail.com</a>&gt; wrote:<br>
        </div>
        <blockquote class="gmail_quote" style="margin:0px 0px 0px
          0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
          <div bgcolor="#FFFFFF"> David,<br>
            Probably you are right about <a
href="http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&amp;cat_id=TECkit"
              target="_blank" moz-do-not-send="true">TECkit</a>, if we
            get the text it will help us to convert in UNICODE.<br>
            About how to get the text, your method is out of my skills
            :)<br>
            I you succeed please let me know.<br>
            <br>
            <div class="gmail-m_-2496802141858019636moz-cite-prefix">Il
              13/05/2019 16:21, David Haslam ha scritto:<br>
            </div>
            <blockquote type="cite">
              <div>Given the insights from Michael Hart, it may be
                feasible to temporarily rearrange the main text stream
                as follows :</div>
              <div><br>
              </div>
              <div>1. Replace every EOL by a horizontal tab. </div>
              <div>2. Insert an EOL after each verse end character. </div>
              <div><br>
              </div>
              <div>Observe that the above two steps are
                wholly reversible such that the original text stream can
                be restored later. </div>
              <div><br>
              </div>
              <div>In effect the text stream is now in verse per line
                (VPL) layout, albeit without verse tags. Some
                adjustments may be necessary if there any section
                headings, etc. </div>
              <div><br>
              </div>
              <div>3. Add line numbers with the first number being reset
                to 1 at the start of each chapter, numbers incrementing
                by 1 for each line. </div>
              <div>4. Add a left margin USFM verse tag \v_<br>
              </div>
              <div><br>
              </div>
              <div
                id="gmail-m_-2496802141858019636protonmail_mobile_signature_block">
                <div>Steps 3&amp;4 can be implemented in various ways.
                  For my part, I’d use a bespoke TextPipe filter. </div>
                <div><br>
                </div>
                <div>Another method to consider might be to use Excel
                  formulae. I recall resorting to such a method in the
                  early days of Go Bible. </div>
                <div><br>
                </div>
                <div>Now restore the original layout by reverting steps
                  2 &amp; 1, if this is really necessary. That is, if
                  the original text layout appeared to be paragraphed. </div>
                <div><br>
                </div>
                <div>5. Decide how &amp; where to insert paragraph
                  tags. </div>
                <div><br>
                </div>
                <div>6. Add chapter tags, book ID and main title tags,
                  etc. </div>
                <div><br>
                </div>
                <div>Hope this gives some useful suggestions that point
                  towards a practical solution. </div>
                <div><br>
                </div>
                <div>Best regards </div>
                <div><br>
                </div>
                <div>David</div>
                <div><br>
                </div>
                <div><br>
                </div>
                <div>Sent from ProtonMail Mobile</div>
              </div>
              <div><br>
              </div>
              <div><br>
              </div>
              On Mon, May 13, 2019 at 14:57, Michael H &lt;<a
                href="mailto:cmahte@gmail.com" target="_blank"
                moz-do-not-send="true">cmahte@gmail.com</a>&gt; wrote:
              <blockquote
                class="gmail-m_-2496802141858019636protonmail_quote"
                type="cite">
                <div dir="ltr">
                  <div dir="ltr">
                    <div dir="ltr">
                      <div dir="ltr">
                        <div class="gmail_default"
                          style="font-family:garamond,serif;font-size:large">Cyrille<br>
                          <br>
                          LibreOffice Draw attempts to open the
                          pagemaker file, with limited success. But it
                          confirms that even in the pagemaker source,
                          the verse numbers are a separate text stream.
                          With this source, there is no way to copy the
                          text with verse numbers intact. It appears to
                          be stored with each book in it's own text
                          stream. Each book is a separate text stream in
                          the page maker file. LO Draw isn't rendering
                          all of the pages, only the first 10, So I've
                          only explored Matthew further. <br>
                          <br>
                          Based on Matthew only, the verses seem to all
                          end with the character "-" or ";/", which
                          should aid in the reconstruction. I've looked
                          through the PDF and this seems to be the case
                          for all books visually as well. However, this
                          isn't perfect: I find 1107 of these characters
                          in Matthew, instead of the expected 1071
                          verses.  But since the text stream has a book
                          introduction, this is likely easily explained.
                          Hopefully this gets you well down the path to
                          creating a stream with verses. <br>
                          <br>
                          I would NOT start from the PDF file, but from
                          the pagemaker file.  The PDF almost certainly
                          has a lot of text rearranging and extra
                          characters like page numbers and running
                          heads.  Pagemaker has the book text in a
                          single stream, in a form that will convert to
                          unicode relatively easily. </div>
                        <div class="gmail_default"
                          style="font-family:garamond,serif;font-size:large"><br>
                        </div>
                      </div>
                    </div>
                  </div>
                </div>
              </blockquote>
              <div><br>
              </div>
              <div><br>
              </div>
              <br>
              <fieldset
                class="gmail-m_-2496802141858019636mimeAttachmentHeader"></fieldset>
              <pre class="gmail-m_-2496802141858019636moz-quote-pre">_______________________________________________
sword-devel mailing list: <a class="gmail-m_-2496802141858019636moz-txt-link-abbreviated" href="mailto:sword-devel@crosswire.org" target="_blank" moz-do-not-send="true">sword-devel@crosswire.org</a>
<a class="gmail-m_-2496802141858019636moz-txt-link-freetext" href="http://www.crosswire.org/mailman/listinfo/sword-devel" target="_blank" moz-do-not-send="true">http://www.crosswire.org/mailman/listinfo/sword-devel</a>
Instructions to unsubscribe/change your settings at above page</pre>
            </blockquote>
            <br>
          </div>
          _______________________________________________<br>
          sword-devel mailing list: <a
            href="mailto:sword-devel@crosswire.org" target="_blank"
            moz-do-not-send="true">sword-devel@crosswire.org</a><br>
          <a
            href="http://www.crosswire.org/mailman/listinfo/sword-devel"
            rel="noreferrer" target="_blank" moz-do-not-send="true">http://www.crosswire.org/mailman/listinfo/sword-devel</a><br>
          Instructions to unsubscribe/change your settings at above page</blockquote>
      </div>
      <br>
      <fieldset class="mimeAttachmentHeader"></fieldset>
      <pre class="moz-quote-pre" wrap="">_______________________________________________
sword-devel mailing list: <a class="moz-txt-link-abbreviated" href="mailto:sword-devel@crosswire.org">sword-devel@crosswire.org</a>
<a class="moz-txt-link-freetext" href="http://www.crosswire.org/mailman/listinfo/sword-devel">http://www.crosswire.org/mailman/listinfo/sword-devel</a>
Instructions to unsubscribe/change your settings at above page</pre>
    </blockquote>
    <br>
  </body>
</html>