pdf2HtmlEX - текст на html отличается от исходного pdf

Question

pdf2HtmlEX - текст на html отличается от исходного pdf

Я использую для pdf2htmlEX для того, чтобы конвертировать PDF файлы в HTML. Я также извлекаю текст из файла впоследствии.

Эта проблема:

Я столкнулся с файлом, что текст в преобразованном html не читается: https://dspace.mit.edu/openaccess-disseminate/1721.1/101159

Команда, которую я использую:

pdf2htmlEX --tounicode 1 ./file.pdf

Текст в HTML имеет много пробелов и много цитат -

[2] "М." Ха-хан,"О.", Арбери,"Ф.П.","Ампа на","Р.", öt z,"Р.", Алла,"А пп." ys ."A:"M a te r."S ci."P ro ces ss."8 2 "(2 00 6)"

Установка других значений для --tounicode arg сделать текст бессмысленным.

Существует онлайновый инструмент, который использует эту библиотеку, и созданный там HTML-код прекрасно работает, что делает его не ошибкой pdf2htmlEX, а проблемой конфигурации или версий. Может быть что-то, связанное с poppler или fontforge.

Версии:

pdf2htmlEX version 0.14.6
Copyright 2012-2015 Lu Wang <coolwanglu@gmail.com> and other contributors
Libraries: 
  poppler 0.54.0
  libfontforge 20180906
  cairo 1.14.6
Default data-dir: /usr/local/share/pdf2htmlEX
Supported image format: png jpg svg

Какие-либо предложения?

5

poppler fontforge pdf2htmlex

Источник

user4869599 06 сен '18 в 07:54

1 ответ

Другие вопросы по тегам poppler fontforge pdf2htmlex

user833071 16 сен '18 в 05:30 2018-09-16 05:30 · Answer 1 · 2018-09-16 05:30

Я думаю, что следующие два шага будут работать:

Удалите ненужные пробелы и кавычки с помощью регулярного выражения.
Поместите / добавьте тег абзаца для каждой ссылки, как показано ниже:

<div>
::before
<p>[2] something </p>
::after
</div>

-1

Источник

user833071 16 сен '18 в 05:30