Конвертируйте PDF в txt, одновременно идентифицируя текст в файле.txt, что было подчеркнуто в формате PDF.

Я работаю над проектом Node.js. Мне было поручено преобразовать PDF-файлы в TXT-файлы. Первоначально я конвертировал файлы PDF в файлы.txt, используя пакет pdf-parse. Это было легко и сработало очень хорошо.

Однако я только что узнал, что в PDF есть подчеркнутый текст. Этот подчеркнутый текст означает, что все, что подчеркнуто, является "не текущим". Например, имя может быть подчеркнуто, и это будет означать, что этот человек НЕ работает в компании. В разных PDF-файлах подчеркивание означает разные вещи, поэтому мне нужно указать в текстовом файле, когда что-то было подчеркнуто в PDF. В настоящее время у меня нет выбора, кроме как выводить txt-файлы, потому что эти файлы в конечном итоге передаются в API-интерфейс translate, и API-интерфейс translate лучше всего работает с txt-файлами. Мне нужно как-то указать в файлах.txt, что было подчеркнуто в то время как в формате PDF.

Вот что я попробовал. Я попытался преобразовать PDF-файлы в RTF, а затем проанализировал файлы RTF, чтобы найти \ul, что указывает на начало подчеркивания. Однажды я нахожу \ulЯ заменяю это чем-то, чтобы указать, что это когда-то было подчеркнуто. (После этого я преобразовал файлы RTF в файлы.txt.)

Например: *@ 日本航空機リース株式会社 (* @ указывает, что это было подчеркнуто в оригинальном PDF).

Проблема в том, что иногда вывод содержит что-то вроде этого:

* @ 山 * @ * @ 下 * @ * @ 洋 * @ * @ 司

Что мне нужно было бы что-то вроде этого:

* @ 山下 洋 司 (только 1 "специальный символ" для обозначения подчеркивания существовал в PDF)

Похоже, что преобразование из PDF в RTF (с помощью API CloudConvert) иногда подчеркивает слова / фразы, используя только 1 \ul перед всем подчеркнутым словом / фразой, а затем в другое время он вставляет \ul тег перед каждым символом слова / фразы, что означает, что это доставляет мне проблемы при попытке заменить каждый \ul, Это работает для файлов RTF и в любом случае подчеркивание выглядит одинаково в RTF. Однако, как только я пытаюсь заменить \ul теги с другим символом / символом, а затем преобразовать в TXT, проблема выше поднимает свою голову.

Мой вопрос: как бы вы конвертировали PDF-файлы в текстовые (.txt) файлы, хотя бы указывали в файле.txt, что некоторые тексты / слова / фразы в исходном PDF-файле были подчеркнуты? У меня все в порядке с шагами. Это не должен быть одностадийный процесс.

0 ответов

Другие вопросы по тегам