Как правильно перебирать газетные PDF-файлы

Question

Как правильно перебирать газетные PDF-файлы

Я начинаю думать, что невозможно делать то, что я хочу, но я просто подумала, что спрошу здесь, прежде чем сдаться.

У меня есть почти 200 архивных PDF-файлов газеты, которые я хотел бы проанализировать. Однако я хотел бы провести этот анализ специально для раздела букв, но в зависимости от макета рекламы и метода конвертации (будь то pdfbox или pdftotext) нет реального начала или конца раздела, в котором я мог бы точно создать поиск с помощью регулярных выражений. с.

Кто-нибудь может придумать способ сделать что-то подобное? Я смотрел на это некоторое время, и кажется, что единственным надежным способом может быть ручной просмотр каждого файла PDF.

0

python pdf pdfbox scrape pdftotext

Источник

user3105372 14 июн '16 в 22:48

1 ответ

Решение

Другие вопросы по тегам python pdf pdfbox scrape pdftotext

user3105372 17 июн '16 в 08:56 2016-06-17 08:56 · Accepted Answer · 2016-06-17 08:56

Думаю, я просто напишу немного о том, что я сделал, чтобы это заработало:

Исходя из сказанного @TilmanHausherr, я собирался начать вручную, обрезать каждую страницу по отдельности, а затем делать извлечение текста на этих обрезанных страницах.

Тем не менее, я подумал, что с таким же успехом мог бы сократить объем ручной обрезки, максимально избавившись от ненужных страниц (99% из них).

Поэтому, даже если мои полуавтоматические выборы не были точными на 100% - они, по крайней мере, сделали бы для меня меньше ручной работы, что было бы полезно в любом случае. Итак, я следовал этому процессу:

Используя Acrobat, я запустил поиск по JavaScript, чтобы извлечь любые страницы с определенным ключевым словом в новый документ. Суть в том, что это ключевое слово, состоящее из одного слова, тем не менее я нашел довольно уникальное слово. disclaimer ', который появился на всех страницах письма. Даже если бы он поймал другую страницу - это не имело значения, так как все, что я хотел сделать, - это сократить конечную ручную работу.
Затем я хотел сделать страницы как можно более легкими для ручной обрезки, поэтому, зная, что все изображения не имеют значения, я использовал программу pdftoolbox на 14-дневной пробной версии, чтобы использовать эту сумасшедшую функцию, которая автоматически разбивает текстовые изображения и векторы на разные слои, которые затем можно удалить или сделать невидимыми.
Это можно сделать, перейдя в меню исправлений, выполнив поиск create different layers for vectors.. вариант и нажмите кнопку исправить. Затем, как только это будет сделано - идти к explore layers под главным меню и удалив все, кроме текстового слоя. Который, как вы можете видеть, очень эффективен в удалении любого ненужного мусора и почти становится рекламным блоком для газет:)
Есть еще немного мусора, но после удаления всех изображений все, что мне нужно было сделать, - это пройти пару страниц и убедиться, что в редакторе acrobat не было никакого несвязанного текста. Единственная ручная работа, которую предстоит сделать.

Я думаю, это довольно забавно, когда я полностью застрял с этим, когда пытался автоматизировать весь процесс. Но когда я вместо этого попытался сократить как можно больше ручной работы, я все равно автоматизировал примерно 99% процесса.

Похоже, я подсознательно ошибался в совершенном решении, когда пытался его автоматизировать.

¯ \ _ (ツ) _ / ¯