Определите и извлеките определенные разделы документа PDF
У меня есть несколько экзаменов в формате PDF. Я хочу программно извлечь каждый вопрос как отдельное изображение / документ. OCR не идеален, потому что он плохо поддерживает форматирование кода / уравнения. Конечная цель состоит в том, чтобы сделать флэш-карты с каждой карточкой, содержащей изображение всего вопроса. Вопросы могут быть на одной странице, а также могут состоять из нескольких частей (например, 1a, 2f и т. Д.).
В настоящее время я рассматриваю возможность использования OCR для извлечения тегов вопросов (например, 1, 2, 3 и т. Д.), А затем нахожу их позиции в pdf и извлекаю iamge от начала одного вопроса до начала следующего. Есть ли какая-либо инфраструктура или программное обеспечение, которое может сделать это или предоставить какой-то альтернативный подход, чтобы облегчить это?
1 ответ
Взгляните на Science-Parse от Аллена А.И. Это делает довольно приличную работу по извлечению метаданных из документов PDF. Часто это лучше, чем другие программы для извлечения текста, такие как t extract и pdfplumber.
Точное извлечение математических формул из PDF уже много лет является предметом исследований. Я не нашел ни одного проекта / пакета / программного обеспечения с открытым исходным кодом, связанного с точным извлечением математических формул, хотя есть ряд исследовательских работ, в которых описываются такие методы, как этот и этот. (Было проведено больше исследований по распознаванию математической формулы или преобразованию их в правильную разметку, такую как LaTeX, MathML и т. Д.) В большинстве этих работ используется информация о шрифте, базовой линии, ограничивающих прямоугольниках глифов, межстрочном интервале и т. Д. распознавать математические формулы и извлекать их.
Для распознавания текста вы всегда можете использовать Infty. Вот что говорится в описании для InftyReader:
InftyReader распознает отсканированные изображения печатных научных документов, включая математические формулы, выводит результаты распознавания в различных форматах: формат XML для InftyEditor, LaTeX, MathML, удобочитаемый TeX для жалюзи и т. Д.