Я хочу извлечь информацию из таблицы из данных OCR
Я хочу извлечь информацию таблицы из данных OCR, у меня есть необработанный текст, и это текст. Я попробовал pytesseract, но не смог найти фактическую реализацию.
Вот изображение: https://drive.google.com/open?id=1CGJwbmf5snoXvwlQAsRAxIRRixbT_Q8l
Я попробовал это: https://github.com/WZBSocialScienceCenter/pdftabextract
этот метод не работал для меня вообще.
Мне нужна табличная структура этой таблицы из данных OCR для дальнейшей обработки.
2 ответа
Я хочу извлечь информацию таблицы из данных OCR,
Попробуйте бесплатный Python OCR API. Имеет переключатель isTable
для разбора данных из таблиц. Он возвращает данные таблицы построчно. Но он не размещает разделители между столбцами, это то, что вам нужно сделать самостоятельно, основываясь на ваших знаниях содержимого таблицы.
pdftabextract не является OCR. Это требует отсканированных страниц с информацией OCR, то есть "сэндвич PDF", который содержит как отсканированные изображения, так и распознанный текст. Вам нужно программное обеспечение, такое как tesseract или ABBYY Finereader для распознавания текста.
Пожалуйста, попробуйте tesseract, он имеет относительно более простую реализацию.