Я хочу извлечь информацию из таблицы из данных OCR

Question

Я хочу извлечь информацию из таблицы из данных OCR

Я хочу извлечь информацию таблицы из данных OCR, у меня есть необработанный текст, и это текст. Я попробовал pytesseract, но не смог найти фактическую реализацию.

Вот изображение: https://drive.google.com/open?id=1CGJwbmf5snoXvwlQAsRAxIRRixbT_Q8l

Я попробовал это: https://github.com/WZBSocialScienceCenter/pdftabextract

этот метод не работал для меня вообще.

Мне нужна табличная структура этой таблицы из данных OCR для дальнейшей обработки.

1

python image ocr pytesser

Источник

user10227621 20 янв '19 в 05:22

2 ответа

Другие вопросы по тегам python image ocr pytesser

user10658621 20 янв '19 в 11:22 2019-01-20 11:22 · Answer 1 · 2019-01-20 11:22

Я хочу извлечь информацию таблицы из данных OCR,

Попробуйте бесплатный Python OCR API. Имеет переключатель isTable для разбора данных из таблиц. Он возвращает данные таблицы построчно. Но он не размещает разделители между столбцами, это то, что вам нужно сделать самостоятельно, основываясь на ваших знаниях содержимого таблицы.

user8687960 20 янв '19 в 05:29 2019-01-20 05:29 · Answer 2 · 2019-01-20 05:29

pdftabextract не является OCR. Это требует отсканированных страниц с информацией OCR, то есть "сэндвич PDF", который содержит как отсканированные изображения, так и распознанный текст. Вам нужно программное обеспечение, такое как tesseract или ABBYY Finereader для распознавания текста.

Пожалуйста, попробуйте tesseract, он имеет относительно более простую реализацию.