Как использовать tesseract OCR для документов с таблицами на бенгальском языке?

Question

Как использовать tesseract OCR для документов с таблицами на бенгальском языке?

У меня почти идентичная проблема с извлечением таблиц из jpeg в фрейм данных в R, за исключением того, что мой PDF-файл находится на бенгальском языке, поэтому я не могу просто использовать image_ocr().

Я попробовал именно рекомендацию

library(magrittr)
library(magick)
# download file (in my case I read it from a folder)
pngfile <- pdftools::pdf_convert("Data.pdf", dpi = 600)

remove_grid <- "Data.png -negate -define morphology:compose=darken -morphology Thinning 'Rectangle:1x80+0+0<' -negate table_wo_grid.jpg"
system(remove_grid)

# read img and ocr
data <- image_read("table_wo_grid.jpg") %>%
  image_crop(geometry_area(0, 0, 80, 25)) %>%
  image_ocr()

Однако после удаления сетки мой код не работает. Во-первых, я не уверен, почему не создается файл table_wo_grid.jpg. Во-вторых, я не знаю, как читать изображение после удаления сетки на бенгальском языке. А именно, я не уверен, как указать в image_ocr (), что текст на бенгали. Я пробовал использовать что-то в этом роде tesseract::ocr("pngfile", engine = bengali) Но это не работает.

Кроме того, saldy https://ocr.space/tablerecognition не имеет бенгальского языка.

Спасибо!

0

ocr tesseract bengali

Источник

user14012398 29 июл '20 в 01:09

0 ответов

Другие вопросы по тегам ocr tesseract bengali