Как использовать tesseract OCR для документов с таблицами на бенгальском языке?
У меня почти идентичная проблема с извлечением таблиц из jpeg в фрейм данных в R, за исключением того, что мой PDF-файл находится на бенгальском языке, поэтому я не могу просто использовать image_ocr().
Я попробовал именно рекомендацию
library(magrittr)
library(magick)
# download file (in my case I read it from a folder)
pngfile <- pdftools::pdf_convert("Data.pdf", dpi = 600)
remove_grid <- "Data.png -negate -define morphology:compose=darken -morphology Thinning 'Rectangle:1x80+0+0<' -negate table_wo_grid.jpg"
system(remove_grid)
# read img and ocr
data <- image_read("table_wo_grid.jpg") %>%
image_crop(geometry_area(0, 0, 80, 25)) %>%
image_ocr()
Однако после удаления сетки мой код не работает. Во-первых, я не уверен, почему не создается файл table_wo_grid.jpg. Во-вторых, я не знаю, как читать изображение после удаления сетки на бенгальском языке. А именно, я не уверен, как указать в image_ocr (), что текст на бенгали. Я пробовал использовать что-то в этом роде tesseract::ocr("pngfile", engine = bengali)
Но это не работает.
Кроме того, saldy https://ocr.space/tablerecognition не имеет бенгальского языка.
Спасибо!