Получение текста из изображения плана этажа с помощью pytesseract
У меня есть база данных изображений.jpg, .pdf и.png, которые представляют планы домов. Я пытаюсь использовать pytesseract для извлечения текста из изображений - с целью получения общей площади каждого дома (кв. Фут или кв. М).
Я новичок в pytesseract и попробовал несколько различных способов изменения изображения ниже, перед применением функции image_to_string, но каждый раз результат действительно неточный. Для некоторых других домов, которые я пробовал, это сработало отлично. Вот основная функция без каких-либо изменений изображения:
def simple_url_to_text(url):
urllib.urlretrieve(url, "url_test.jpg")
im = Image.open("url_test.jpg")
text = pytesseract.image_to_string(im)
return text
Эта функция отлично работает для этого URL...
https://lc.zoocdn.com/8487827a2ea1536001fcf007c6aa1fb04c2ed0b5.jpg
Но очень плохо для этого... https://lc.zoocdn.com/e57c5a06c2c64904c077a0736e797ea7a6a71597.jpg
Любые советы о том, как я мог бы изменить функцию, чтобы она работала на втором URL, были бы очень благодарны.