Получение текста из изображения плана этажа с помощью pytesseract

У меня есть база данных изображений.jpg, .pdf и.png, которые представляют планы домов. Я пытаюсь использовать pytesseract для извлечения текста из изображений - с целью получения общей площади каждого дома (кв. Фут или кв. М).

Я новичок в pytesseract и попробовал несколько различных способов изменения изображения ниже, перед применением функции image_to_string, но каждый раз результат действительно неточный. Для некоторых других домов, которые я пробовал, это сработало отлично. Вот основная функция без каких-либо изменений изображения:

def simple_url_to_text(url):
    urllib.urlretrieve(url, "url_test.jpg")
    im = Image.open("url_test.jpg") 
    text = pytesseract.image_to_string(im)
    return text

Эта функция отлично работает для этого URL...

https://lc.zoocdn.com/8487827a2ea1536001fcf007c6aa1fb04c2ed0b5.jpg

Но очень плохо для этого... https://lc.zoocdn.com/e57c5a06c2c64904c077a0736e797ea7a6a71597.jpg

Любые советы о том, как я мог бы изменить функцию, чтобы она работала на втором URL, были бы очень благодарны.

0 ответов

Другие вопросы по тегам