Извлечение таблицы из документов на основе изображений

Question

Извлечение таблицы из документов на основе изображений

Есть ли эффективный алгоритм / метод для извлечения таблиц из документов на основе изображений. У нас также есть вывод Abbyy OCR в виде XML, который имеет информацию о координатах текста в документе. Нам нужно решить 2 основные проблемы:

Идентификация таблицы в документе. (Структура таблицы не является фиксированной. Может иметь разные макеты с или без ограничительных линий)
Извлечение текста из таблиц.

2

image ocr document boundary abbyy

Источник

user5615097 27 ноя '18 в 09:56

0 ответов

Другие вопросы по тегам image ocr document boundary abbyy

user8223968 22 янв '20 в 21:08 2020-01-22 21:08 · Answer 1 · 2020-01-22 21:08

Получите xml-файл документа.
Начните перебирать элементы строки в xml.
Добавьте содержимое в список.
Преобразуйте список в DataTable.

XmlNodeList xmlList = doc.GetElementsByTagName("page");
foreach(XmlNode xn in XmlList)
{
    foreach(XmlNode Xr in xn.ChildNodes)
    {
        if(Xr.Name ="row")
        {
            string rowvalue = xr.InnerText;
            youlist.Add(rowvalue);
        }
    }
}