Извлечение таблицы из документов на основе изображений

Есть ли эффективный алгоритм / метод для извлечения таблиц из документов на основе изображений. У нас также есть вывод Abbyy OCR в виде XML, который имеет информацию о координатах текста в документе. Нам нужно решить 2 основные проблемы:

  1. Идентификация таблицы в документе. (Структура таблицы не является фиксированной. Может иметь разные макеты с или без ограничительных линий)
  2. Извлечение текста из таблиц.

0 ответов

  • Получите xml-файл документа.

  • Начните перебирать элементы строки в xml.

  • Добавьте содержимое в список.
  • Преобразуйте список в DataTable.
XmlNodeList xmlList = doc.GetElementsByTagName("page");
foreach(XmlNode xn in XmlList)
{
    foreach(XmlNode Xr in xn.ChildNodes)
    {
        if(Xr.Name ="row")
        {
            string rowvalue = xr.InnerText;
            youlist.Add(rowvalue);
        }
    }
}
Другие вопросы по тегам