Извлечение таблицы из документов на основе изображений
Есть ли эффективный алгоритм / метод для извлечения таблиц из документов на основе изображений. У нас также есть вывод Abbyy OCR в виде XML, который имеет информацию о координатах текста в документе. Нам нужно решить 2 основные проблемы:
- Идентификация таблицы в документе. (Структура таблицы не является фиксированной. Может иметь разные макеты с или без ограничительных линий)
- Извлечение текста из таблиц.
0 ответов
Получите xml-файл документа.
Начните перебирать элементы строки в xml.
- Добавьте содержимое в список.
- Преобразуйте список в DataTable.
XmlNodeList xmlList = doc.GetElementsByTagName("page");
foreach(XmlNode xn in XmlList)
{
foreach(XmlNode Xr in xn.ChildNodes)
{
if(Xr.Name ="row")
{
string rowvalue = xr.InnerText;
youlist.Add(rowvalue);
}
}
}