Бесконечный цикл sgmlReader для большого документа?
У меня есть этот проект по очистке данных с сайта SEC Edgar. Часть задачи состоит в том, чтобы получить основную часть всей документации, и сегодня я просто тестировал некоторые из них.
Я наткнулся на этот довольно большой файл (https://www.sec.gov/Archives/edgar/data/355437/000119312520189547/0001193125-20-189547.txt) размером около 110 мегабайт.
Я разбивал пакет на составляющие узлы
SgmlReader.ReadInnerXml();
чтобы схватить внутренности, но на этом большом файле кажется, что он входит в бесконечный цикл. Он работал 15 минут, прежде чем я взломал отладчик, и он завис на этом вызове.
Кто-нибудь сталкивался с этим раньше?
Я использую SqmlReader 1.8.16.
Я видел очень старый комментарий на странице журнала изменений, в котором говорилось, что была такая ошибка с неправильно завершенными комментариями html, но она была отмечена как исправленная большое количество выпусков назад.
Благодарность