Бесконечный цикл sgmlReader для большого документа?

У меня есть этот проект по очистке данных с сайта SEC Edgar. Часть задачи состоит в том, чтобы получить основную часть всей документации, и сегодня я просто тестировал некоторые из них.

Я наткнулся на этот довольно большой файл (https://www.sec.gov/Archives/edgar/data/355437/000119312520189547/0001193125-20-189547.txt) размером около 110 мегабайт.

Я разбивал пакет на составляющие узлы и обрабатывал их по-разному, в зависимости от значения узла FILENAME. Для типов, основанных на html / xml, я просто использовал

SgmlReader.ReadInnerXml();

чтобы схватить внутренности, но на этом большом файле кажется, что он входит в бесконечный цикл. Он работал 15 минут, прежде чем я взломал отладчик, и он завис на этом вызове.

Кто-нибудь сталкивался с этим раньше?

Я использую SqmlReader 1.8.16.

Я видел очень старый комментарий на странице журнала изменений, в котором говорилось, что была такая ошибка с неправильно завершенными комментариями html, но она была отмечена как исправленная большое количество выпусков назад.

Благодарность

0 ответов

Другие вопросы по тегам