Должен ли я использовать Parse::RecDescent или Regexp::Grammars для извлечения таблиц из документов?

Question

Должен ли я использовать Parse::RecDescent или Regexp::Grammars для извлечения таблиц из документов?

У меня есть много больших текстовых документов, которые я хочу проанализировать с помощью Perl. Каждый документ содержит в основном абзацы на английском языке, с парой простых текстовых размеченных таблиц в каждом документе.

Я создал грамматику для описания структуры таблицы, но не уверен, будет ли лучше использовать Parse:: RecDescent или Regexp::Grammars для извлечения таблиц.

Сначала я склонялся к Parse:: RecDescent, но я не уверен в грамматике, как бы вы справились с 90% текста документа, который я хочу игнорировать, чтобы найти пару таблиц, которые я хочу извлечь, в каждом из них. документ.

Возможно, мне нужен Regexp::Grammars, чтобы я мог "тянуть" свое выражение через документ, пока он не найдет совпадения?

Спасибо

3

perl regexp-grammars parse-recdescent

Источник

user74585 10 окт '11 в 09:35

1 ответ

Решение

Другие вопросы по тегам perl regexp-grammars parse-recdescent

user74585 12 окт '11 в 03:03 2011-10-12 03:03 · Accepted Answer · 2011-10-12 03:03

Regexp::Grammars - это то, что я хотел, так как он позволяет вам перетаскивать свою грамматику через документ и находить совпадения как регулярное выражение. Parse::RecDescent не подходит для сканирования документа и поиска только текста, соответствующего грамматике.