Разбор HTML с Hpricot & Ruby - получить самый внутренний html?
Я смотрю, чтобы разобрать некоторые старые HTML, который имеет множество посторонних тегов, которые можно сделать с помощью CSS сейчас - <b>
, <font>
и т. д. Я использую Hpricot для его анализа, но я хочу получить самый внутренний "inner_html" - как это сделать с Hpricot? Например, скажем, я использую Hpricot, чтобы захватить все <table>
элементы, которые я перебираю для получения строк и ячеек, но я хочу получить данные внутри ячеек, но они не могут иметь никаких дополнительных тегов или чего-то подобного <b><font ...>1,000</font></b>
- есть ли хитрость, чтобы получить только 1000?
Спасибо,
Бен
1 ответ
Я не уверен, что это именно то, что вы хотите, но вы можете посмотреть на метод inner_text. Он вернет то же самое, что и inner_html, за исключением того, что все элементы HTML будут удалены.