Как получить текст из <a href> во вложенных элементах HTML, используя Иерихон?

У меня есть HTML-код, как это

<div class="itm hasOverlay lastrow">
<a id="3:LE343SPABGLIANID" class="itm-link itm-drk trackingOnClick" title="League Sepatu Casual Geof S/L LO - Hitam/Biru" href="league-sepatu-casual-geof-sl-lo-hitambiru-68166.html" rel="-standard|">
</a>
<div class="itm-overlay itm-group-mainbox-with-group"></div>
</div>

Что я должен сделать, чтобы получить текст league-sepatu-casual-geof-sl-lo-hitambiru-68166.html в

<a href="league-sepatu-casual-geof-sl-lo-hitambiru-68166.html">?

1 ответ

Решение

Это должно быть довольно просто...

Source source=new Source(new StringReader(inputString));
Element aElement = source.getFirstElement(HTMLElementName.A);
String href = aElement.getAttributeValue("href");
System.out.println(href);

... хотя это делает некоторые предположения, конечно: а именно, что inputString это только строка, которую вы опубликовали (и что эта часть не заключена в другие теги), и что эта часть содержит только одну ссылку (a).

(Если эти предположения не верны, нужно как-то идентифицировать этот конкретный div и правильный a тег. Например, путем поиска div с атрибутом class="itm hasOverlay lastrow" и для a с классом class="itm-link itm-drk trackingOnClick" - в любом случае нужно больше знать о фактической структуре документа, из которого эта информация должна быть извлечена)

Другие вопросы по тегам