HtmlCleaner XPath: получить содержимое узла без дочерних узлов

Question

HtmlCleaner XPath: получить содержимое узла без дочерних узлов

Я использую библиотеку HtmlCleaner для анализа html-файла и извлечения некоторых данных с помощью функции XPath. Это работает в основном довольно хорошо, но я не могу найти способ получить только текстовое содержимое узла (без содержимого дочерних узлов). Как указано во многих базовых документах XPath, text() должен предоставлять содержимое узла без дочернего содержимого, но интеграция htmlcleaner, похоже, не следует этому. Есть ли способ сделать это с XPath htmlcleaners?

УПАДТЕ: вот пример:

мой html - это страница, http://www.imdb.com/title/tt0499549/?ref_=nv_sr_1 вот фрагмент html:

<div class="txt-block">
  <h4 class="inline">Budget:</h4>        
    $237,000,000      
  <span class="attribute">(estimated)</span>
</div>

это мой XPath (в этом случае div[7] принимает div.txt-block)

//*[@id='titleDetails']/div[7]/text()

это приводит к "Бюджету: 237 000 000 долларов (по оценкам)", но мне нужны только "237 000 000 долларов", а не содержание h4 и не промежуток.

2

java xpath htmlcleaner

Источник

user1023779 05 ноя '16 в 14:48

0 ответов

Другие вопросы по тегам java xpath htmlcleaner