Пользовательское выражение xpath с тика

Я пытаюсь создать пользовательский xpath contentHandler для tika, который распознает сложное выражение xpath, используя код из org/apache/tika/sax/BodyContentHandler.java (потому что я использую tika для других вещей)

Этот xpath работает

/xhtml:html/xhtml:body/descendant:node()

но это не

//xhtml:div[@id='someid']/descendant:node()

Я хочу интегрировать ContentHandler Тики (потому что он исправляет несбалансированные теги содержимого HTML и недопустимый символ) с оценщиком xpath из javax.xml.xpath. Какой правильный способ сделать это. Есть ли способ получить исходные данные после оценки и исправления содержимого html?

1 ответ

Функция XPath, включенная в Tika, поддерживает только часть функций XPath (подробности см. В XPathParser). Для более сложных запросов XPath я рекомендую использовать что-то вроде javax.xml.xpath.

Другие вопросы по тегам