Пользовательское выражение xpath с тика
Я пытаюсь создать пользовательский xpath contentHandler для tika, который распознает сложное выражение xpath, используя код из org/apache/tika/sax/BodyContentHandler.java (потому что я использую tika для других вещей)
Этот xpath работает
/xhtml:html/xhtml:body/descendant:node()
но это не
//xhtml:div[@id='someid']/descendant:node()
Я хочу интегрировать ContentHandler Тики (потому что он исправляет несбалансированные теги содержимого HTML и недопустимый символ) с оценщиком xpath из javax.xml.xpath. Какой правильный способ сделать это. Есть ли способ получить исходные данные после оценки и исправления содержимого html?
1 ответ
Функция XPath, включенная в Tika, поддерживает только часть функций XPath (подробности см. В XPathParser). Для более сложных запросов XPath я рекомендую использовать что-то вроде javax.xml.xpath.