Jericho-html: можно ли извлечь текст со ссылкой на позиции в исходном файле?
Я использую Jericho HTML Parser 3.1.
Мне нужно извлечь текст из HTML, обработать его и в соответствии с этим, мне нужно вставить теги в исходный HTML.
Но для этого мне нужно соответствие между извлеченным текстом и исходным HTML.
net.htmlparser.jericho.TextExtractor
извлекает текст довольно хорошо, но я не смог найти, как найти местоположение в исходном файле.
Возможно ли это сделать с помощью Jericho-html?
1 ответ
Решение
Вы не можете сделать это с TextExtractor как есть, но мне нужно было делать подобные вещи в прошлом, и самое простое решение - скопировать реализацию TextExtractor Иерихона и отредактировать ее, чтобы добавить собственное поведение. Это довольно простой класс, поэтому вы сможете легко увидеть, куда добавить свои собственные хуки.