Jericho-html: можно ли извлечь текст со ссылкой на позиции в исходном файле?

Я использую Jericho HTML Parser 3.1.

Мне нужно извлечь текст из HTML, обработать его и в соответствии с этим, мне нужно вставить теги в исходный HTML.

Но для этого мне нужно соответствие между извлеченным текстом и исходным HTML.

net.htmlparser.jericho.TextExtractor извлекает текст довольно хорошо, но я не смог найти, как найти местоположение в исходном файле.

Возможно ли это сделать с помощью Jericho-html?

1 ответ

Решение

Вы не можете сделать это с TextExtractor как есть, но мне нужно было делать подобные вещи в прошлом, и самое простое решение - скопировать реализацию TextExtractor Иерихона и отредактировать ее, чтобы добавить собственное поведение. Это довольно простой класс, поэтому вы сможете легко увидеть, куда добавить свои собственные хуки.

Другие вопросы по тегам