Nutch - Как разбить HTML-страницу на несколько страниц с собственным URL?
У меня есть страница ( http://www.example.com/content), которая содержит несколько блоков
<div>
<h1 id="titleOne">First title</h1>
Here is custom content
<h1 id="titleTwo">Second title</h1>
Here is custom content for part 2
</div>
Я хочу проиндексировать эту страницу как две отдельные страницы, которые различаются по URL и содержат текст из
в другой элемент .
Пример:
Документ 1: http://www.example.com/content
Документ 2: http://www.example.com/content