Nutch - Как разбить HTML-страницу на несколько страниц с собственным URL?

У меня есть страница ( http://www.example.com/content), которая содержит несколько блоков

 <div>
 <h1 id="titleOne">First title</h1>
 Here is custom content
 <h1 id="titleTwo">Second title</h1>
 Here is custom content for part 2
 </div>

Я хочу проиндексировать эту страницу как две отдельные страницы, которые различаются по URL и содержат текст из

в другой элемент

.

Пример:

Документ 1: http://www.example.com/content

Документ 2: http://www.example.com/content

0 ответов

Другие вопросы по тегам