Как убрать часть текста, полученного из веб-урожая
Я новичок в webharvest и использую его для получения данных статьи с веб-сайта, используя следующее утверждение:
let $text := data($doc//div[@id="articleBody"])
и это данные, которые я получаю из приведенного выше заявления:
The Refine Spa (Furman's Mill) was built as a stone grist mill along the on a tributary of Capoolong Creek by Moore Furman, quartermaster general of George Washington's army
Notable people
Notable current and former residents of Pittstown include:
Мой вопрос заключается в том, можно ли удалить весь контент, который идет после "Известных людей", используя конфигурацию. Можно ли так сделать? Если это возможно, пожалуйста, дайте мне знать, как. Благодарю.
Изменить: желаемый вывод:
The Refine Spa (Furman's Mill) was built as a stone grist mill along the on a tributary of Capoolong Creek by Moore Furman, quartermaster general of George Washington's army
Notable people
1 ответ
Вам просто нужно изменить выражение let, например:
let $ text: = substring-before (data ($ doc // div [@ id = "articleBody"] / text ()), 'Известные люди')
чтобы получить желаемый результат