Как вы анализируете веб-страницу и извлекаете все ссылки href?

Question

Как вы анализируете веб-страницу и извлекаете все ссылки href?

Я хочу проанализировать веб-страницу в Groovy и извлечь из нее все ссылки href и связанный с ними текст.

Если страница содержала эти ссылки:

<a href="http://www.google.com">Google</a><br />
<a href="http://www.apple.com">Apple</a>

результат будет:

Google, http://www.google.com<br />
Apple, http://www.apple.com

Я ищу Groovy ответ. AKA. Простой способ!

15

html parsing groovy

Источник

19 сен '08 в 03:26

7 ответов

Решение

Быстрый поиск в Google показал прекрасную возможность, TagSoup.

4

Источник

user17095 19 сен '08 в 03:28

Я не знаю Java, но я думаю, что xpath намного лучше, чем классические регулярные выражения, чтобы получить один (или более) HTML-элементов.

Это также легче писать и читать.

<html>
   <body>
      <a href="1.html">1</a>
      <a href="2.html">2</a>
      <a href="3.html">3</a>
   </body>
</html>

С помощью HTML выше, это выражение "/ html / body / a" будет перечислять все элементы href.

Вот хороший пошаговый учебник http://www.zvon.org/xxl/XPathTutorial/General/examples.html

2

Источник

user15780 19 сен '08 в 07:14

Используйте XMLSlurper для анализа HTML как документа XML, а затем используйте метод find с соответствующим закрытием, чтобы выбрать теги, а затем используйте метод list в GPathResult, чтобы получить список тегов. После этого вы сможете извлечь текст как дочерние элементы GPathResult.

1

Источник

user14893 19 сен '08 в 03:52

Разбор с использованием XMlSlurper работает, только если HTMl правильно сформирован.

Если ваша страница HTMl имеет неправильно сформированные теги, используйте регулярное выражение для анализа страницы.

Пример: <a href="www.google.com">

здесь "а" не является замкнутым и, следовательно, не очень хорошо сформированным

 new URL(url).eachLine{
   (it =~ /.*<A HREF="(.*?)">/).each{
       // process hrefs
   }
}

0

Источник

user1294908 05 апр '12 в 07:39

Попробуйте регулярное выражение. Примерно так должно работать:

(html =~ /<a.*href='(.*?)'.*>(.*?)<\/a>/).each { url, text -> 
    // do something with url and text
}

Взгляните на Groovy - Урок 4 - Основы регулярных выражений и Разрыв регулярных выражений в привязке тегов.

0

Источник

user17023 19 сен '08 в 03:41

Html parser + Регулярные выражения. Любой язык сделает это, хотя я бы сказал, что Perl - самое быстрое решение.

-2

Источник

user23890 02 окт '08 в 18:34

Другие вопросы по тегам html parsing groovy

user12591 02 окт '08 в 18:18 2008-10-02 18:18 · Accepted Answer · 2008-10-02 18:18

Предполагая, что XHTML правильно сформирован, выложите xml, соберите все теги, найдите теги "a" и распечатайте href и текст.

input = """<html><body>
<a href = "http://www.hjsoft.com/">John</a>
<a href = "http://www.google.com/">Google</a>
<a href = "http://www.stackru.com/">Stackru</a>
</body></html>"""

doc = new XmlSlurper().parseText(input)
doc.depthFirst().collect { it }.findAll { it.name() == "a" }.each {
    println "${it.text()}, ${it.@href.text()}"
}