Как использовать Html-парсер в Textpad?

Я не совсем новичок в Java, я изучал Java, когда был в коллаже. В настоящее время я делаю небольшую программу для сбора данных с интернет-страницы. Я делаю Google Reasearch и нахожу HTML-парсер это один из простых способов сделать это.

Мой вопрос заключается в том, как настроить путь к классам и импортировать библиотеки HTML анализатора в TextPad?

------Мой ответ ------------------------------------------ -----

Я нашел способ решить эту проблему. Я думаю, что я должен опубликовать это здесь, в случае, если кто-то еще имеет такую ​​же проблему, как я.

Я не знаю, если это правильный способ решить эту проблему. вот.

Я нашел ссылку http://htmlparser.sourceforge.net/javadoc/doc-files/using.html

Я загрузил htmlparser zip-файл и распаковал папку lib на свой диск c. Я запускаю эту строку в CMD.(Я использую систему на основе Windows.) Установите CLASSPATH=C:\lib\htmlparser.jar;C:\lib\htmllexer.jar;%CLASSPATH%, тогда это работает.

Я полагаю, эта строка предназначена для добавления вашего нового файла.jar в ваш старый путь к классам. %CLASSPATH% означает ваш старый путь к классу.

1 ответ

Решение

Я проделал немалую работу по сбору экрана и обнаружил, что Java слишком громоздка. По моему опыту довольно использовать Groovy для скрининга данных. Вам не нужно возиться с надоедливым путем к классам. Поскольку groovy - это dsl для Java, и вы знаете Java, это будет довольно просто. Вы также можете использовать Textpad в качестве редактора.

Например:

def slurper = new XmlSlurper()
def htmlParser = slurper.parse("http://stackru.com")

htmlParser.'**'.findAll{ it.@class == 'question-hyperlink'}.each {
   println it
}

Приведенный выше код взят из сообщения в блоге: http://www.maclovin.de/2010/02/robust-html-parsing-the-groovy-way/

Другие вопросы по тегам