Как использовать Html-парсер в Textpad?
Я не совсем новичок в Java, я изучал Java, когда был в коллаже. В настоящее время я делаю небольшую программу для сбора данных с интернет-страницы. Я делаю Google Reasearch и нахожу HTML-парсер это один из простых способов сделать это.
Мой вопрос заключается в том, как настроить путь к классам и импортировать библиотеки HTML анализатора в TextPad?
------Мой ответ ------------------------------------------ -----
Я нашел способ решить эту проблему. Я думаю, что я должен опубликовать это здесь, в случае, если кто-то еще имеет такую же проблему, как я.
Я не знаю, если это правильный способ решить эту проблему. вот.
Я нашел ссылку http://htmlparser.sourceforge.net/javadoc/doc-files/using.html
Я загрузил htmlparser zip-файл и распаковал папку lib на свой диск c. Я запускаю эту строку в CMD.(Я использую систему на основе Windows.) Установите CLASSPATH=C:\lib\htmlparser.jar;C:\lib\htmllexer.jar;%CLASSPATH%, тогда это работает.
Я полагаю, эта строка предназначена для добавления вашего нового файла.jar в ваш старый путь к классам. %CLASSPATH% означает ваш старый путь к классу.
1 ответ
Я проделал немалую работу по сбору экрана и обнаружил, что Java слишком громоздка. По моему опыту довольно использовать Groovy для скрининга данных. Вам не нужно возиться с надоедливым путем к классам. Поскольку groovy - это dsl для Java, и вы знаете Java, это будет довольно просто. Вы также можете использовать Textpad в качестве редактора.
Например:
def slurper = new XmlSlurper()
def htmlParser = slurper.parse("http://stackru.com")
htmlParser.'**'.findAll{ it.@class == 'question-hyperlink'}.each {
println it
}
Приведенный выше код взят из сообщения в блоге: http://www.maclovin.de/2010/02/robust-html-parsing-the-groovy-way/