Как получить все комментарии пользователей с сайта?
Я хочу, чтобы все комментарии пользователей с этого сайта: http://www.consumercomplaints.in/?search=chevrolet
Проблема в том, что комментарии отображаются частично, и чтобы увидеть полный комментарий, я должен нажать на заголовок над ним, и этот процесс должен быть повторен для всех комментариев.
Другая проблема состоит в том, что есть много страниц комментариев.
Поэтому я хочу сохранить все полные комментарии в листе Excel с указанного выше сайта. Это возможно? Я думаю об использовании crawler4j и jericho вместе с Eclipse.
Мой код для метода visitPage: @Override public void visit (Page page) {
String url = page.getWebURL (). GetURL();
System.out.println("URL: " + url);
if (page.getParseData() instanceof HtmlParseData) {
HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();
String html = htmlParseData.getHtml();
// Set<WebURL> links = htmlParseData.getOutgoingUrls();
// String text = htmlParseData.getText();
try
{
String CrawlerOutputPath = "/DA Project/HTML Source/";
File outputfile = new File(CrawlerOutputPath);
//If file doesnt exists, then create it
if(!outputfile.exists()){
outputfile.createNewFile();
}
FileWriter fw = new FileWriter(outputfile,true); //true = append file
BufferedWriter bufferWritter = new BufferedWriter(fw);
bufferWritter.write(html);
bufferWritter.close();
fw.write(html);
fw.close();
}catch(IOException e)
{
System.out.println("IOException : " + e.getMessage() );
e.printStackTrace();
}
System.out.println("Html length: " + html.length());
}
}
Заранее спасибо. Любая помощь будет оценена.
1 ответ
Да, это возможно.
- Начните сканирование на своем поисковом сайте ( http://www.consumercomplaints.in/?search=chevrolet)
- Используйте метод visitPage crawler4j, чтобы следить только за комментариями и текущими страницами.
- Возьмите html-контент из crawler4j и отправьте его в jericho
- отфильтруйте контент, который вы хотите сохранить, и запишите его в какой-нибудь файл.csv или.xls (я бы предпочел.csv)
Надеюсь, это поможет вам