Как получить все комментарии пользователей с сайта?

Я хочу, чтобы все комментарии пользователей с этого сайта: http://www.consumercomplaints.in/?search=chevrolet

Проблема в том, что комментарии отображаются частично, и чтобы увидеть полный комментарий, я должен нажать на заголовок над ним, и этот процесс должен быть повторен для всех комментариев.

Другая проблема состоит в том, что есть много страниц комментариев.

Поэтому я хочу сохранить все полные комментарии в листе Excel с указанного выше сайта. Это возможно? Я думаю об использовании crawler4j и jericho вместе с Eclipse.

Мой код для метода visitPage: @Override public void visit (Page page) {
String url = page.getWebURL (). GetURL(); System.out.println("URL: " + url);

           if (page.getParseData() instanceof HtmlParseData) {
                   HtmlParseData htmlParseData = (HtmlParseData) page.getParseData();

                   String html = htmlParseData.getHtml();

  //               Set<WebURL> links = htmlParseData.getOutgoingUrls();
  //               String text = htmlParseData.getText();

                   try
                   {
                       String CrawlerOutputPath = "/DA Project/HTML Source/";
                       File outputfile = new File(CrawlerOutputPath);

                       //If file doesnt exists, then create it
                        if(!outputfile.exists()){
                            outputfile.createNewFile();
                        }

                       FileWriter fw = new FileWriter(outputfile,true);  //true = append file
                       BufferedWriter bufferWritter = new BufferedWriter(fw);
                       bufferWritter.write(html);
                       bufferWritter.close();
                       fw.write(html);
                       fw.close();

                   }catch(IOException e)
                   {
                       System.out.println("IOException : " + e.getMessage() );
                       e.printStackTrace();
                   }

                   System.out.println("Html length: " + html.length());
           }
   }

Заранее спасибо. Любая помощь будет оценена.

1 ответ

Решение

Да, это возможно.

  • Начните сканирование на своем поисковом сайте ( http://www.consumercomplaints.in/?search=chevrolet)
  • Используйте метод visitPage crawler4j, чтобы следить только за комментариями и текущими страницами.
  • Возьмите html-контент из crawler4j и отправьте его в jericho
  • отфильтруйте контент, который вы хотите сохранить, и запишите его в какой-нибудь файл.csv или.xls (я бы предпочел.csv)

Надеюсь, это поможет вам

Другие вопросы по тегам