Node.io, JSDOM или PhantomJs? или YQL- data.html.cssselect?
Мне нужно сканировать определенный веб-сайт, чтобы выкопать некоторую соответствующую информацию. Похоже, сначала мне нужно поискать на сайте, чтобы получить соответствующие URL, которые при сканировании дадут мне подробную информацию.
Предположим, поисковый URL
example.com/city1/search.html?cat=category1&locality=location1&page=1
Это означает, что может быть city2, city3 и т. Д., Категория может быть category2, category3 и т. Д. И т. Д. Для местоположения и страницы.
Я собрал все города, категории, места и страницы, которые можно увеличивать до тех пор, пока результат не станет нулевым.
После получения всех URL-адресов мне придется выкопать подробную информацию из каждого URL-адреса. Я видел, что определенная необходимая информация доступна как часть JavaScript.
Теперь я видел node.io, jsdom и phantomjs. Я также видел yql. Поскольку я новичок в этом, пожалуйста, предложите мне из вашего опыта, который является идеальным в этом сценарии.
Если бы вы могли привести какой-то пример, это было бы здорово.
1 ответ
PhantomJS может запускать javascript в URL-адресе, который вы ему даете, что очень полезно, если URL-адрес содержит содержимое javascript/ajax. YQL не запускает на сайте javascript/ajax, но быстро что-то поднять