Node.io, JSDOM или PhantomJs? или YQL- data.html.cssselect?

Мне нужно сканировать определенный веб-сайт, чтобы выкопать некоторую соответствующую информацию. Похоже, сначала мне нужно поискать на сайте, чтобы получить соответствующие URL, которые при сканировании дадут мне подробную информацию.

Предположим, поисковый URL

example.com/city1/search.html?cat=category1&locality=location1&page=1

Это означает, что может быть city2, city3 и т. Д., Категория может быть category2, category3 и т. Д. И т. Д. Для местоположения и страницы.

Я собрал все города, категории, места и страницы, которые можно увеличивать до тех пор, пока результат не станет нулевым.

После получения всех URL-адресов мне придется выкопать подробную информацию из каждого URL-адреса. Я видел, что определенная необходимая информация доступна как часть JavaScript.

Теперь я видел node.io, jsdom и phantomjs. Я также видел yql. Поскольку я новичок в этом, пожалуйста, предложите мне из вашего опыта, который является идеальным в этом сценарии.

Если бы вы могли привести какой-то пример, это было бы здорово.

1 ответ

PhantomJS может запускать javascript в URL-адресе, который вы ему даете, что очень полезно, если URL-адрес содержит содержимое javascript/ajax. YQL не запускает на сайте javascript/ajax, но быстро что-то поднять

Другие вопросы по тегам