Как прочитать некоторую часть веб-страницы и сохранить ее текст в файле Excel
Я скачал какой-то веб-сайт с помощью программного обеспечения для копирования веб-сайтов. Я хочу извлечь некоторую информацию со всех страниц.
Предположим, что есть много страниц продукта, и я хочу собрать только информацию о продукте со всех страниц и сохранить ее в файле Excel.
Я хочу знать, каковы возможные способы сделать это. Мой друг сказал мне, что он может написать какой-нибудь сценарий и воплотить его в жизнь, но я не понимаю, каким образом любой сценарий может решить всю эту задачу.
Существует ли какое-либо свободное программное обеспечение или какой-либо код, который может выполнять эту работу. Я очень хорошо знаю Java, если я смогу сделать это с помощью Java, написав код, то, пожалуйста, предоставьте некоторые рекомендации.
2 ответа
Вы, вероятно, не хотите использовать Java, но JavaScript вместо этого, потому что страницы продукта являются веб-страницами, поэтому вам, вероятно, будет удобнее работать с языком браузера. Если бы это был я, я бы подошел к этому так:
1 - Написать главный JS-скрипт, который загружает все страницы, по одной за раз.
2 - На каждой странице выберите эту информацию о продукте (возможно, что-то вроде $('#productID') и т. Д.)
3 - Поместите их в формат JSON и экспортируйте в CSV с какой-нибудь сторонней библиотекой (или, возможно, напишите некоторые коды самостоятельно). Пример одной такой библиотеки: http://www.zachhunter.com/2011/06/json-to-csv/
Взгляните на JSoup, библиотеку Java для документов HTML.
Вы найдете много документации на их сайте.
Вы захотите узнать о CSS-селекторах, чтобы выбрать конкретные элементы из документа, примеры см. http://jsoup.org/cookbook/extracting-data/selector-syntax
А затем запишите собранные данные в виде значений через запятую в текстовый файл, который вы можете загрузить в Excel.