Как прочитать некоторую часть веб-страницы и сохранить ее текст в файле Excel

Я скачал какой-то веб-сайт с помощью программного обеспечения для копирования веб-сайтов. Я хочу извлечь некоторую информацию со всех страниц.

Предположим, что есть много страниц продукта, и я хочу собрать только информацию о продукте со всех страниц и сохранить ее в файле Excel.

Я хочу знать, каковы возможные способы сделать это. Мой друг сказал мне, что он может написать какой-нибудь сценарий и воплотить его в жизнь, но я не понимаю, каким образом любой сценарий может решить всю эту задачу.

Существует ли какое-либо свободное программное обеспечение или какой-либо код, который может выполнять эту работу. Я очень хорошо знаю Java, если я смогу сделать это с помощью Java, написав код, то, пожалуйста, предоставьте некоторые рекомендации.

2 ответа

Вы, вероятно, не хотите использовать Java, но JavaScript вместо этого, потому что страницы продукта являются веб-страницами, поэтому вам, вероятно, будет удобнее работать с языком браузера. Если бы это был я, я бы подошел к этому так:

1 - Написать главный JS-скрипт, который загружает все страницы, по одной за раз.

2 - На каждой странице выберите эту информацию о продукте (возможно, что-то вроде $('#productID') и т. Д.)

3 - Поместите их в формат JSON и экспортируйте в CSV с какой-нибудь сторонней библиотекой (или, возможно, напишите некоторые коды самостоятельно). Пример одной такой библиотеки: http://www.zachhunter.com/2011/06/json-to-csv/

Взгляните на JSoup, библиотеку Java для документов HTML.

Вы найдете много документации на их сайте.

Вы захотите узнать о CSS-селекторах, чтобы выбрать конкретные элементы из документа, примеры см. http://jsoup.org/cookbook/extracting-data/selector-syntax

А затем запишите собранные данные в виде значений через запятую в текстовый файл, который вы можете загрузить в Excel.

Другие вопросы по тегам