Как прочитать некоторую часть веб-страницы и сохранить ее текст в файле Excel

Question

Как прочитать некоторую часть веб-страницы и сохранить ее текст в файле Excel

Я скачал какой-то веб-сайт с помощью программного обеспечения для копирования веб-сайтов. Я хочу извлечь некоторую информацию со всех страниц.

Предположим, что есть много страниц продукта, и я хочу собрать только информацию о продукте со всех страниц и сохранить ее в файле Excel.

Я хочу знать, каковы возможные способы сделать это. Мой друг сказал мне, что он может написать какой-нибудь сценарий и воплотить его в жизнь, но я не понимаю, каким образом любой сценарий может решить всю эту задачу.

Существует ли какое-либо свободное программное обеспечение или какой-либо код, который может выполнять эту работу. Я очень хорошо знаю Java, если я смогу сделать это с помощью Java, написав код, то, пожалуйста, предоставьте некоторые рекомендации.

-1

java html webpage html-content-extraction

Источник

user601168 23 дек '12 в 09:14

2 ответа

Другие вопросы по тегам java html webpage html-content-extraction

user1684058 23 дек '12 в 09:22 2012-12-23 09:22 · Answer 1 · 2012-12-23 09:22

Вы, вероятно, не хотите использовать Java, но JavaScript вместо этого, потому что страницы продукта являются веб-страницами, поэтому вам, вероятно, будет удобнее работать с языком браузера. Если бы это был я, я бы подошел к этому так:

1 - Написать главный JS-скрипт, который загружает все страницы, по одной за раз.

2 - На каждой странице выберите эту информацию о продукте (возможно, что-то вроде $('#productID') и т. Д.)

3 - Поместите их в формат JSON и экспортируйте в CSV с какой-нибудь сторонней библиотекой (или, возможно, напишите некоторые коды самостоятельно). Пример одной такой библиотеки: http://www.zachhunter.com/2011/06/json-to-csv/

user24468 23 дек '12 в 09:37 2012-12-23 09:37 · Answer 2 · 2012-12-23 09:37

Взгляните на JSoup, библиотеку Java для документов HTML.

Вы найдете много документации на их сайте.

Вы захотите узнать о CSS-селекторах, чтобы выбрать конкретные элементы из документа, примеры см. http://jsoup.org/cookbook/extracting-data/selector-syntax

А затем запишите собранные данные в виде значений через запятую в текстовый файл, который вы можете загрузить в Excel.