Список из сотен местных властей, которые хотят автоматизировать захват URL-адресов для каждой из своих страниц утилизации. Как бы вы это сделали?
Основная задача - создать базу данных веб-страниц по переработке / сбору отходов каждого местного органа власти, чтобы мы могли направлять пользователей на них для получения дополнительной информации в рамках поискового инструмента.
Однако первая задача - взять список из сотен местных властей и найти для каждой из них главную страницу по утилизации.
В 99% случаев поиск в Google по запросу "название органа" + "совет" + "переработка" вернет желаемую страницу как первый результат поиска в Google.
До сих пор я пробовал использовать сканер (Powerbot; www.powrbot.com), который мог бы взять список имен в файле CSV длиной до 200 и после сканирования создать файл CSV с URL-адресом авторитетного сайта, вики и другой информацией. взято из вики.
Однако это возвращало только домен верхнего уровня для каждого веб-сайта совета / органа, и поскольку каждый орган имеет свое соглашение об именах, это не так просто, как конкатенация TLD со стандартным суффиксом поддомена. Также актуально то, что результаты поиска Google больше не отображаются на веб-странице по умолчанию как весь веб-адрес (я полагаю, чтобы предотвратить сканирование).
Я буду делать это вручную, пока не найду лучшее решение.
Дополнительные бонусные задачи (которые я, конечно, не могу автоматизировать без особой работы):
Выполните отдельный поиск, чтобы узнать, предлагает ли местная власть небольшую переработку электроэнергии на обочине дороги (часто это можно определить, прочитав описание на первой странице результатов Google).
Выполните отдельный поиск, чтобы узнать, предлагает ли местный орган власти вывоз крупногабаритных отходов на обочине дороги (часто можно определить, прочитав первый или второй результат на первой странице результатов Google).
Выполните отдельный поиск, чтобы узнать, поддерживает ли местный орган власти инициативы по повторному использованию (часто можно определить, прочитав описание первой страницы результатов Google)
Спасибо за любую помощь в этом, заранее очень ценим!