Как написать программу на Python, которая "очищает" результаты веб-сайта от всех возможных комбинаций, выбранных из выпадающих меню?
Существует веб-сайт, который утверждает, что может прогнозировать приблизительную зарплату человека на основе следующих критериев, представленных в форме раскрывающегося списка.
- Возраст: 5 вариантов
- Образование: 3 варианта
- Секс: 3 варианта
- Опыт работы: 4 варианта
- Национальность: 12 вариантов
При нажатии на Submit
Кнопка, веб-сайт дает кучу текста в качестве вывода на новой странице с оценкой оклада в цифрах.
Итак, технически существует 5*3*3*4*12 = 2160 точек данных. Я хочу получить это и оформить в листе Excel. Затем я запускаю алгоритм регрессии, чтобы угадать функцию, которую использовал этот сайт. Это то, чего я с нетерпением жду с помощью этого упражнения. Это полностью для целей обучения, так как я заинтересован в изучении этих инструментов.
Но я не знаю, как это сделать? Любой соответствующий учебник, документация, руководство поможет! Я программирую на python, и я бы хотел использовать его для решения этой задачи!
Спасибо!
1 ответ
Если вам неудобно запрашивать у них базу данных, как предложил roganjosh:) используйте Selenium. Напишите на Python скрипт, который контролирует Web Driver и многократно отправляет запросы на все возможные комбинации. Сценарий довольно прост, просто вложенный цикл для каждого типа параметра / раскрывающегося списка.
Если вы уверены, что значения каждого типа не зависят друг от друга, проверьте, какой запрос отправляется на сервер. Если это простой URL в кодировке, как age=...&sex=...&...,
тогда селен не нужен. Просто сгенерируйте такие URL а для всех возможных комбинаций и позвоните на сервер.