Как написать программу на Python, которая "очищает" результаты веб-сайта от всех возможных комбинаций, выбранных из выпадающих меню?

Существует веб-сайт, который утверждает, что может прогнозировать приблизительную зарплату человека на основе следующих критериев, представленных в форме раскрывающегося списка.

  1. Возраст: 5 вариантов
  2. Образование: 3 варианта
  3. Секс: 3 варианта
  4. Опыт работы: 4 варианта
  5. Национальность: 12 вариантов

При нажатии на Submit Кнопка, веб-сайт дает кучу текста в качестве вывода на новой странице с оценкой оклада в цифрах.

Итак, технически существует 5*3*3*4*12 = 2160 точек данных. Я хочу получить это и оформить в листе Excel. Затем я запускаю алгоритм регрессии, чтобы угадать функцию, которую использовал этот сайт. Это то, чего я с нетерпением жду с помощью этого упражнения. Это полностью для целей обучения, так как я заинтересован в изучении этих инструментов.

Но я не знаю, как это сделать? Любой соответствующий учебник, документация, руководство поможет! Я программирую на python, и я бы хотел использовать его для решения этой задачи!

Спасибо!

1 ответ

Решение

Если вам неудобно запрашивать у них базу данных, как предложил roganjosh:) используйте Selenium. Напишите на Python скрипт, который контролирует Web Driver и многократно отправляет запросы на все возможные комбинации. Сценарий довольно прост, просто вложенный цикл для каждого типа параметра / раскрывающегося списка.

Если вы уверены, что значения каждого типа не зависят друг от друга, проверьте, какой запрос отправляется на сервер. Если это простой URL в кодировке, как age=...&sex=...&..., тогда селен не нужен. Просто сгенерируйте такие URL а для всех возможных комбинаций и позвоните на сервер.

Другие вопросы по тегам