Отправка ASP.net POST с запросами Python

Я очищаю старый сайт ASP.net с помощью модуля запросов Python.

Я потратил более 5 часов, пытаясь понять, как имитировать этот запрос POST, но безрезультатно. Делая это так, как я это делаю ниже, я, по сути, получаю сообщение "Ни один элемент не соответствует этой ссылке".

Любая помощь будет принята с благодарностью - вот запрос и мой код, некоторые вещи изменены с учетом краткости и / или конфиденциальности:

Мой собственный код:

import requests

# Scraping the item number from the website, I have confirmed this is working.

#Then use the newly acquired item number to request the data.
item_url = http://www.example.com/EN/items/Pages/yourrates.aspx?vr= + item_number[0]
viewstate = r'/wEPD...' # Truncated for brevity.

# Create the appropriate request and payload.
payload = {"vr": int(item_number[0])}

item_request_body = {
        "__SPSCEditMenu": "true",
        "MSOWebPartPage_PostbackSource": "",
        "MSOTlPn_SelectedWpId": "",
        "MSOTlPn_View": 0,
        "MSOTlPn_ShowSettings": "False",
        "MSOGallery_SelectedLibrary": "",
        "MSOGallery_FilterString": "",
        "MSOTlPn_Button": "none",
        "__EVENTTARGET": "",
        "__EVENTARGUMENT": "",
        "MSOAuthoringConsole_FormContext": "",
        "MSOAC_EditDuringWorkflow": "",
        "MSOSPWebPartManager_DisplayModeName": "Browse",
        "MSOWebPartPage_Shared": "",
        "MSOLayout_LayoutChanges": "",
        "MSOLayout_InDesignMode": "",
        "MSOSPWebPartManager_OldDisplayModeName": "Browse",
        "MSOSPWebPartManager_StartWebPartEditingName": "false",
        "__VIEWSTATE": viewstate,
        "keywords": "Search our site",
        "__CALLBACKID": "ctl00$SPWebPartManager1$g_dbb9e9c7_fe1d_46df_8789_99a6c9db4b22",
        "__CALLBACKPARAM": "startvr"
    }

# Write the appropriate headers for the property information.
item_request_headers = {
    "Host": home_site,
    "Connection": "keep-alive",
    "Content-Length": len(encoded_valuation_request),
    "Cache-Control": "max-age=0",
    "Origin": home_site,
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36",
    "Content-Type": "application/x-www-form-urlencoded; charset=UTF-8",
    "Cookie": "__utma=48409910.1174413745.1405662151.1406402487.1406407024.17; __utmb=48409910.7.10.1406407024; __utmc=48409910; __utmz=48409910.1406178827.13.3.utmcsr=ratesandvallandingpage|utmccn=landingpages|utmcmd=button",
    "Accept": "*/*",
    "Referer": valuation_url,
    "Accept-Encoding": "gzip,deflate,sdch",
    "Accept-Language": "en-US,en;q=0.8"
}

    response = requests.post(url=item_url, params=payload, data=item_request_body, headers=item_request_headers)
    print response.text

Что говорит мне Chrome, как выглядит запрос:

Remote Address:202.55.96.131:80
Request URL:http://www.example.com/EN/items/Pages/yourrates.aspx?vr=123456789
Request Method:POST
Status Code:200 OK

Request Headers
Accept:*/*
Accept-Encoding:gzip,deflate,sdch
Accept-Language:en-US,en;q=0.8
Cache-Control:max-age=0
Connection:keep-alive
Content-Length:21501
Content-Type:application/x-www-form-urlencoded; charset=UTF-8
Cookie:__utma=48409910.1174413745.1405662151.1406402487.1406407024.17; __utmb=48409910.7.10.1406407024; __utmc=48409910; __utmz=48409910.1406178827.13.3.utmcsr=ratesandvallandingpage|utmccn=landingpages|utmcmd=button
Host:www.site.com
Origin:www.site.com
Referer:http://www.example.com/EN/items/Pages/yourrates.aspx?vr=123456789
User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36

Query String Parameters
vr:123456789

Form Data
__SPSCEditMenu:true
MSOWebPartPage_PostbackSource:
MSOTlPn_SelectedWpId:
MSOTlPn_View:0
MSOTlPn_ShowSettings:False
MSOGallery_SelectedLibrary:
MSOGallery_FilterString:
MSOTlPn_Button:none
__EVENTTARGET:
__EVENTARGUMENT:
MSOAuthoringConsole_FormContext:
MSOAC_EditDuringWorkflow:
MSOSPWebPartManager_DisplayModeName:Browse
MSOWebPartPage_Shared:
MSOLayout_LayoutChanges:
MSOLayout_InDesignMode:
MSOSPWebPartManager_OldDisplayModeName:Browse
MSOSPWebPartManager_StartWebPartEditingName:false
__VIEWSTATE:/wEPD...(Omitted for length)
keywords:Search our site
__CALLBACKID:ctl00$SPWebPartManager1$g_dbb9e9c7_fe1d_46df_8789_99a6c9db4b22
__CALLBACKPARAM:startvr

2 ответа

Решение

У вас слишком много параметров запроса, и вы не должны устанавливать заголовки типа контента, длины контента, хоста, источника или соединения; оставь это requests установить.

Вы также удваиваете параметры URL; либо добавить vr параметр для URL-адреса вручную или использовать params, не делай обоих.

Вполне может быть, что некоторые параметры в теле POST генерируются приложением ASP, связанным с сеансом. Я бы использовал GET-запрос с объектом Session valuation_url проанализируйте форму на этой странице, чтобы извлечь __CALLBACKID параметр. Сеанс запросов затем сохраняет любые куки, которые устанавливает сервер, и использует их повторно:

item_request_headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36",
    "Accept": "*/*",
    "Accept-Encoding": "gzip,deflate,sdch",
    "Accept-Language": "en-US,en;q=0.8"
}
payload = {"vr": int(item_number[0])}

session = requests.Session(headers=item_request_headers)

# Get form page
form_response = session.get(validation_url, params=payload) 

# parse form page; BeautifulSoup could do this for example
soup = BeautifulSoup(form_response.content)
callbackid = soup.select('input[name=__CALLBACKID]')[0]['value']

item_request_body = {
    "__SPSCEditMenu": "true",
    "MSOWebPartPage_PostbackSource": "",
    "MSOTlPn_SelectedWpId": "",
    "MSOTlPn_View": 0,
    "MSOTlPn_ShowSettings": "False",
    "MSOGallery_SelectedLibrary": "",
    "MSOGallery_FilterString": "",
    "MSOTlPn_Button": "none",
    "__EVENTTARGET": "",
    "__EVENTARGUMENT": "",
    "MSOAuthoringConsole_FormContext": "",
    "MSOAC_EditDuringWorkflow": "",
    "MSOSPWebPartManager_DisplayModeName": "Browse",
    "MSOWebPartPage_Shared": "",
    "MSOLayout_LayoutChanges": "",
    "MSOLayout_InDesignMode": "",
    "MSOSPWebPartManager_OldDisplayModeName": "Browse",
    "MSOSPWebPartManager_StartWebPartEditingName": "false",
    "__VIEWSTATE": viewstate,
    "keywords": "Search our site",
    "__CALLBACKID": callbackid,
    "__CALLBACKPARAM": "startvr"
}

item_url = 'http://www.example.com/EN/items/Pages/yourrates.aspx'

response = session.post(url=item_url, params=payload, data=item_request_body,
                        headers={'Referer': form_response.url})

Сеанс обрабатывает заголовки (установка агента пользователя и принятие параметров), только на POST с сеансом мы также добавляем заголовок реферера.

Соответствует заголовку вопроса, но не совсем ситуации автора - я хотел бы добавить еще один полезный совет к ответу Мартейна, который включает в себя некоторые общие советы по библиотеке запросов для запросов POST.

Проверка полезных данных запроса в браузере (например, вкладка «Сеть» Chrome в инструментах разработчика) может показать, что в полезных данных имеется несколько определенных ключей/полей .

Пример полезной нагрузки запроса Chrome:

      ...
"ctl00$cphMain$ctlInvoiceStatuses$lbInvoiceStatus": "AcceptedModified",
"ctl00$cphMain$ctlInvoiceStatuses$lbInvoiceStatus": "InvoiceFullyDisputed",
"ctl00$cphMain$ctlInvoiceStatuses$lbInvoiceStatus": "DisputedItemsClosed",
...

Копирование запроса браузера для точного соответствия этому аргументу полезной нагрузки/данных вашего запроса НЕ будет работать (или, по крайней мере, не даст вам ожидаемых результатов... вы все равно, скорее всего, получите ответ с кодом состояния 200) - это будет отправляйте только значение ПОСЛЕДНЕГО вхождения ключа/поля.

Запрашивает данные/полезную нагрузку, которые НЕ будут работать (или, по крайней мере, не дадут вам ожидаемых результатов):

      payload = {
   ...
   "ctl00$cphMain$ctlInvoiceStatuses$lbInvoiceStatus": "AcceptedModified",
   "ctl00$cphMain$ctlInvoiceStatuses$lbInvoiceStatus": "InvoiceFullyDisputed",
   "ctl00$cphMain$ctlInvoiceStatuses$lbInvoiceStatus": "DisputedItemsClosed",
   ...
}
r = session.post(url, headers=headers, data=payload)

Вместо этого вы должны поместить значения этих нескольких ключей/полей в список:

Запрашивает данные/полезную нагрузку, которые БУДУТ работать (или получат ожидаемые результаты):

      payload = {
   ...
   "ctl00$cphMain$ctlInvoiceStatuses$lbInvoiceStatus": ["AcceptedModified", "InvoiceFullyDisputed", "DisputedItemsClosed"],
   ...
}
r = session.post(url, headers=headers, data=payload)

... мне потребовалось несколько часов, чтобы осознать это, глубоко всматриваясь в механику веб-сайта ASP.NET и думая, что мне нужно здесь разобраться. Неа. Так что, надеюсь, просто пытаюсь сэкономить кому-то время.

Спасибо этому вопросу о переполнении стека за то, что помогли мне прийти к этому осознанию.

ПРИМЕЧАНИЕ. Вы можете точно проверить, как выглядит отправленная полезная нагрузка, посмотревr.request.bodyна объекте ответа (r, в этом случае) после вашего запроса. Вот как я понял, что мне не хватает некоторой информации (например, нескольких полей/ключей).

Другие вопросы по тегам