Исправление сломанного HTML в Python - Beautifulsoup не работает

Я заинтересован в извлечении текста из этой таблицы: https://ows.doleta.gov/unemploy/trigger/2011/trig_100211.html а также другим, кому это нравится.

Я написал быстрый скрипт на python, который работает для других таблиц, отформатированных аналогичным образом:

    state = ""
    weeks = ""
    edate = "" 
    pdate = url[-11:]
    pdate = pdate[:-5]

    table = soup.find("table") 

    for row in table.findAll('tr'):     
        cells = row.findAll("td")
        if len(cells) == 13: 
            state = row.find("th").find(text=True) 
            weeks = cells[11].find(text=True) 
            edate = cells[12].find(text=True)
            try:   
                print pdate, state, weeks, edate 
                f.writerow([pdate, state, weeks, edate])
            except:  
                print state[1] + " error"  

Но скрипт не работает для этой таблицы, потому что теги разбиты на половину строк. Половина строк отформатирована без тегов, обозначающих начало строки:

</tr> #end of last row, on State0  
<td headers = "State1 no info", attributes> <FONT attributes> text </FONT> </td>
<td headers = "State1 no info", attributes> <FONT attributes> text </FONT> </td>
<td headers = "State1 no info", attributes> <FONT attributes> text </FONT> </td>
<td headers = "State1 no info", attributes> <FONT attributes> text </FONT> </td>
</tr> #theoretically, end of row about State1 

Поскольку половина строк не отформатирована должным образом, BeautifulSoup игнорирует их. Я пытался исправить проблему с приборкой, но у BeautifulSoup проблемы с чтением кода, который он предлагает. Я думал об исправлении проблемы, генерируя новую строку с тегами в нужных местах, но я не уверен, как это сделать.

Какие-либо предложения?

1 ответ

Поскольку разные парсеры могут свободно обрабатывать сломанный HTML по своему усмотрению, в этих случаях часто полезно изучить, как они это делают, прежде чем пытаться исправить это самостоятельно.

В этом случае вы можете быть заинтересованы в том, как html5lib обрабатывает это - мне кажется, что он вставляет недостающие <tr> элементы вместо отбрасывания всех осиротевших <td> такие элементы, как lxml (по умолчанию).

soup = BeautifulSoup(text) #default parser - lxml

soup.table.find_all('tr')[9]
Out[31]: 
<tr bgcolor="#C0C0C0">
<td align="center" headers="Arizona noinfo" width="25"><font size="-2"> </font></td>
<td align="center" headers="Arizona noinfo" width="25"><font size="-2"> </font></td>
<td align="center" headers="Arizona noinfo" width="25"><font size="-2"> </font></td>
<th align="left" id="Arizona " width="100"><font size="-2">Arizona </font></th>
<td align="center" headers="Arizona noinfo" width="50"><font size="-2">2</font></td>
<td align="center" headers="Arizona noinfo" width="50"><font size="-2">2</font></td>
<td align="center" headers="Arizona 13_week_IUR indicators" width="50"><font size="-2">3.03</font></td>
<td align="center" headers="Arizona pct_of_prior_2years indicators" width="50"><font size="-2">79</font></td>
<td align="center" headers="Arizona 3_mo_satur indicators" width="50"><font size="-2">9.3</font></td>
<td align="center" headers="Arizona year pct_of_prior indicators" width="50"><font size="-2">94</font></td>
<td align="center" headers="Arizona 2nd_year pct_of_prior indicators" width="50"><font size="-2">93</font></td>
<td align="center" headers="Arizona 2nd_year pct_of_prior indicators" width="50"><font size="-2">155</font></td>
<td align="center" headers="Arizona avail_wks pct_of_prior indicators noinfo" width="50"><font size="-2"> </font></td>
<td align="center" headers="Arizona dates periods status" width="100"><font size="-2">E 06-11-2011</font></td>
</tr>

soup = BeautifulSoup(text, 'html5lib')

soup.table.find_all('tr')[9] #same path, different result!
Out[33]: 
<tr><td align="center" headers="Alaska noinfo" width="25"><font size="-2"> </font></td>
<td align="center" headers="Alaska noinfo" width="25"><font size="-2"> </font></td>
<td align="center" headers="Alaska noinfo" width="25"><font size="-2"> </font></td>
<th align="left" id="Alaska " width="100"><font size="-2">Alaska </font></th>
<td align="center" headers="Alaska noinfo" width="50"><font size="-2">2</font></td>
<td align="center" headers="Alaska noinfo" width="50"><font size="-2">2</font></td>
<td align="center" headers="Alaska 13_week_IUR indicators" width="50"><font size="-2">3.82</font></td>
<td align="center" headers="Alaska pct_of_prior_2years indicators" width="50"><font size="-2">90</font></td>
<td align="center" headers="Alaska 3_mo_satur indicators" width="50"><font size="-2">7.6</font></td>
<td align="center" headers="Alaska year pct_of_prior indicators" width="50"><font size="-2">96</font></td>
<td align="center" headers="Alaska 2nd_year pct_of_prior indicators" width="50"><font size="-2">95</font></td>
<td align="center" headers="Alaska 2nd_year pct_of_prior indicators" width="50"><font size="-2">117</font></td>
<td align="center" headers="Alaska avail_wks pct_of_prior indicators noinfo" width="50"><font size="-2"> </font></td>
<td align="center" headers="Alaska dates periods status" width="100"><font size="-2">E 06-11-2011</font></td>
</tr>

Больше на bs4 docs: Различия между парсерами. Так как эта таблица выглядит нормально, когда отображается в браузере, и html5lib пытается анализировать страницы так же, как это делает браузер, вероятно, это безопасная ставка на то, что вы хотите.

Другие вопросы по тегам