HTML-парсер для создания данных в формате GTFS
Существует транзитное агентство, которое не предоставляет данные о графике транзита в формате GTFS. Я хотел бы сделать приложение для Android, которое может искать в нем, поэтому этот формат будет очень полезным. В расписании транзитных данных есть веб-сайт, но, кажется, трудно отделить полезные вещи.
<td class="b stopPoint p0" background="nline.gif"><a href="line.cgi?id=1&dir=back&zero=15901&city=so&term=20141214"><img src="coming.gif" class="stopPoint" alt="A megállóhoz tartozó indulási időpontok megjelenítéséhez kérem, kattintson ide!" /></a></td>
<td class="b stopTime p0">2</td>
<td class="b stopPeakTime p0">2</td>
<td class="b stopName p0" colspan="1">Frankenburg úti aluljáró</td>
<td class="b stopTransfer p0"><img src="transfer.gif" class="iconTransfer" alt="Átszállási lehetőség a felsorolt autóbuszvonalakra" /> <a href="line.cgi?id=10&dir=to&zero=1590&city=so&term=20141214">10</a>, <a href="line.cgi?id=10Y&dir=to&zero=1590&city=so&term=20141214">10Y</a></td>
Возможно, существующий парсер для этой цели был бы полезен. Есть рабочие?
1 ответ
Спросите у транзитного агентства, могут ли они предоставить данные о расписании в более содержательном формате. У них может быть какой-то другой формат данных, который будет лучше, чем тот, который у них есть в настоящее время.
В противном случае вам, вероятно, придется написать собственный скребок / парсер для этого. Мне нравится парсинг HTML с использованием библиотеки Beautifulsoup в Python, но есть несколько способов сделать это.