RSS-канал Google имеет усеченное описание
Я пытаюсь проанализировать настроение форума группы Google, на котором я работаю. Чтобы получить содержимое форума, я узнал о двух методах: 1. Веб-скрапинг из групп Google с использованием селена, но этот метод ненадежен, и Google часто меняет имена классов. 2. Использование RSS-канала.
Второй метод казался хорошим вариантом, но проблема заключалась в том, что описания RSS-канала были усечены. Есть ли способ получить полное описание без усечения? или есть какой-то другой способ получить контент из общедоступных групп гугл?
1 ответ
Тем, кто сталкивается с похожими проблемами - очисткой содержимого группы Google, я наткнулся на pthon gg_scraper 0.10.0, написанный "Matěj Cepl", который загружал содержимое группы Google в файлы MBOX. Позже я конвертировал эти файлы MBOX в файлы в формате JSON для моего использования.