События, запускающие загрузку контента на временной шкале Facebook
Я работаю над проектом модификации Apache Nutch. Мы уже поменяли оригинальный модуль Nutch на наш, построенный с использованием HtmlUnit. Мне нужно загрузить весь сайт пользователя Facebook (например, http://www.facebook.com/profile.php?id=100002517096832), который будет проанализирован с помощью нашего собственного анализатора. К сожалению, Facebook использует механизм BigPipe (http://www.facebook.com/note.php?note_id=389414033919). Вот почему большая часть текущего сайта скрыта в тегах <.! - ->. Обычно, когда мы прокручиваем страницу Facebook, новый контент распаковывается каждый раз, когда мы собираемся достичь нижней части страницы. Я пытался использовать javascript, который прокручивает мой htmlPage (объект HtmlPage из проекта HtmlUnit), но, наконец, я понял, что прокрутка не вызывает загрузку нового контента на сайте пользователя Facebook.
Как я могу проверить, какое событие на странице вызывает загрузку контента на текущей странице Facebook? Может быть, я должен подойти к проблеме с другой стороны, например, попытаться извлечь "вещи" BigPipe самостоятельно? Вы когда-нибудь это делали?
С наилучшими пожеланиями, иглей
1 ответ
Прежде чем ответить на ваш вопрос... какой проект вы пытаетесь построить там?
Поскольку Apache Nutch - это программное обеспечение для веб-поиска с открытым исходным кодом, я думаю, что вы пытаетесь создать какую-то поисковую систему, которая очищает пользовательские профили / каналы Facebook, чтобы получить данные и сделать их доступными для поиска на каком-либо стороннем веб-сайте?
Ну, это было бы нарушением Политики платформы Facebook:
I. Особенности и функциональность
12.
Вы не должны включать данные, полученные от нас, в любую поисковую систему или каталог без нашего письменного разрешения.
Итак, у вас есть это письменное разрешение?