Как загрузить результаты поиска на Google scholar, используя r?
Я хотел бы извлечь первые 100 результатов (скажем) поиска Google Scholar с использованием R. Кто-нибудь знает, как это сделать?
Чтобы быть точным, мне просто нужно название статьи, авторов и количество цитирований.
Ps это будет законно?
5 ответов
Пожалуйста, рассмотрите обновленный биобакет-пост:
http://thebiobucket.blogspot.com/2011/11/r-function-google-scholar-webscraper.html
Есть некоторые скребки Python и Perl, которые вы можете адаптировать, ссылки на которые можно найти по адресу http://bmb-common.blogspot.com/2011/02/does-google-scholar-suck-or-am-i-just.html
Вы можете определенно извлечь HTML-содержимое страницы, используя RCurl, и проанализировать их, используя RXML, как предложено Btibert3. Единственная проблема, с которой вы можете столкнуться, заключается в том, что Google не позволит вам выполнять запросы "роботизированным" способом. После 200 запросов в Google за короткий промежуток времени результаты больше не будут возвращаться. Может быть, это отличается от Google Scholar, но я сомневаюсь, что так...
Я не могу говорить о законности вашей задачи, но есть несколько способов сделать это. Хотя я не силен в XPath, это может быть лучшим способом. Я считаю, что вы можете использовать пакет XML для получения содержимого страницы и использовать XPath для извлечения данных нужных вам элементов.
Например, я использую Chrome для браузера, и когда я осматривал страницу с помощью Инструментов разработчика, на странице действительно была структура с данными, скрытыми внутри различных тегов, которые вы действительно сможете легко использовать, используя XPath.
Проверьте эту ссылку для примера использования XPath.
HTH и удачи
Решение было недавно опубликовано здесь:
http://thebiobucket.blogspot.com/2011/11/visually-examine-google-scholar-search.html