Как загрузить результаты поиска на Google scholar, используя r?

Я хотел бы извлечь первые 100 результатов (скажем) поиска Google Scholar с использованием R. Кто-нибудь знает, как это сделать?

Чтобы быть точным, мне просто нужно название статьи, авторов и количество цитирований.

Ps это будет законно?

5 ответов

Решение

Пожалуйста, рассмотрите обновленный биобакет-пост:

http://thebiobucket.blogspot.com/2011/11/r-function-google-scholar-webscraper.html

Есть некоторые скребки Python и Perl, которые вы можете адаптировать, ссылки на которые можно найти по адресу http://bmb-common.blogspot.com/2011/02/does-google-scholar-suck-or-am-i-just.html

Вы можете определенно извлечь HTML-содержимое страницы, используя RCurl, и проанализировать их, используя RXML, как предложено Btibert3. Единственная проблема, с которой вы можете столкнуться, заключается в том, что Google не позволит вам выполнять запросы "роботизированным" способом. После 200 запросов в Google за короткий промежуток времени результаты больше не будут возвращаться. Может быть, это отличается от Google Scholar, но я сомневаюсь, что так...

Я не могу говорить о законности вашей задачи, но есть несколько способов сделать это. Хотя я не силен в XPath, это может быть лучшим способом. Я считаю, что вы можете использовать пакет XML для получения содержимого страницы и использовать XPath для извлечения данных нужных вам элементов.

Например, я использую Chrome для браузера, и когда я осматривал страницу с помощью Инструментов разработчика, на странице действительно была структура с данными, скрытыми внутри различных тегов, которые вы действительно сможете легко использовать, используя XPath.

Проверьте эту ссылку для примера использования XPath.

HTH и удачи

Решение было недавно опубликовано здесь:

http://thebiobucket.blogspot.com/2011/11/visually-examine-google-scholar-search.html

Другие вопросы по тегам