Извлечение статистики просмотра страниц Викимедиа
Википедия предоставляет все свои просмотры страниц в почасовом текстовом файле. (См., Например, http://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-01/)
Для проекта необходимо извлечь ключевые слова и связанные с ними просмотры страниц за 2014 год. Но, видя, что один файл (представляющий 1 час, следовательно, всего 24*365 файлов) составляет ~80 МБ. Это может быть трудной задачей, делая руководство.
Мои вопросы: 1. Есть ли способ загрузить файлы автоматически? (файлы правильно структурированы, это может быть полезно)
2 ответа
Скачать? Конечно, это легко
wget -r -np http://dumps.wikimedia.org/other/pagecounts-raw/
Рекурсивный Wget делает это. Обратите внимание, что эти файлы устарели сейчас; вы, вероятно, хотите использовать http://dumps.wikimedia.org/other/pagecounts-all-sites/ вместо этого.
Я работал над этим проектом: https://github.com/idio/wikiviews вы просто называете это как python wikiviews 2 2015
и он загрузит все файлы за февраль 2015 года и объединит их в один файл.