Извлечение статистики просмотра страниц Викимедиа

Википедия предоставляет все свои просмотры страниц в почасовом текстовом файле. (См., Например, http://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-01/)

Для проекта необходимо извлечь ключевые слова и связанные с ними просмотры страниц за 2014 год. Но, видя, что один файл (представляющий 1 час, следовательно, всего 24*365 файлов) составляет ~80 МБ. Это может быть трудной задачей, делая руководство.

Мои вопросы: 1. Есть ли способ загрузить файлы автоматически? (файлы правильно структурированы, это может быть полезно)

2 ответа

Скачать? Конечно, это легко

wget -r -np http://dumps.wikimedia.org/other/pagecounts-raw/

Рекурсивный Wget делает это. Обратите внимание, что эти файлы устарели сейчас; вы, вероятно, хотите использовать http://dumps.wikimedia.org/other/pagecounts-all-sites/ вместо этого.

Я работал над этим проектом: https://github.com/idio/wikiviews вы просто называете это как python wikiviews 2 2015 и он загрузит все файлы за февраль 2015 года и объединит их в один файл.

Другие вопросы по тегам