Загрузка изображений из Wikimedia Commons

Кто-нибудь знает способ программной загрузки изображений из Wikimedia Commons без регистрации учетной записи Bot? Похоже, что единственный способ получить одобрение для учетной записи бота - это добавить или изменить информацию, уже имеющуюся в Викимедиа. Если вы попытаетесь загрузить любые изображения без учетной записи бота, используя некоторые библиотеки api, вы получите сообщения об ошибках вместо изображений. Похоже, они блокируют кого-то, не заходящего из браузера? Кто-нибудь еще имеет опыт работы с этим? Я что-то здесь упускаю?

5 ответов

Решение

Попробуйте объяснить, что именно вы хотите сделать? А что ты пробовал? Какое сообщение об ошибке вы получили? Вы не очень ясно...

Какие библиотеки вы пробовали? Если вы не агрессивны, нет никаких ограничений в загрузке контента WM. Я никогда не слышал о каких-либо ограничениях. Некоторым агентам пользователей запрещено редактировать, чтобы избежать глупого спама, но на самом деле я никогда не слышал об ограничениях на загрузку.

Если вы пытаетесь очистить огромное количество изображений, загружая их через Commons, вы делаете это неправильно (тм). Если вы пытаетесь получить несколько изображений, где-то от 10 до 200, вы должны быть в состоянии написать достойный инструмент в несколько строк кода, при условии, что вы соблюдаете требование регулирования: когда API говорит вам замедлиться, если вы этого не сделаете, системные администраторы, вероятно, выгонят вас.

Если вам нужен полный дамп образа, (мы говорим о нескольких ТБ), попробуйте задать вопрос по wikitech-l. У нас были доступные торренты, когда было меньше изображений, теперь это более сложно, но все же выполнимо.

О счетах ботов. Как глубоко вы посмотрели в системе? Вы нуждаетесь в учетной записи бота для быстрого, неконтролируемого редактирования. Привилегии ботов также открывают несколько возможностей, таких как увеличение размера запросов. Но помните: аккаунт бота? это просто расширенная учетная запись пользователя. Вы пробовали запустить что-нибудь с классическим аккаунтом?

Сделав это сам, я чувствую, что должен поделиться:

http://www.mediawiki.org/wiki/API:Allimages

Этот документ API заявляет, что вы можете запросить изображения:

http://en.wikipedia.org/w/api.php?action=query&list=allimages&aiprop=url&format=xml&ailimit=10&aifrom=Albert

с aiprop = url вам дается URL изображения, которое вы ищете.

Обратите внимание, что раньше была проблема с использованием LWP: это не идеологически, а практично, агенты могут создавать огромную нагрузку на уже перегруженные серверы. Существуют разумные стратегии, которые могут использовать пользователи агентов для снижения нагрузки - спросите на www.mediawiki.org, или en:Village pump - Technical

Если вам нужно от десяти до миллиона файлов, использование инструментов Магнуса Манске для определения категорий является хорошим выбором. http://tools.wmflabs.org/magnustools/can_i_haz_files.html создает список команд UNIX, которые затем можно запустить локально.

На самом деле не нашел ответ, который я ищу.. но эта страница интересна:: http://www.makeuseof.com/tag/4-free-tools-for-taking-wikipedia-offline/

Особенно #4.. но кажется, что страница закрыта.. проект мертв?

Другие вопросы по тегам