Где я могу получить Википедию XML корпус

Я не знаю, можно ли здесь об этом спросить, но я так усердно искал это и снова и снова приходил в тупик. Я работаю над проектом по поиску информации. Я запрограммировал свою поисковую систему, но не могу ее протестировать, потому что мне нужен этот xml корпус из Википедии. Это я нашел http://www-connex.lip6.fr/~denoyer/wikipediaXML/ но это оказывается бесполезным. Пожалуйста, дайте мне знать, если кто-нибудь знает способ достать мне этот корпус

1 ответ

Страница, которую вы предоставили, похоже, представляет XML-корпус Википедии, использованный на семинаре INEX 2007 года. Я нашел этот сайт, на котором хранится набор данных Википедии, использовавшийся в 2009-2010 гг. (Я думаю, тоже кластеризация), в INEX. Я думаю, что вы можете использовать это также.

На всякий случай вы можете использовать официальный дамп XML-файла Викимедиа: англ. Wikipedia Dumps. Больше информации и другие языки: База данных Википедии Скачать

Другие вопросы по тегам