Описание тега wikimedia-dumps

0 ответов

Разбор данных из вики-дамп XML с помощью C#

Я пытаюсь извлечь псевдонимы министра иностранных дел в соответствующих странах. Я нашел информацию здесь, в Википедии. Я также нашел XML-файл дампа, и ссылка на XML-представление страницы "Foreign_minister": https://en.wikipedia.org/w/api.php?actio…
1 ответ

Страница википедии для отображения базы данных категорий

Я искал базу данных, которая может помочь мне получить список всех категорий, к которым принадлежит страница, или всех страниц, представленных в категории. Это не страница базы данных enwiki-latest-page.sql, и я пытаюсь избежать использования дампа …
04 ноя '13 в 23:31
1 ответ

Ошибка структуры извлечения DBPedia во время извлечения DBPedia Dump

Работая над структурой извлечения DBpedia, я сталкиваюсь с проблемами с файлами csv из Core Dataset. Я заинтересован в извлечении данных (в моем случае, резюме всей страницы википедии компании) из дампов dbpedia (формат RDF). Я следую инструкциям DB…
04 фев '15 в 09:46
1 ответ

Обработка дампов вики с помощью gwtwiki Ошибка "Использование: Parser <XML-FILE>"

Я пытаюсь обработать файл дампа Викимедиа (например: http://dumps.wikimedia.org/enwiki/20150304/enwiki-20150304-pages-meta-history9.xml-p000897146p000925000.bz2), используя gwtwiki и java. Я довольно новичок в Java (я мог понимать и писать простые с…
06 июн '15 в 19:08
0 ответов

Получение Wikidata инкрементных троек

Я хотел бы знать, возможно ли получить последние инкрементные n-тройные дампы Wikidata. Я использую Wikidata Toolkit, чтобы загрузить последнюю версию дампов и автоматически конвертировать их в n-тройные файлы (используя RdfSerializationExample), но…
3 ответа

Как разобрать огромный XML-файл (на ходу) с помощью Python

У меня есть огромный XML-файл (текущий дамп Википедии). Этот xml, имеющий размер около 45 ГБ, представляет все данные текущей википедии. Первые несколько строк файла (вывод больше): &lt;mediawiki xmlns="http://www.mediawiki.org/xml/export-0.8/" xmln…
08 апр '13 в 23:36
1 ответ

Wikipedia XML Dump, где взять переводы для директив по устранению неоднозначности?

В статьях дампа XML Википедии, в которых есть неоднозначность, есть директива {{disambiguation}} где-то в их содержании. Это просто для английской википедии. Однако эта директива меняется в зависимости от языка, например, в испанской википедии стать…
1 ответ

Regex (или нет?): Кодировать все < > & в XML-файле и сохранять разметку XML

Я имитирую большой XML-файл, который я хочу импортировать в MediaWiki. Файл готов, но содержимое в &lt;text&gt;content&lt;/text&gt; еще осталось &lt; а также &gt; Я должен кодировать первым. Мне бы хотелось, чтобы шаг кодирования выполнялся с помощь…
22 фев '15 в 16:46
0 ответов

Как получить временную метку отсечения или lastrevid для заданного дампа JSON Wikidata?

Я использую Wikidata, обогащенную другими источниками данных, и я должен загрузить весь дамп JSON Wikidata в мою базу данных dev graph. Это легко, и как только это будет сделано, я хочу, чтобы моя копия обновлялась, запрашивая конечные точки API Rec…
0 ответов

Как получить все статьи Википедии из категории и подкатегории, используя Python?

Я пытаюсь получить все статьи Википедии для категории и ее подкатегорий. В настоящее время я выяснил незначительную часть проблемы, которая заключается в использовании вики-API. Например, чтобы найти категорию: география, я использовал API, чтобы на…
26 май '16 в 02:35
2 ответа

Многопоточная свалка из Википедии

Я скачал дамп немецкой википедии dewiki-20151102-pages-article-multistream.xml. Мой короткий вопрос: что означает "многопотоковость" в данном случае?
11 ноя '15 в 00:14
2 ответа

Извлечение статистики просмотра страниц Викимедиа

Википедия предоставляет все свои просмотры страниц в почасовом текстовом файле. (См., Например, http://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-01/) Для проекта необходимо извлечь ключевые слова и связанные с ними просмотры страниц за 2014…
19 май '15 в 18:26
1 ответ

Используйте изображение Викимедиа на моем сайте

Итак, у меня есть URL-адрес общего ресурса Викимедиа (который на самом деле является просто оберткой для реального изображения), например: https://commons.wikimedia.org/wiki/File:Nine_inch_nails_-_Staples_Center_-_11-8-13_(10755555065_16053de956_o).…
1 ответ

В поисках статей, связанных с языком вики из Diki

Поиск полного списка статей Википедии на английском языке с соответствующими статьями на языках, отличных от английского, таких как французский и испанский, является проблемой, и они не могут ответить на этот вопрос. Вы можете найти несколько похожи…
1 ответ

Обработка иерархического XML-документа с помощью XPATH в Java. Эффективность?

Варианты этого вопроса уже задавались здесь несколько раз, но мой вопрос больше относится к общей эффективности использования XPATH в Java. Моя задача: взять статьи в Википедии о географических местоположениях и создать из них иерархическую структур…
16 дек '10 в 06:57
1 ответ
1 ответ

Исключение JWPL при доступе к Википедии

Я тестирую JWPL API с помощью примера Hello World, приведенного в руководствах: https://code.google.com/p/jwpl/source/browse/trunk/de.tudarmstadt.ukp.wikipedia.api/src/main/java/de/tudarmstadt/ukp/wikipedia/api/tutorial/T1a_HelloWorld.java Но я полу…
04 июн '15 в 06:35
1 ответ

Spark и Python пытаются разобрать википедию с помощью gensim

Исходя из моего предыдущего вопроса, Spark и Python используют собственный формат файла / генератор в качестве входных данных для RDD. Я думаю, что я должен иметь возможность анализировать практически любой ввод с помощью sc.textFile(), а затем испо…
05 окт '14 в 13:27
1 ответ

Где найти источник данных dbpedia

Я хотел бы сравнить набор данных dbpedia 2015-10 ( http://wiki.dbpedia.org/Downloads2015-10) с исходным источником википедии. Предоставленная ссылка ( http://services-resources/datasets/dataset-2015-10/dump-dates-dbpedia-2015-10) в данный момент нед…
22 апр '16 в 19:47
1 ответ

Извлекайте связанные статьи на разных языках, используя Wikidata Toolkit

Я пытаюсь извлечь статьи, связанные с языками, в дамп Wikidata. После поиска в Интернете я обнаружил, что существует инструмент под названием Wikidata Toolkit, который помогает работать с данными такого типа. Но нет информации о том, как найти соотв…