Описание тега wikimedia-dumps
0
ответов
Разбор данных из вики-дамп XML с помощью C#
Я пытаюсь извлечь псевдонимы министра иностранных дел в соответствующих странах. Я нашел информацию здесь, в Википедии. Я также нашел XML-файл дампа, и ссылка на XML-представление страницы "Foreign_minister": https://en.wikipedia.org/w/api.php?actio…
04 ноя '15 в 09:31
1
ответ
Страница википедии для отображения базы данных категорий
Я искал базу данных, которая может помочь мне получить список всех категорий, к которым принадлежит страница, или всех страниц, представленных в категории. Это не страница базы данных enwiki-latest-page.sql, и я пытаюсь избежать использования дампа …
04 ноя '13 в 23:31
1
ответ
Ошибка структуры извлечения DBPedia во время извлечения DBPedia Dump
Работая над структурой извлечения DBpedia, я сталкиваюсь с проблемами с файлами csv из Core Dataset. Я заинтересован в извлечении данных (в моем случае, резюме всей страницы википедии компании) из дампов dbpedia (формат RDF). Я следую инструкциям DB…
04 фев '15 в 09:46
1
ответ
Обработка дампов вики с помощью gwtwiki Ошибка "Использование: Parser <XML-FILE>"
Я пытаюсь обработать файл дампа Викимедиа (например: http://dumps.wikimedia.org/enwiki/20150304/enwiki-20150304-pages-meta-history9.xml-p000897146p000925000.bz2), используя gwtwiki и java. Я довольно новичок в Java (я мог понимать и писать простые с…
06 июн '15 в 19:08
0
ответов
Получение Wikidata инкрементных троек
Я хотел бы знать, возможно ли получить последние инкрементные n-тройные дампы Wikidata. Я использую Wikidata Toolkit, чтобы загрузить последнюю версию дампов и автоматически конвертировать их в n-тройные файлы (используя RdfSerializationExample), но…
12 янв '15 в 15:48
3
ответа
Как разобрать огромный XML-файл (на ходу) с помощью Python
У меня есть огромный XML-файл (текущий дамп Википедии). Этот xml, имеющий размер около 45 ГБ, представляет все данные текущей википедии. Первые несколько строк файла (вывод больше): <mediawiki xmlns="http://www.mediawiki.org/xml/export-0.8/" xmln…
08 апр '13 в 23:36
1
ответ
Wikipedia XML Dump, где взять переводы для директив по устранению неоднозначности?
В статьях дампа XML Википедии, в которых есть неоднозначность, есть директива {{disambiguation}} где-то в их содержании. Это просто для английской википедии. Однако эта директива меняется в зависимости от языка, например, в испанской википедии стать…
16 дек '15 в 16:18
1
ответ
Regex (или нет?): Кодировать все < > & в XML-файле и сохранять разметку XML
Я имитирую большой XML-файл, который я хочу импортировать в MediaWiki. Файл готов, но содержимое в <text>content</text> еще осталось < а также > Я должен кодировать первым. Мне бы хотелось, чтобы шаг кодирования выполнялся с помощь…
22 фев '15 в 16:46
0
ответов
Как получить временную метку отсечения или lastrevid для заданного дампа JSON Wikidata?
Я использую Wikidata, обогащенную другими источниками данных, и я должен загрузить весь дамп JSON Wikidata в мою базу данных dev graph. Это легко, и как только это будет сделано, я хочу, чтобы моя копия обновлялась, запрашивая конечные точки API Rec…
13 фев '18 в 08:29
0
ответов
Как получить все статьи Википедии из категории и подкатегории, используя Python?
Я пытаюсь получить все статьи Википедии для категории и ее подкатегорий. В настоящее время я выяснил незначительную часть проблемы, которая заключается в использовании вики-API. Например, чтобы найти категорию: география, я использовал API, чтобы на…
26 май '16 в 02:35
2
ответа
Многопоточная свалка из Википедии
Я скачал дамп немецкой википедии dewiki-20151102-pages-article-multistream.xml. Мой короткий вопрос: что означает "многопотоковость" в данном случае?
11 ноя '15 в 00:14
2
ответа
Извлечение статистики просмотра страниц Викимедиа
Википедия предоставляет все свои просмотры страниц в почасовом текстовом файле. (См., Например, http://dumps.wikimedia.org/other/pagecounts-raw/2014/2014-01/) Для проекта необходимо извлечь ключевые слова и связанные с ними просмотры страниц за 2014…
19 май '15 в 18:26
1
ответ
Используйте изображение Викимедиа на моем сайте
Итак, у меня есть URL-адрес общего ресурса Викимедиа (который на самом деле является просто оберткой для реального изображения), например: https://commons.wikimedia.org/wiki/File:Nine_inch_nails_-_Staples_Center_-_11-8-13_(10755555065_16053de956_o).…
11 июн '15 в 15:54
1
ответ
В поисках статей, связанных с языком вики из Diki
Поиск полного списка статей Википедии на английском языке с соответствующими статьями на языках, отличных от английского, таких как французский и испанский, является проблемой, и они не могут ответить на этот вопрос. Вы можете найти несколько похожи…
11 фев '18 в 08:35
1
ответ
Обработка иерархического XML-документа с помощью XPATH в Java. Эффективность?
Варианты этого вопроса уже задавались здесь несколько раз, но мой вопрос больше относится к общей эффективности использования XPATH в Java. Моя задача: взять статьи в Википедии о географических местоположениях и создать из них иерархическую структур…
16 дек '10 в 06:57
1
ответ
Есть ли какой-нибудь способ получить статистику просмотров страниц в Википедии на странице в формате *country* (вместо простого языка)?
Например, я вижу dumps.wikimedia.org/other/pagecounts-raw/, но там нет данных по конкретной стране...
11 фев '15 в 21:01
1
ответ
Исключение JWPL при доступе к Википедии
Я тестирую JWPL API с помощью примера Hello World, приведенного в руководствах: https://code.google.com/p/jwpl/source/browse/trunk/de.tudarmstadt.ukp.wikipedia.api/src/main/java/de/tudarmstadt/ukp/wikipedia/api/tutorial/T1a_HelloWorld.java Но я полу…
04 июн '15 в 06:35
1
ответ
Spark и Python пытаются разобрать википедию с помощью gensim
Исходя из моего предыдущего вопроса, Spark и Python используют собственный формат файла / генератор в качестве входных данных для RDD. Я думаю, что я должен иметь возможность анализировать практически любой ввод с помощью sc.textFile(), а затем испо…
05 окт '14 в 13:27
1
ответ
Где найти источник данных dbpedia
Я хотел бы сравнить набор данных dbpedia 2015-10 ( http://wiki.dbpedia.org/Downloads2015-10) с исходным источником википедии. Предоставленная ссылка ( http://services-resources/datasets/dataset-2015-10/dump-dates-dbpedia-2015-10) в данный момент нед…
22 апр '16 в 19:47
1
ответ
Извлекайте связанные статьи на разных языках, используя Wikidata Toolkit
Я пытаюсь извлечь статьи, связанные с языками, в дамп Wikidata. После поиска в Интернете я обнаружил, что существует инструмент под названием Wikidata Toolkit, который помогает работать с данными такого типа. Но нет информации о том, как найти соотв…
22 янв '18 в 17:07