Извлекайте связанные статьи на разных языках, используя Wikidata Toolkit

Я пытаюсь извлечь статьи, связанные с языками, в дамп Wikidata. После поиска в Интернете я обнаружил, что существует инструмент под названием Wikidata Toolkit, который помогает работать с данными такого типа. Но нет информации о том, как найти соответствующие статьи на разных языках. Например, статья "Дрезден" на английском языке связана со статьей "Дрезда" на итальянском. Я имею в виду, что вторая - переведенная версия первой. Я пытался использовать инструментарий, но я не мог найти никакого решения. Пожалуйста, напишите пример того, как найти эту статью.

1 ответ

Вы можете использовать дамп Wikidata [1], чтобы получить отображение статей между википедиями на нескольких языках.

например, если вы видите запись викиданных для респираторной системы [2] внизу, вы видите все статьи, относящиеся к той же теме на других языках.

Это отображение доступно в дампе викиданных. Просто скачайте дамп викиданных и получите отображение, а затем получите соответствующий текст из дампа википедии. Вы можете столкнуться с некоторыми другими проблемами, такими как разрешение перенаправлений из Википедии.

[1] https://dumps.wikimedia.org/wikidatawiki/entities/[2] https://www.wikidata.org/wiki/Q7891

Другие вопросы по тегам