В поисках статей, связанных с языком вики из Diki
Поиск полного списка статей Википедии на английском языке с соответствующими статьями на языках, отличных от английского, таких как французский и испанский, является проблемой, и они не могут ответить на этот вопрос. Вы можете найти несколько похожих вопросов, но большинство из них относятся к предыдущей структуре Википедии, а остальные остались без правильного ответа.
Мы можем скачать дамп файлов английских и испанских статей Википедии отсюда: Wiki на английском и Wiki на испанском.
В enwiki есть также некоторые данные, называемые langlinks aka sitelinks, а также eswiki с целью поиска статей, связанных с языками общения. Но не ясно, как использовать их, чтобы найти связанные между языком статьи (испанская статья, связанная с каждой английской). Схемы Langlinks похожи на:
CREATE TABLE `langlinks` (
`ll_from` int(10) unsigned NOT NULL DEFAULT '0',
`ll_lang` varbinary(20) NOT NULL DEFAULT '',
`ll_title` varbinary(255) NOT NULL DEFAULT '',
UNIQUE KEY `ll_from` (`ll_from`,`ll_lang`),
KEY `ll_lang` (`ll_lang`,`ll_title`)
) ENGINE=InnoDB DEFAULT CHARSET=binary;
Связана ли запись со специальным полем 'll_from' на английском языке с записью с аналогичным полем 'll_from' на испанском языке? если да, то почему я не могу найти записи с похожим полем ll_from в этих двух файлах langlinks?
Опять же, как использовать эти файлы langlinks для поиска статей, связанных с языками общения? Я не хочу использовать другие инструменты, такие как инструментарий Wikidata.
1 ответ
Эта страница полезна: Руководство: таблица langlinks
Поляll_from page_id ссылающейся страницы.
ll_lang Код языка цели в стандарте ISO 639-1.
ll_title Название цели, включая пространство имен (стиль FULLPAGENAMEE).
Как показано в схеме, комбинация ll_lang и ll_title уникальна.