В поисках статей, связанных с языком вики из Diki

Поиск полного списка статей Википедии на английском языке с соответствующими статьями на языках, отличных от английского, таких как французский и испанский, является проблемой, и они не могут ответить на этот вопрос. Вы можете найти несколько похожих вопросов, но большинство из них относятся к предыдущей структуре Википедии, а остальные остались без правильного ответа.

Мы можем скачать дамп файлов английских и испанских статей Википедии отсюда: Wiki на английском и Wiki на испанском.

В enwiki есть также некоторые данные, называемые langlinks aka sitelinks, а также eswiki с целью поиска статей, связанных с языками общения. Но не ясно, как использовать их, чтобы найти связанные между языком статьи (испанская статья, связанная с каждой английской). Схемы Langlinks похожи на:

CREATE TABLE `langlinks` (
  `ll_from` int(10) unsigned NOT NULL DEFAULT '0',
  `ll_lang` varbinary(20) NOT NULL DEFAULT '',
  `ll_title` varbinary(255) NOT NULL DEFAULT '',
   UNIQUE KEY `ll_from` (`ll_from`,`ll_lang`),
   KEY `ll_lang` (`ll_lang`,`ll_title`)
) ENGINE=InnoDB DEFAULT CHARSET=binary;

Связана ли запись со специальным полем 'll_from' на английском языке с записью с аналогичным полем 'll_from' на испанском языке? если да, то почему я не могу найти записи с похожим полем ll_from в этих двух файлах langlinks?

Опять же, как использовать эти файлы langlinks для поиска статей, связанных с языками общения? Я не хочу использовать другие инструменты, такие как инструментарий Wikidata.

1 ответ

Решение

Эта страница полезна: Руководство: таблица langlinks

Поляll_from page_id ссылающейся страницы.

ll_lang Код языка цели в стандарте ISO 639-1.

ll_title Название цели, включая пространство имен (стиль FULLPAGENAMEE).

Как показано в схеме, комбинация ll_lang и ll_title уникальна.

Другие вопросы по тегам