Создавать элементы викиданных из записей в OpenRefine (а не строк)?

Question

Создавать элементы викиданных из записей в OpenRefine (а не строк)?

Я читал, что плагины OpenRefine Wikidata всегда работают в строковом режиме.

Я нахожусь в ситуации, когда у меня есть данные в режиме записей: запись представляет собой сериал / журнал, а строки в этих записях представляют собой различные форматы одного и того же серийного номера / журнала (как правило, бумажная и электронная версии). Каждая строка имеет уникальный идентификатор ISSN. Викиданные считают, что для серийного номера / журнала имеется только один элемент (мои записи), но нет отдельных элементов для каждого из форматов (мои строки).

При согласовании данных с Викиданными все строки одной и той же записи обычно будут соответствовать одному и тому же элементу викиданных, или ни одна из строк не будет соответствовать, или иногда будет соответствовать только одна строка записи (например, если только один ISSN формата - скажем, бумага формат - известен в Викиданных, но не в других).

Что я хотел бы сделать, так это создать элементы в Викиданных для каждой записи, для которой не было найдено результатов согласования (iow, для которых не найдено ни одной строки), а не для каждой строки. И при создании этого элемента я хотел бы добавить ISSN всех строк в этой записи.

Интересно, возможно ли это сделать? и как?

Спасибо

1

wikidata openrefine reconcile

Источник

user189723 10 окт '19 в 10:36

1 ответ

Решение

Другие вопросы по тегам wikidata openrefine reconcile

user985087 10 окт '19 в 17:54 2019-10-10 17:54 · Accepted Answer · 2019-10-10 17:54

Да, это возможно. Вместо этого вам необходимо выполнить операцию согласования в первом столбце.

Как указано в документации, используйте операцию Fill down в первом столбце, который определяет ваши записи;
Согласовать столбец с Викиданными;
Затем действие Создать один новый элемент для похожих ячеек (в меню Согласование -> Действия)
Создайте схему, в которой первый столбец используется как идентификатор субъекта.

Предполагая, что значения в вашем первом столбце изначально различны (как в вашем примере), это создаст один элемент для каждой записи.

В вашем примере, поскольку ваш первый столбец содержит ISSN, а не заголовки, я бы сначала вместо этого создал корневой столбец с заголовками (до процесса, описанного выше). В режиме строк фасет, чтобы сохранить первую строку каждой записи, выбрав непустые значения в первом столбце, а затем скопировать столбец с заголовками и переместить этот новый столбец в первую позицию. Это должно гарантировать, что при выверке будут учтены существующие элементы. Обратите внимание: если один и тот же заголовок используется в нескольких журналах, это создаст единый элемент для них обоих, если вы не добавите другие свойства в свою конфигурацию согласования (например, ISSN).