Создавать элементы викиданных из записей в OpenRefine (а не строк)?
Я читал, что плагины OpenRefine Wikidata всегда работают в строковом режиме.
Я нахожусь в ситуации, когда у меня есть данные в режиме записей: запись представляет собой сериал / журнал, а строки в этих записях представляют собой различные форматы одного и того же серийного номера / журнала (как правило, бумажная и электронная версии). Каждая строка имеет уникальный идентификатор ISSN. Викиданные считают, что для серийного номера / журнала имеется только один элемент (мои записи), но нет отдельных элементов для каждого из форматов (мои строки).
При согласовании данных с Викиданными все строки одной и той же записи обычно будут соответствовать одному и тому же элементу викиданных, или ни одна из строк не будет соответствовать, или иногда будет соответствовать только одна строка записи (например, если только один ISSN формата - скажем, бумага формат - известен в Викиданных, но не в других).
Что я хотел бы сделать, так это создать элементы в Викиданных для каждой записи, для которой не было найдено результатов согласования (iow, для которых не найдено ни одной строки), а не для каждой строки. И при создании этого элемента я хотел бы добавить ISSN всех строк в этой записи.
Интересно, возможно ли это сделать? и как?
Спасибо
1 ответ
Да, это возможно. Вместо этого вам необходимо выполнить операцию согласования в первом столбце.
- Как указано в документации, используйте операцию Fill down в первом столбце, который определяет ваши записи;
- Согласовать столбец с Викиданными;
- Затем действие Создать один новый элемент для похожих ячеек (в меню Согласование -> Действия)
- Создайте схему, в которой первый столбец используется как идентификатор субъекта.
Предполагая, что значения в вашем первом столбце изначально различны (как в вашем примере), это создаст один элемент для каждой записи.
В вашем примере, поскольку ваш первый столбец содержит ISSN, а не заголовки, я бы сначала вместо этого создал корневой столбец с заголовками (до процесса, описанного выше). В режиме строк фасет, чтобы сохранить первую строку каждой записи, выбрав непустые значения в первом столбце, а затем скопировать столбец с заголовками и переместить этот новый столбец в первую позицию. Это должно гарантировать, что при выверке будут учтены существующие элементы. Обратите внимание: если один и тот же заголовок используется в нескольких журналах, это создаст единый элемент для них обоих, если вы не добавите другие свойства в свою конфигурацию согласования (например, ISSN).