Google уточнит перекрестную ссылку между строкой и столбцом
Я не уверен, что это может быть достигнуто в Google Refine вообще. Но в основном у меня есть такие данные.
Первая таблица - это таблица всех пользователей. Второй стол покажи всем друзьям. Однако во второй таблице "friends"
Не все идентификаторы существуют в первой таблице, от которой я хочу избавиться. Итак, как я могу найти каждый идентификатор в friends
столбец во второй таблице и избавиться от идентификатора, который не существует в таблице 1?
1 ответ
Положите две таблицы в разные проекты (назовем их Table1
а также Table2
).
В Table2
на на friends
колонка:
- используйте "разделить многозначные ячейки", чтобы получить каждое значение в отдельной строке
- преобразовать столбец посетителей в числа (или, наоборот, user_id в таблице 1 в строку)
- используйте "добавить новый столбец на основе этого столбца" с выражением
cross(cell,'Table1','user_id').length()
Возвращает 0, если совпадения нет, 1, если совпадение, или N>1, если в таблице 1 есть дубликаты.
Если вы хотите, чтобы данные вернулись в исходном формате, настройте фасет для фильтрации по столбцу достоверности, уберите все неверные значения, а затем используйте "объединить многозначные ячейки", чтобы отменить операцию разделения, которую вы выполняли заранее.
Я исправил некоторые ошибки кеширования с помощью cross() для OpenRefine 2.6, поэтому, если кросс не работает, попробуйте остановить и перезапустить сервер Refine.