Google уточнит перекрестную ссылку между строкой и столбцом

Я не уверен, что это может быть достигнуто в Google Refine вообще. Но в основном у меня есть такие данные.

введите описание изображения здесь

введите описание изображения здесь

Первая таблица - это таблица всех пользователей. Второй стол покажи всем друзьям. Однако во второй таблице "friends" Не все идентификаторы существуют в первой таблице, от которой я хочу избавиться. Итак, как я могу найти каждый идентификатор в friends столбец во второй таблице и избавиться от идентификатора, который не существует в таблице 1?

1 ответ

Решение

Положите две таблицы в разные проекты (назовем их Table1 а также Table2).

В Table2 на на friends колонка:

  • используйте "разделить многозначные ячейки", чтобы получить каждое значение в отдельной строке
  • преобразовать столбец посетителей в числа (или, наоборот, user_id в таблице 1 в строку)
  • используйте "добавить новый столбец на основе этого столбца" с выражением cross(cell,'Table1','user_id').length()

Возвращает 0, если совпадения нет, 1, если совпадение, или N>1, если в таблице 1 есть дубликаты.

Если вы хотите, чтобы данные вернулись в исходном формате, настройте фасет для фильтрации по столбцу достоверности, уберите все неверные значения, а затем используйте "объединить многозначные ячейки", чтобы отменить операцию разделения, которую вы выполняли заранее.

Я исправил некоторые ошибки кеширования с помощью cross() для OpenRefine 2.6, поэтому, если кросс не работает, попробуйте остановить и перезапустить сервер Refine.

Другие вопросы по тегам