Openrefine - примирить вторым или третьим кандидатом

С сервисом согласования я часто сталкиваюсь с этой проблемой: лучший кандидат не совсем корректен, лучший - второй или третий кандидат (и у него также лучший результат), например:

Как я могу выбрать правильный по массе? У меня есть тысячи записей, и я сталкиваюсь с множеством подобных случаев. Я думаю, что должен быть какой-то путь, который не делает это один за другим.

Например, что-то, что говорит "бери лучший балл кандидата, независимо от того, какова его позиция".

Редактировать: как говорит пинтох, это может быть ошибкой. В то же время можно создать два числовых аспекта. Один с cell.recon.candidates[1].score а другой с cell.recon.candidates[2].score, Играя с ними, можно выбрать счет третьего и второго кандидатов, чтобы убедиться, что вы получите кандидата с лучшим результатом. Тогда это должно быть согласовано один за другим, но это просто вопрос щелчка.

1 ответ

Решение

Я бы сказал, что это поведение в первую очередь является ошибкой: кандидаты должны быть отсортированы по убыванию баллов. API службы сверки не указывает, что службы должны возвращать своих кандидатов в каком-либо конкретном порядке, но это, вероятно, непреднамеренно.

Самым быстрым решением было бы связаться с человеком, управляющим службой согласования, которую вы используете, и попросить его отсортировать кандидатов, уменьшив баллы на их стороне.

Это также предполагает улучшения в самом OpenRefine: OpenRefine всегда может отсортировать результаты сервиса выверки, уменьшив оценку. Я открыл билет об этом.

В более широком смысле, я согласен с тем, что нынешние способы подбора кандидатов на основе конкретных критериев могут быть улучшены (но для этого может потребоваться перестройка важных частей системы сверки, что займет время).

Другие вопросы по тегам