Оценка ранжирования в двухэтапном поиске документов
Я создал двухступенчатую систему ранжирования, основанную на текстовом сходстве (косинусном сходстве) между парой запрос-документ. Теперь мне нужно проверить свою систему ранжирования, правильны ли найденные должным образом оцениваемые элементы по отношению к пользователю, какой подход я должен выбрать. Я читал о подходе Pointwise/Pairwise/Listwise для проверки ранжирования, но для ручной оценки системы ранжирования, которая была бы более полезной. Если бы кто-нибудь смог осветить лучшую стратегию оценки рейтинга, это было бы очень полезно для меня. Спасибо
1 ответ
Если я правильно понял вопрос, вы ищете методологию оценки, чтобы выяснить, хорошо ли работает ваша двухэтапная поисковая система. Если это так, вы можете использовать одну из следующих методик оценки:
- Оценки релевантности: вы можете использовать TREC-подобные коллекции с несколькими сотнями запросов и явным оценкой релевантности и использовать метрики оценки IR (такие как MAP, P@10, NDCG и т. Д.) Для оценки вашей модели.
- A / B-тестирование: на самом деле вы можете показать начальный результат и результаты ранжирования по второму этапу вашей поисковой системы и попросить пользователей судить, является ли этот рейтинг лучше или нет.
- Данные о кликах: если у вас есть доступ к журналам поисковых систем, вы можете использовать информацию о кликах пользователей для оценки вашей модели. Для этого вам следует знать о нескольких проблемах смещения, например о проблеме смещения положения.
Среди вышеупомянутых стратегий первая должна быть проще и дешевле. Вам просто нужно иметь доступ к данным TREC, которые не являются частными (но вам нужно заплатить несколько сотен долларов, чтобы получить доступ к большинству из них).