Оценка механизма логических рекомендаций на основе mahout - интерпретация точности и отзыва
Я хотел бы оценить механизм рекомендаций на основе mahout на сайте модной электронной коммерции. Они используют информацию карты покупок о предмете, купленном вместе - так что это логическое значение. Я хочу оценить двигатель, используя точность и вспомнить.
1) Как я могу использовать эти показатели для оценки механизма рекомендаций? Можно ли просто использовать эти значения при изменении алгоритма, а затем проверять себя?
2) Или имеет смысл сравнивать с другими алгоритмами (также использующими логические данные)? Если да, есть ли эталон точности и отзыва, доступный (например, если точность равна x, а отзыв равен y, то алгоритм должен быть отброшен или принят)?
В надежде найти помощь заранее благодарю ребят!
1 ответ
В контексте поиска информации элементы обрабатываются логическим образом, т. Е. Они либо релевантны, либо не релевантны. GenericRecommenderIRStatsEvaluator Mahout использует разделитель данных, чтобы сделать набор из уже предпочтительных (или купленных в вашем случае, купленных) предметов, которые представляют соответствующие предметы. В случае с mahout выбранные элементы являются наиболее предпочтительными. Таким образом, поскольку оценки являются логическими, он просто выбирает n предпочтительных элементов. Я не верю, что это сделало бы саму оценку гораздо более неточной, чем при обычных пятизвездочных рейтингах, поскольку покупка является довольно сильным признаком предпочтения. Так:
1) Если вам удалось дать рекомендации, вы можете оценить рекомендации, используя точность и вызывать их как метрики.
2) Я использовал случайный рекоммендер в качестве эталона (просто реализацию рекомендательного списка, который выбирает n случайных элементов). Обычно он дает довольно низкую точность и отзыв, поэтому, если алгоритм имеет меньшую точность и отзыв, чем случайный рекомендатель, его, вероятно, следует исключить. Другой показатель, который я бы посмотрел на этапе автономной оценки, - это достижение, так как рекомендатель, который выдает рекомендации только 80 пользователям из 6000 активных пользователей, довольно бесполезен.
Также следует отметить, что в научных статьях метрики точности и отзыва подвергались критике при использовании в качестве единственной метрики. В итоге пользователь решает, что актуально, а что нет. И рекомендация, которая производит немного ниже, чем другой, не обязательно хуже, чем другой. Например, более новые или счастливые рекомендации могут потерять точность и вспомнить.