Поведенческий анализ: объединение категорий DMOZ
Я пытаюсь проанализировать поведение пользователя, используя URL-адреса, которые посетил парень, и сделать точный прогноз о его популярных категориях DMOZ ( http://dmoztools.net/).
Мы также создали API, который довольно точно отображает URL в категорию DMOZ. API выглядит так:
вход - URL
output - категория DMOZ, в которой находится URL с максимальной вероятностью и значением ее вероятности.
После передачи URL-адресов, которые пользователь посетил в API, мы придумали категории DMOZ и их вероятности. Теперь может быть много категорий DMOZ по мере увеличения количества входных URL. Сейчас я пытаюсь отфильтровать только соответствующие категории DMOZ. Категория DMOZ не может быть возвращена точно, вместо этого мы можем ограничить иерархию DMOZ.
Пример:
1)
Url1 DMOZ -> grocery/vegetable/tomato ,
Url2 DMOZ -> grocery/vegetable/potato,
Url3 DMOZ -> grocery/vegetable/onion
Expected Output : grocery/vegetable (since user is interested across vegetables)
2)
Url1 DMOZ -> grocery/vegetable/tomato ,
Url2 DMOZ -> grocery/vegetable/tomato,
Url3 DMOZ -> grocery/vegetable/tomato,
Url4 DMOZ -> grocery/vegetable/potato
Expected Output : grocery/vegetable/tomato (since user is more biased towards tomato)
Как ясно из вышесказанного, мы хотим отфильтровать иерархию DMOZ, которая имеет редкое значение, а также отдать приоритет подклассам, если они значимы. Существует ли какой-либо стандартный способ объединения этих категорий DMOZ, чтобы сделать точное предсказание категории DMOZ о пользователе?