Поведенческий анализ: объединение категорий DMOZ

Я пытаюсь проанализировать поведение пользователя, используя URL-адреса, которые посетил парень, и сделать точный прогноз о его популярных категориях DMOZ ( http://dmoztools.net/).

Мы также создали API, который довольно точно отображает URL в категорию DMOZ. API выглядит так:

вход - URL

output - категория DMOZ, в которой находится URL с максимальной вероятностью и значением ее вероятности.

После передачи URL-адресов, которые пользователь посетил в API, мы придумали категории DMOZ и их вероятности. Теперь может быть много категорий DMOZ по мере увеличения количества входных URL. Сейчас я пытаюсь отфильтровать только соответствующие категории DMOZ. Категория DMOZ не может быть возвращена точно, вместо этого мы можем ограничить иерархию DMOZ.

Пример:

1)

 Url1 DMOZ -> grocery/vegetable/tomato ,
 Url2 DMOZ -> grocery/vegetable/potato,
 Url3 DMOZ -> grocery/vegetable/onion

Expected Output : grocery/vegetable (since user is interested across vegetables)

2)

Url1 DMOZ -> grocery/vegetable/tomato ,
 Url2 DMOZ -> grocery/vegetable/tomato,
 Url3 DMOZ -> grocery/vegetable/tomato,
 Url4 DMOZ -> grocery/vegetable/potato

Expected Output : grocery/vegetable/tomato (since user is more biased towards tomato)

Как ясно из вышесказанного, мы хотим отфильтровать иерархию DMOZ, которая имеет редкое значение, а также отдать приоритет подклассам, если они значимы. Существует ли какой-либо стандартный способ объединения этих категорий DMOZ, чтобы сделать точное предсказание категории DMOZ о пользователе?

0 ответов

Другие вопросы по тегам