Кластеризация или рекомендация?

В настоящее время я работаю над концепцией алгоритма сопоставления, основанного на огромном количестве данных. И это мой первый раз.

Это тот случай:

  • у нас есть X объектов типа "Дом" с такими функциями, как размер, местоположение и т. д.
  • у нас есть люди, которые ищут дома, их поиск включает в себя размер, местоположение и так далее

=> мы хотим сопоставить дома людям с учетом их предпочтений (размер, местоположение, ..)

Какой подход лучше?

1) Кластеризация всех домов и проверка того, к какому кластеру принадлежит человек (который хочет купить) (сопоставьте людей / дом с одинаковыми значениями характеристик, такими как размер и местоположение). 2) Создайте рекомендацию, что также потребует от многих людей, которые купили дома в прошлое в нашем HDSF

Какой технологический стек использовать для лучшего подхода?

В настоящее время я думаю о: Hadoop/Hive (хранилище) - Sqoop (получить данные в хранилище) - Mahout (анализ)

Ваша помощь очень ценится! Заранее спасибо!

1 ответ

Исходя из того, что у вас еще нет пользователей, которым можно было бы сопоставить дома, я бы предложил, чтобы наилучшим подходом было использование кластеризации и, если у вас есть согласованные кластеры, для присвоения класса каждому кластеру, что сводит проблему к Классификация первая.

Что касается стека, это во многом зависит от личных предпочтений плюс доступного оборудования.

Другие вопросы по тегам