Что подходит нейросетевой архитектуре для прогнозирования популярности статей?
Я новичок в машинном обучении, а также в нейронных сетях. В настоящее время я прохожу курс на coursera.org о нейронных сетях, но я не все понимаю. У меня есть небольшая проблема с моей диссертацией. Я должен использовать нейронную сеть, но я не знаю, как выбрать правильную архитектуру нейронной сети для моей проблемы.
У меня много данных с веб-порталов (обычно это онлайн-издания газет, журналов). Есть информация о статьях, например, название, текст статьи и выпуск статьи. Существует также большое количество данных последовательности, которые фиксируют поведение пользователей.
Моя цель - предсказать популярность статьи (количество читателей или кликов по статье уникальным пользователем). Я хочу сделать векторы из этих данных и снабдить мою нейронную сеть этими векторами.
У меня есть два вопроса:
1. Как мне создать правильный вектор?
2. Какая архитектура нейронной сети лучше всего подходит для этой проблемы?
1 ответ
Это очень широкие вопросы. Вам нужно будет определить более мелкие вопросы, если вы хотите получить более точные ответы.
Как создать правильный вектор?
Для текстовых данных вы обычно используете модель векторного пространства. Наилучшие результаты часто получают с использованием взвешивания tf-idf.
Какая архитектура нейронной сети подходит для этой проблемы?
Это очень сложно сказать. Я бы начал с сети с k
входные нейроны (где k
это размер ваших векторов после применения tf-idf: вы также можете захотеть сделать какой-то выбор объектов, чтобы уменьшить количество объектов. Хороший метод выбора функции - использование критерия хи-квадрат.)
Затем стандартная схема сети задается с использованием одного скрытого слоя с числом нейронов, равным среднему значению между числом входных и выходных нейронов. Тогда, похоже, вам нужен только один выходной нейрон, который будет выводить, насколько популярной будет статья (это может быть линейный нейрон или сигмовидный нейрон).
Для нейронов в вашем скрытом слое вы также можете поэкспериментировать с линейными и сигмовидными нейронами.
Есть и много других вещей, которые вы можете попробовать: снижение веса, техника импульса, сети с несколькими слоями, повторяющиеся сети и так далее. Невозможно сказать, что лучше всего подойдет для вашей задачи без долгих экспериментов.