НЛП Аспект Майнинг подход
Я пытаюсь реализовать как майнер аспект на основе отзывов потребителей в Амазонке для прочной стиральной машины, холодильника. Идея состоит в том, чтобы вывести полярность настроения для аспектов вместо всего предложения. Например: "Еда была хорошей, но обслуживание было плохим", обзор должен показывать, что еда должна быть положительной, а услуга - отрицательной. Я прочитал статью Ричарда Сошера о модели RNTN для детализированного классификатора настроений, но думаю, мне нужно будет вручную помечать настроения для фраз для другого домена и создать свой собственный банк деревьев для большей точности.
Вот альтернативный подход, о котором я подумал. Может кто-нибудь, пожалуйста, подтвердите / направьте меня с вашей обратной связью Разбейте подход на 2 подзадачи. 1) Определить аспекты 2) Определить чувства
Определить аспекты
- Используйте POS tagger для идентификации всех существительных. Это должно включить в список потенциально все аспекты в обзорах.
- Используйте word2vec этих существительных, чтобы определить похожие существительные и уменьшить размер набора данных.
Определить настроение
- Обучите модель CNN или плотной сети на обзорах с рейтингом 1,2,4,5(игнорируйте 3, поскольку нам нужны данные, имеющие полярность)
- Разбейте тестовый набор обзоров на фразы (например, "Еда была хорошей"), а затем оцените их, используя приведенную выше модель.
- Найдите аспекты, указанные в 1-м подзадаче, и пометьте их соответствующими фразами.
1 ответ
Я не знаю, как ответить на этот вопрос, но у меня есть несколько предложений:
- Взгляните на многозадачное обучение в литературе по нейронным сетям и попробуйте end2end нейронную сеть для нескольких задач.
- Используйте предварительно обученные векторы слов, такие как w2v или glov в качестве входных данных.
- Не полагайтесь на pos-теги при использовании интернет-данных,
- Найдите способ представить ваше имя сущности и oov в вашем дизайне.
- Не игнорируйте 3!!
- Вы должны периодически комментировать некоторые данные.