НЛП Аспект Майнинг подход

Question

НЛП Аспект Майнинг подход

Я пытаюсь реализовать как майнер аспект на основе отзывов потребителей в Амазонке для прочной стиральной машины, холодильника. Идея состоит в том, чтобы вывести полярность настроения для аспектов вместо всего предложения. Например: "Еда была хорошей, но обслуживание было плохим", обзор должен показывать, что еда должна быть положительной, а услуга - отрицательной. Я прочитал статью Ричарда Сошера о модели RNTN для детализированного классификатора настроений, но думаю, мне нужно будет вручную помечать настроения для фраз для другого домена и создать свой собственный банк деревьев для большей точности.

Вот альтернативный подход, о котором я подумал. Может кто-нибудь, пожалуйста, подтвердите / направьте меня с вашей обратной связью Разбейте подход на 2 подзадачи. 1) Определить аспекты 2) Определить чувства

Определить аспекты

Используйте POS tagger для идентификации всех существительных. Это должно включить в список потенциально все аспекты в обзорах.
Используйте word2vec этих существительных, чтобы определить похожие существительные и уменьшить размер набора данных.

Определить настроение

Обучите модель CNN или плотной сети на обзорах с рейтингом 1,2,4,5(игнорируйте 3, поскольку нам нужны данные, имеющие полярность)
Разбейте тестовый набор обзоров на фразы (например, "Еда была хорошей"), а затем оцените их, используя приведенную выше модель.
Найдите аспекты, указанные в 1-м подзадаче, и пометьте их соответствующими фразами.

0

nlp stanford-nlp sentiment-analysis

Источник

user5189033 06 авг '17 в 18:19

1 ответ

Другие вопросы по тегам nlp stanford-nlp sentiment-analysis

user2991872 06 авг '17 в 21:18 2017-08-06 21:18 · Answer 1 · 2017-08-06 21:18

Я не знаю, как ответить на этот вопрос, но у меня есть несколько предложений:

Взгляните на многозадачное обучение в литературе по нейронным сетям и попробуйте end2end нейронную сеть для нескольких задач.
Используйте предварительно обученные векторы слов, такие как w2v или glov в качестве входных данных.
Не полагайтесь на pos-теги при использовании интернет-данных,
Найдите способ представить ваше имя сущности и oov в вашем дизайне.
Не игнорируйте 3!!
Вы должны периодически комментировать некоторые данные.