НЛП: качественно "положительный" против "отрицательный" предложение

Мне нужна ваша помощь в определении наилучшего подхода для анализа отраслевых предложений (например, обзоры фильмов) на "положительный" против "отрицательный". Я уже видел такие библиотеки, как OpenNLP, но он слишком низкоуровневый - он просто дает мне базовую композицию предложений; что мне нужно, это структура более высокого уровня: - надеюсь, со списками слов - надеюсь, обучаемая на моем наборе данных

Спасибо!

2 ответа

Решение

То, что вы ищете, обычно называют анализом настроений. Как правило, анализ настроений не в состоянии справиться с деликатными тонкостями, такими как сарказм или ирония, но он вполне оправдан, если вы добавите в него большой набор данных.

Анализ настроений обычно требует небольшой предварительной обработки. По крайней мере, токенизация, обнаружение границ предложений и маркировка части речи. Иногда синтаксический анализ может быть важным. Правильное выполнение - это целая отрасль исследований в области компьютерной лингвистики, и я бы не советовал вам придумывать собственное решение, если вы сначала не потратите время на изучение области.

В OpenNLP есть несколько инструментов, помогающих анализировать настроения, но если вы хотите что-то более серьезное, вам следует изучить инструментарий LingPipe. Он имеет некоторые встроенные функции SA и хороший учебник. И вы можете обучить его на своем собственном наборе данных, но не думайте, что это совершенно тривиально:-).

Поиск в Google по термину, вероятно, также даст вам некоторые ресурсы для работы. Если у вас есть более конкретный вопрос, просто спросите, я внимательно слежу за nlp-тегом;-)

Некоторые подходы к анализу настроений используют стратегии, популярные в других задачах классификации текста. Наиболее распространенным явлением является преобразование вашего обзора фильма в вектор слов и его подача в алгоритм классификатора в качестве обучающих данных. Самые популярные пакеты для анализа данных могут помочь вам здесь. Вы можете взглянуть на это руководство по классификации настроений, иллюстрирующее, как провести эксперимент с использованием набора инструментов RapidMiner с открытым исходным кодом.

Кстати, есть хороший набор данных, сделанный доступным для исследовательских целей, связанных с выявлением мнения о рецензиях на фильмы. Он основан на отзывах пользователей IMDB, и вы можете проверить многие связанные исследовательские работы в этой области и то, как они используют набор данных.

Стоит помнить, что об эффективности этих методов можно судить только со статистической точки зрения, поэтому вы можете в значительной степени предположить, что будут неправильные классификации и случаи, когда мнение трудно определить. Как уже отмечалось в этой теме, обнаружение таких вещей, как ирония и сарказм, действительно может быть очень трудным.

Другие вопросы по тегам