Ruby Text/ Анализ настроений
У меня есть две строки -
"I like running around the track.
I like swimming in the pool, but only in the morning.
Мне нужно вытащить то, что людям "нравится" из двух приведенных выше комментариев (running around the track
а также swimming in the pool
,
У кого-нибудь есть рекомендации для гема аналитики текста или другого метода получения такой информации? Я не обязательно нуждаюсь в подсчете слов или n-граммах, я просто хочу знать, какие слова встречаются по отношению к слову "like
".
2 ответа
Для быстрого и грязного исправления вы можете использовать регулярное выражение для поиска всех форм "нравится" и вытянуть весь текст между ними и знаком препинания или символом новой строки.
Вы можете использовать синтаксический анализатор зависимостей, такой как Stanford Parser, чтобы проанализировать ваш текст и найти ключевые слова в вашем словаре чувств, и, возможно, наложить некоторые ограничения на тип зависимостей для устранения неоднозначности. Например, зависимость должна быть типа "dobj" (прямой объект). Затем следуйте структурам зависимости до конца фразы или предложения в зависимости от ваших потребностей.