Анализ настроений в твиттере с отрицательной выборкой с пропуском грамматики и словами с оценкой настроения
Я хотел бы выполнить анализ настроений в твиттер-сообщениях на индонезийском языке в режиме обучения без присмотра, используя отрицательную выборку с пропуском грамм.
Вот как я планирую это сделать:
Получите твиты. Поместите их все в один текстовый файл. Выполните процесс обучения, чтобы получить векторное представление каждого слова. Получите вектор предложения для каждого предложения в тексте с помощью tf-idf.
Объедините слова, которые уже имеют значение настроения (например, из этого списка), со значением вектора предложения, чтобы определить настроение нового (тестового) твита.
У меня вопрос: какие дополнительные виды обучения / классификации я могу сделать, чтобы определить вектор предложений с учетом значений слов, содержащихся в нем, чтобы получить настрой предложений?