Какой тест сдавать при сравнении двух непрерывных распределений (оценка LIWC)

Сейчас я работаю над проектом, который пытается расширить словарь LIWC, чтобы он соответствовал нашему местному языку (смешанный английский, индонезийский, малайский и китайский). Мы используем модель вложения слов, чтобы найти слова, похожие на слова в словаре LIWC, а затем вычисляем оценку на основе нового словаря.

Исходный вывод из словаря LIWC выглядит так:

[53.2, 11.2,..., 85.01]

которые представляют собой долю слов, принадлежащих каждой категории, и категории включают в себя:

['Function', 'Pronoun', 'Ppron', 'I', 'We', 'You', ... ,'Netspeak', 'Assent', 'Nonflu', 'Filler']

После расширения словаря LIWC я хочу проверить, есть ли у нас вывод, аналогичный исходному LIWC. Однако после расширения слов в словаре доля каждой категории обязательно возрастет. Поэтому вместо непосредственного сравнения двух баллов, я думаю, что это будет иметь больше смысла, если мы сравним соотношение между переменными.

Точнее сказать, у меня есть оригинальный вывод dist1,

[d1v1, d1v2, ..., d1vp]

и вывод нашего расширенного словаря dict2,

[d2v1, d2v2, ..., d2vp] 

где p представляет количество категорий. Существует ли тест, который может помочь мне доказать, похожа ли связь между переменными в dist1 и в dist2?

0 ответов

Другие вопросы по тегам