Какая польза от Brown Corpus для измерения семантического сходства на основе WordNet?

Question

Какая польза от Brown Corpus для измерения семантического сходства на основе WordNet?

Я сталкивался с несколькими методами измерения семантического сходства, которые используют структуру и иерархию WordNet, например, мера Цзяна и Конрата (JNC), мера Ресника (RES), мера Лин (LIN) и т. Д.

Они измеряются с помощью NLTK:

sim2=wn.jcn_similarity(entry1,entry2,brown_ic)
sim3=entry1.res_similarity(entry2, brown_ic)
sim4=entry1.lin_similarity(entry2,brown_ic)

Если WordNet является основой для вычисления семантического сходства, то какой смысл здесь использовать Brown Corpus?

6

nlp similarity wordnet corpus semantic-analysis

Источник

user2388940 09 сен '13 в 19:45

2 ответа

Решение

Коричневый_ic в вашем коде относится к файлу информационного содержимого ~/nltk_data/corpora/wordnet_ic/ic-brown.dat. Для получения более подробной информации о формате ic-brown.dat, ознакомьтесь с этой веткой из группы пользователей NLTK.

В целом, в файле ic-brown.dat перечислены все слова, существующие в корпусе Брауна, и значения их информационного содержания (которые связаны с частотами слов).

Семантические измерения JC, Resnik и Lin требуют использования корпуса в дополнение к WordNet. Эти меры объединяют WordNet со статистикой корпусов и показывают, что они обеспечивают лучшую корреляцию с человеческим суждением, чем использование только WordNet ( Li 2006; Pedersen 2010).

4

Источник

user592983 16 сен '13 в 15:27

Другие вопросы по тегам nlp similarity wordnet corpus semantic-analysis

user583834 09 сен '13 в 20:43 2013-09-09 20:43 · Accepted Answer · 2013-09-09 20:43

Взгляните на объяснение в руководстве по NLTK для wordnet.

В частности, нотация *_ic является информационным содержанием.

synset1.res_simility(synset2, ic): Resnik Similarity: возвращает оценку, показывающую, насколько похожи два значения слов, на основе информационного содержимого (IC) наименее распространенного пользователя (наиболее конкретного узла-предка). Обратите внимание, что для любой меры сходства, в которой используется информационное содержимое, результат зависит от корпуса, использованного для создания информационного содержимого, а также от особенностей создания информационного содержимого.

Немного больше информации о содержании информации здесь:

Обычный способ измерения IC чувств слова состоит в том, чтобы объединить знания об их иерархической структуре из онтологии, такой как WordNet, со статистикой об их фактическом использовании в тексте, полученном из большого корпуса.