Какая польза от Brown Corpus для измерения семантического сходства на основе WordNet?
Я сталкивался с несколькими методами измерения семантического сходства, которые используют структуру и иерархию WordNet, например, мера Цзяна и Конрата (JNC), мера Ресника (RES), мера Лин (LIN) и т. Д.
Они измеряются с помощью NLTK:
sim2=wn.jcn_similarity(entry1,entry2,brown_ic)
sim3=entry1.res_similarity(entry2, brown_ic)
sim4=entry1.lin_similarity(entry2,brown_ic)
Если WordNet является основой для вычисления семантического сходства, то какой смысл здесь использовать Brown Corpus?
2 ответа
Взгляните на объяснение в руководстве по NLTK для wordnet.
В частности, нотация *_ic является информационным содержанием.
synset1.res_simility(synset2, ic): Resnik Similarity: возвращает оценку, показывающую, насколько похожи два значения слов, на основе информационного содержимого (IC) наименее распространенного пользователя (наиболее конкретного узла-предка). Обратите внимание, что для любой меры сходства, в которой используется информационное содержимое, результат зависит от корпуса, использованного для создания информационного содержимого, а также от особенностей создания информационного содержимого.
Немного больше информации о содержании информации здесь:
Обычный способ измерения IC чувств слова состоит в том, чтобы объединить знания об их иерархической структуре из онтологии, такой как WordNet, со статистикой об их фактическом использовании в тексте, полученном из большого корпуса.
Коричневый_ic в вашем коде относится к файлу информационного содержимого ~/nltk_data/corpora/wordnet_ic/ic-brown.dat. Для получения более подробной информации о формате ic-brown.dat, ознакомьтесь с этой веткой из группы пользователей NLTK.
В целом, в файле ic-brown.dat перечислены все слова, существующие в корпусе Брауна, и значения их информационного содержания (которые связаны с частотами слов).
Семантические измерения JC, Resnik и Lin требуют использования корпуса в дополнение к WordNet. Эти меры объединяют WordNet со статистикой корпусов и показывают, что они обеспечивают лучшую корреляцию с человеческим суждением, чем использование только WordNet ( Li 2006; Pedersen 2010).