Описание тега corpus
Корпус чаще всего относится к набору структурированного текста (хотя, например, существуют и аудиокорпусы). Корпуса текстов могут состоять из чего угодно, от набора необработанного текста газетных статей до документов, слова которых помечены частью речи, грамматической функцией, повествовательной функцией и рядом других аннотаций. Корпус может содержать тексты на одном языке или тексты, написанные на нескольких языках.
Распространенное использование и приложения
Корпуса текстов обычно используются в компьютерной лингвистике и исследованиях обработки естественного языка. Часто они аннотируются или "помечаются" для обозначения различных атрибутов, таких как темы или темы документов, содержащихся в корпусах, или части речи слов в корпусах. Маркированные корпуса часто дороги в производстве, так как они требуют, чтобы человек вручную исследовал и классифицировал корпус.
Помеченный корпус может использоваться в качестве обучающего набора данных для различных алгоритмов машинного обучения или обработки естественного языка. Например, помеченный корпус может использоваться в алгоритме классификации документов. Корпус может состоять из 200 газетных статей, 50 из которых о спорте, 50 о политике, 50 об искусстве и 50 о финансах. Эти 200 помеченных газетных статей могут быть введены в некоторый алгоритм, который исследует статьи и идентифицирует атрибуты каждой категории, "изучая", как выглядит каждая из четырех категорий. После того, как это обучение произошло, новый немаркированный корпус из некоторого количества газетных статей может быть введен в алгоритм, и на основе знаний, полученных из помеченного корпуса, он может затем идентифицировать или классифицировать каждую статью как подпадающую под одну из четырех категорий. спорта,политика, искусство или финансы.
Примеры корпусов
Brown Corpus состоит из 500 образцов письменной литературы, опубликованных в 1961 году, сгруппированных по 15 различным жанрам, включая спорт, политику, науку и художественную литературу. Коричневый корпус не только разделен на жанры, но и снабжен специальной нотацией, которая определяет части речи каждого слова в корпусе. За каждым словом следует символ '/', а затем список всех его частей речевых тегов. Например, существительное в единственном числе обозначается символом "nn", а притяжательное существительное в единственном числе обозначается символом "nn$".
Образец из Коричневого корпуса:
The/at Fulton/np-tl County/nn-tl Grand/jj-tl Jury/nn-tl said/vbd
Friday/nr an/at investigation/nn of/in Atlanta's/np$ recent/jj
primary/nn election/nn produced/vbd ``/`` no/at evidence/nn ''/''
that/cs any/dti irregularities/nns took/vbd place/nn ./.
WordNet - это большая база данных английских слов, сгруппированных в наборы синонимов. WordNet состоит из отдельной структурированной иерархии существительных, глаголов, прилагательных и наречий. Иерархия структурирована отношениями "есть", где дочерний узел имеет отношение "есть" со своим родительским узлом. Аннотируются и другие отношения (антонимы, гиперонимы и т. Д.).
Пример из WordNet через Википедию:
dog, domestic dog, Canis familiaris
=> canine, canid
=> carnivore
=> placental, placental mammal, eutherian, eutherian mammal
=> mammal
=> vertebrate, craniate
=> chordate
=> animal, animate being, beast, brute, creature, fauna
=> ...