Основные формы слова, не включенные в основы и лемматизацию

Мне нужно найти основные формы слов. Я прошел через одинаковые вопросы. Я использую Портер Стеммер и НЛП Стэнфордского ядра для стемминга и лемматизации. Рассмотрим следующие 3 набора слов A,B,C:

Set      Word              Stem             Lemma
 A     Verity             veriti         verity (For all POS tags)
 A     Veritably          verit          veritably (For all POS tags)
 A     Veritableness      verit          veritableness (For all POS tags)                
 B     Master             master         master (For all POS tags)
 B     Mastership         mastership     mastership (For all POS tags)
 B     Masterliness       masterli       masterliness (For all POS tags)
 C     genuine            genuin         genuine (For all POS tags)
 C     genuinely          genuin         genuinely (For all POS tags)
 C     genuineness        genuin         genuineness (For all POS tags) 

Можно видеть, что основы в множестве C равны, поэтому мы можем сказать, что подлинность, подлинность и подлинность имеют некоторое отношение. Но то же самое не может быть применено к словам в A и B, которые действительно связаны семантически. Можно ли найти связь между такими словами? если да, то как называются эти отношения, если они не основаны / лемматизированы.

1 ответ

Хотя "истинность" (существительное) относится к другим словам, которые вы даете, оно не имеет того же отношения к "истинно" и "истинности" (прилагательных), которое "подлинный" (прилагательное) делает к "искренне" и " Подлинность "(прилагательные).

Слово, которое вы ищете здесь, является "истинным".

Не все семантически или этимологически связанные слова будут иметь одинаковую лемму.

Другие вопросы по тегам