Как слова группируются по классам слов в файлах mkcls GIZA++ и на каком основании они группируются?

  1. Какая польза от mkcls в giza++?

  2. во время работы mkcls giza ++ создает четыре файла *.vcb.classes и *.vcb.classes.cats для исходного и целевого языков.

Выходные данные *.vcb.classes:

.      9
book  10
gave   4
he     3
him    5
i      7
loved  8
read   8
the    2

К чему относятся эти цифры? Это слово класс номера? Если это номер класса слова, то как он генерируется или как он классифицируется на разные классы, на каком основании?

1 ответ

Программа 'mkcls' группирует слова в классы эквивалентности. Вывод используется GIZA++ для выравнивания слов. См. Франц Йозеф Ох, Эффективный метод определения двуязычных классов слов

Другие вопросы по тегам