Как слова группируются по классам слов в файлах mkcls GIZA++ и на каком основании они группируются?
Какая польза от mkcls в giza++?
во время работы mkcls giza ++ создает четыре файла *.vcb.classes и *.vcb.classes.cats для исходного и целевого языков.
Выходные данные *.vcb.classes:
. 9
book 10
gave 4
he 3
him 5
i 7
loved 8
read 8
the 2
К чему относятся эти цифры? Это слово класс номера? Если это номер класса слова, то как он генерируется или как он классифицируется на разные классы, на каком основании?
1 ответ
Программа 'mkcls' группирует слова в классы эквивалентности. Вывод используется GIZA++ для выравнивания слов. См. Франц Йозеф Ох, Эффективный метод определения двуязычных классов слов