Как ускорить шаг mkcls в mgiza++ или giza++, это отнимает много времени для кластеризации слов?
Я использую MGIZA++ для выравнивания слов по кусочкам из параллельного корпуса Организации Объединенных Наций。
Перед обучением модели выравнивания с использованием MGIZA++ мне нужно использовать mkcls
скрипт для создания классов, необходимых для алгоритма скрытой модели Маркова как такового:
mkcls -c50 -n10 -ptest.en -Vtest.en.vcb.classes
Я пробую это на корпусе с 1 000 000 строк, но это занимает много времени и все еще не может получить результат (когда я пробую небольшой набор данных, это работает).
Есть ли многопоточный или параллельный инструментарий для выполнения mkcls?