Токенизатор в системе moses-SMT застрял даже с 10 предложениями
Я пытался сделать базовую систему MT. Просто для проверки того, как это работает, я сделал корпус языка Source (S) и Target (T) всего из 2000 предложений. Самым первым шагом является подготовка данных для системы машинного перевода (MT). На этом этапе сначала мы должны выполнить токенизацию, как указано здесь Baseline SMT. Я использовал этот код:
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l en \
< ~/corpus/training/news-commentary-v8.fr-en.en \
> ~/corpus/news-commentary-v8.fr-en.tok.en
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l fr \
< ~/corpus/training/news-commentary-v8.fr-en.fr \
> ~/corpus/news-commentary-v8.fr-en.tok.fr
(скажем, S = французский и T = английский)
Я проверил через 2 часа, он все еще работает. Мне стало любопытно, так как это не ожидалось. Тогда я попробовал всего десять предложений. К моему удивлению, прошло 30 минут, и он все еще работает.
Я сделал что-то не так?
PS: OS = Ubuntu 14.04.5 LTS Sony ultrabook Нет двойной загрузки.
0 ответов
Пожалуйста, следуйте инструкциям ниже;
git clone https://github.com/moses-smt/mosesdecoder.git
cd mosesdecoder
git clone https://github.com/moses-smt/giza-pp.git
cd giza-pp
make
mkdir tools
cp giza-pp/GIZA++-v2/GIZA++ giza-pp/GIZA++-v2/snt2cooc.out giza-pp/mkcls-v2/mkcls tools
scripts/tokenizer/tokenizer.perl -l fr < ~/corpus/training/news-commentary-v8.fr-en.fr > ~/corpus/news-commentary-v8.fr-en.tok.fr