Токенизатор в системе moses-SMT застрял даже с 10 предложениями

Я пытался сделать базовую систему MT. Просто для проверки того, как это работает, я сделал корпус языка Source (S) и Target (T) всего из 2000 предложений. Самым первым шагом является подготовка данных для системы машинного перевода (MT). На этом этапе сначала мы должны выполнить токенизацию, как указано здесь Baseline SMT. Я использовал этот код:

~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l en \
< ~/corpus/training/news-commentary-v8.fr-en.en    \
> ~/corpus/news-commentary-v8.fr-en.tok.en
~/mosesdecoder/scripts/tokenizer/tokenizer.perl -l fr \
< ~/corpus/training/news-commentary-v8.fr-en.fr    \
> ~/corpus/news-commentary-v8.fr-en.tok.fr

(скажем, S = французский и T = английский)

Я проверил через 2 часа, он все еще работает. Мне стало любопытно, так как это не ожидалось. Тогда я попробовал всего десять предложений. К моему удивлению, прошло 30 минут, и он все еще работает.

Я сделал что-то не так?

PS: OS = Ubuntu 14.04.5 LTS Sony ultrabook Нет двойной загрузки.

0 ответов

Пожалуйста, следуйте инструкциям ниже;

git clone https://github.com/moses-smt/mosesdecoder.git
cd mosesdecoder

git clone https://github.com/moses-smt/giza-pp.git
cd giza-pp
make

mkdir tools
cp giza-pp/GIZA++-v2/GIZA++ giza-pp/GIZA++-v2/snt2cooc.out giza-pp/mkcls-v2/mkcls tools

scripts/tokenizer/tokenizer.perl -l fr < ~/corpus/training/news-commentary-v8.fr-en.fr > ~/corpus/news-commentary-v8.fr-en.tok.fr
Другие вопросы по тегам