Как использовать fairseq interactive.py в неинтерактивном режиме?

Я пытаюсь переводить с английского на арабский с помощью Fairseq. Но сценарий I nteractive.py переводит фрагменты текста на лету. Но мне нужно использовать его как чтение входного текстового файла и запись выходного текстового файла. Я упомянул об этой проблеме GitHub - https://github.com/pytorch/fairseq/issues/858, но в ней четко не объясняется, как это сделать в целом. Какие-либо предложения?

2 ответа

может читать строки из файла с --input параметр, и он выводит переводы на стандартный вывод.

Допустим, у меня есть этот входной текстовый файл source.txt (где каждое предложение для перевода находится в отдельной строке):

      Hello world!
My name is John

Вы можете запустить:

      fairseq-interactive --input=source.txt [all-your-fairseq-parameters] > target.txt

Где > target.txt означает "поместить в файл весь (стандартный) вывод, сгенерированный fairseq-interactive". Файл будет создан, если он еще не существует.

Для модели с английского на французский будет создан файл, который выглядит примерно так (фактический результат может отличаться в зависимости от вашей модели, конфигурации и версии Fairseq):

      S-0     Hello world!
W-0     0.080   seconds
H-0     -0.43813419342041016    Bonj@@ our le monde !
D-0     -0.43813419342041016    Bonjour le monde !
P-0     -0.1532 -1.7157 -0.0805 -0.0838 -0.1575
S-1     My name is John
W-1     0.080   seconds
H-1     -0.3272092938423157     Je m' appelle John .
D-1     -0.3272092938423157     Je m'appelle John.
P-2     -0.3580 -0.2207 -0.0398 -0.1649 -1.0216 -0.1583

Чтобы сохранить только переводы (строки, начинающиеся с D-), вам придется отфильтровать содержимое этого файла. Вы можете использовать эту команду, например:

      grep -P "D-[0-9]+" target.txt | cut -f3 > only_translations.txt

но вы можете объединить все команды в одну строку:

      fairseq-interactive --input=source.txt [all-your-fairseq-parameters] | grep -P "D-[0-9]+" | cut -f3 > target.txt

(Фактическая команда будет зависеть от фактической структуры target.txt.)

Наконец, знайте, что вы можете использовать --input=- читать ввод из стандартного ввода.

Я обнаружил, что Fairseq-Interactive работает немного медленно. Я думаю, что есть еще одно потенциальное решение, если вам просто нужны входные и выходные файлы с использованием предварительно обученной модели Fairseq. (но не уверен, что это будет быстрее)

По сути, вы можете загрузить модель в python и использовать model.translate.

      from fairseq.models.transformer import TransformerModel
trans = TransformerModel.from_pretrained(
  'models/',
  checkpoint_file='checkpoint_best.pt',
  data_name_or_path='bin/',
  is_gpu=True
).cuda()
inputs = "Di-mairt Clodh-bhualadh a cheud leabhair,"
print(trans.translate(inputs))

Следуя этой идее, вы можете легко прочитать файл и перевести его. Но, возможно, есть лучший способ перевести файл напрямую.

Другие вопросы по тегам