Набор новостей WMT'15: форматирование.sgm
Какие сценарии используются (и как?) Для получения наборов данных для тестирования новостей из wmt из формата.sgm в неформатированный формат (например, набор данных europarl)?
например, набор данных для тестирования новостей, загруженный по адресу: http://www.statmt.org/wmt15/test.tgz
содержит (при извлечении) файлы, такие как newstest2015-ende-ref.de.sgm
Как мне сделать это похожим на набор данных europarl, где каждая строка представляет предложение без форматирования?
Замечания:
Я нашел скрипт в каталоге moses (по ссылке с сайта wmt), который называется wrap-xml.perl. В разделе теста упоминается, что он используется для перехода в формат.sgm, но сам скрипт не содержит документации (и я не разбираюсь в perl)