Набор новостей WMT'15: форматирование.sgm

Какие сценарии используются (и как?) Для получения наборов данных для тестирования новостей из wmt из формата.sgm в неформатированный формат (например, набор данных europarl)?

например, набор данных для тестирования новостей, загруженный по адресу: http://www.statmt.org/wmt15/test.tgz

содержит (при извлечении) файлы, такие как newstest2015-ende-ref.de.sgm

Как мне сделать это похожим на набор данных europarl, где каждая строка представляет предложение без форматирования?

Замечания:

Я нашел скрипт в каталоге moses (по ссылке с сайта wmt), который называется wrap-xml.perl. В разделе теста упоминается, что он используется для перехода в формат.sgm, но сам скрипт не содержит документации (и я не разбираюсь в perl)

0 ответов

Другие вопросы по тегам