Сегментация предложений и согласование в корпусе с шумным текстом
У меня есть параллельный корпус, который содержит около 100000 выровненных абзацев на арабском и персидском языках.
Мой корпус - это шумный корпус, чьи его абзацы являются неполным переводом друг друга (т.е. части арабских абзацев не переведены на персидский язык, и знаки препинания тоже не совпадают).
Чтобы разделить абзацы на предложения, я использовал знаки препинания, но количество предложений не совпадает.
Затем я использовал Microsoft Aligner для выравнивания предложений, но результат действительно ошибочный.
Как сегментировать и выравнивать предложения корпуса?
1 ответ
Вы использовали тег Giza++ в своем вопросе: рассматривали ли вы с помощью инструментов выравнивания оттуда? Другой вариант, который, как я знаю, используют многие, - это Moses, представляющий собой полнофункциональный статистический пакет MT, но я считаю, что вы можете вызывать модели выравнивания изолированно, если это действительно все, что вам нужно.