Сегментация предложений и согласование в корпусе с шумным текстом

У меня есть параллельный корпус, который содержит около 100000 выровненных абзацев на арабском и персидском языках.

Мой корпус - это шумный корпус, чьи его абзацы являются неполным переводом друг друга (т.е. части арабских абзацев не переведены на персидский язык, и знаки препинания тоже не совпадают).

Чтобы разделить абзацы на предложения, я использовал знаки препинания, но количество предложений не совпадает.

Затем я использовал Microsoft Aligner для выравнивания предложений, но результат действительно ошибочный.

Как сегментировать и выравнивать предложения корпуса?

1 ответ

Вы использовали тег Giza++ в своем вопросе: рассматривали ли вы с помощью инструментов выравнивания оттуда? Другой вариант, который, как я знаю, используют многие, - это Moses, представляющий собой полнофункциональный статистический пакет MT, но я считаю, что вы можете вызывать модели выравнивания изолированно, если это действительно все, что вам нужно.

Другие вопросы по тегам