Сегментация предложений и согласование в корпусе с шумным текстом

Question

Сегментация предложений и согласование в корпусе с шумным текстом

У меня есть параллельный корпус, который содержит около 100000 выровненных абзацев на арабском и персидском языках.

Мой корпус - это шумный корпус, чьи его абзацы являются неполным переводом друг друга (т.е. части арабских абзацев не переведены на персидский язык, и знаки препинания тоже не совпадают).

Чтобы разделить абзацы на предложения, я использовал знаки препинания, но количество предложений не совпадает.

Затем я использовал Microsoft Aligner для выравнивания предложений, но результат действительно ошибочный.

Как сегментировать и выравнивать предложения корпуса?

3

nlp alignment corpus text-segmentation giza++

Источник

user1314684 31 янв '13 в 12:48

1 ответ

Другие вопросы по тегам nlp alignment corpus text-segmentation giza++

user1740708 06 фев '13 в 09:47 2013-02-06 09:47 · Answer 1 · 2013-02-06 09:47

Вы использовали тег Giza++ в своем вопросе: рассматривали ли вы с помощью инструментов выравнивания оттуда? Другой вариант, который, как я знаю, используют многие, - это Moses, представляющий собой полнофункциональный статистический пакет MT, но я считаю, что вы можете вызывать модели выравнивания изолированно, если это действительно все, что вам нужно.