Нормализация текста Unicode на бенгальском языке

Я хочу выполнить нормализацию текста Unicode на бенгальском языке. Например: рассмотрим предложение: প্রায়শ্চিত্ত - মনীন্দ্র ও তার পড়াশুনা и প্রায়শ্চিত্ত - মণীন্দ্র ও তার পড়াশুনা и প্রায়শ্চিত্ত - মণীন্দ্র ও তার তার পড়াশুনা и отличаются в их значениях ASCII следующими способами (обратите внимание на разницу в ন и ণ в первом и втором предложении слова মনীন্দ্র):

ПРЕДЛОЖЕНИЕ 1: প্রায়শ্চিত্ত - মনীন্দ্র ও তার পড়াশুনা

[('প', 2474), ('্', 2509), ('র', 2480), ('া', 2494), ('য়', 2527), ('শ', 2486), ('্', 2509), ('চ', 2458), ('ি', 2495), ('ত', 2468), ('্', 2509), ('ত', 2468), (' ', 32), ('-', 45), (' ', 32), ('ম', 2478), ('ন', 2472), ('ী', 2496), ('ন', 2472), ('্', 2509), ('দ', 2470), ('্', 2509), ('র', 2480), (' ', 32), ('ও', 2451), (' ', 32), ('ত', 2468), ('া', 2494), ('র', 2480), (' ', 32), ('প', 2474), ('ড়', 2524), ('া', 2494), ('শ', 2486), ('ু', 2497), ('ন', 2472), ('া', 2494)]

ПРЕДЛОЖЕНИЕ 2: প্রায়শ্চিত্ত - মণীন্দ্র ও তার পড়াশুনা

[('প', 2474), ('্', 2509), ('র', 2480), ('া', 2494), ('য়', 2527), ('শ', 2486), ('্', 2509), ('চ', 2458), ('ি', 2495), ('ত', 2468), ('্', 2509), ('ত', 2468), (' ', 32), ('-', 45), (' ', 32), ('ম', 2478), ('ণ', 2467), ('ী', 2496), ('ন', 2472), ('্', 2509), ('দ', 2470), ('্', 2509), ('র', 2480), (' ', 32), ('ও', 2451), (' ', 32), ('ত', 2468), ('া', 2494), ('র', 2480), (' ', 32), ('প', 2474), (' ড়', 2524), ('া', 2494), ('শ', 2486), ('ু', 2497), ('ন', 2472), ('া', 2494)]

Я нашел эту библиотеку https://github.com/csebuetnlp/normalizer для нормализации, но она не показывает никакой разницы в значениях ASCII после нормализации входного текста. Также при использовании https://github.com/anoopkunchukuttan/indic_nlp_library нормализация текста происходит только для ограниченных символов, таких как пурна вирам ('|' точка). Любые предложения по нормализации будут полезны.

0 ответов

Другие вопросы по тегам