Токенизация не английского текста в предложениях Python
У меня есть арабский текстовый файл, который выглядит следующим образом
اغاني و اغانياخلاق تربطنا ساخنه بن الخطاب حريم منتدى نضال و امراه اخرى قابيل و قوموا جميعا حاله الجو متى و انا نحن احبابك رامي مرض النقرس ماذا تاكل. افضل من قلب راشد ليش اتعب دار
Я хочу создать список предложений из этого абзаца, используя python, если каждое предложение отделено точкой.
Я нашел этот ответ: токенизация не английского текста в Python
Он разбивает текст на слова, а не на предложения.
Я тоже пробовал это
from nltk.tokenize import sent_tokenize, word_tokenize
import regex
text = "اغاني و اغانياخلاق تربطنا ساخنه بن الخطاب حريم منتدى نضال و امراه اخرى قابيل و قوموا جميعا حاله الجو متى و انا نحن احبابك رامي مرض النقرس ماذا تاكل. افضل من قلب راشد ليش اتعب"
regex.findall(r'\p{L}+', text.replace('[\u200c]', ''))
print(sent_tokenize(data))
Он вернул текст, разделенный '\ u202a'
زيز 240 و انا بدرب منال تاريخ\u202a.\u202c برقاء
NB: предложение не имеет никакого смысла, это всего лишь пример арабских символов.
Мне нужно, чтобы вывод был в форме предложений:
[اغاني و اغانياخلاق تربطنا ساخنه , بن الخطاب حريم منتدى نضال و امراه , انا نحن, احبابك رامي مرض , النقرس ماذا]
что значит:
[sentence 1, sentence 2, sentence, 3]