Токенизация не английского текста в предложениях Python

Question

Токенизация не английского текста в предложениях Python

У меня есть арабский текстовый файл, который выглядит следующим образом

اغاني و اغانياخلاق تربطنا ساخنه بن الخطاب حريم منتدى نضال و امراه اخرى قابيل و قوموا جميعا حاله الجو متى و انا نحن احبابك رامي مرض النقرس ماذا تاكل. افضل من قلب راشد ليش اتعب دار

Я хочу создать список предложений из этого абзаца, используя python, если каждое предложение отделено точкой.

Я нашел этот ответ: токенизация не английского текста в Python

Он разбивает текст на слова, а не на предложения.

Я тоже пробовал это

from nltk.tokenize import sent_tokenize, word_tokenize
import regex
text = "اغاني و اغانياخلاق تربطنا ساخنه بن الخطاب حريم منتدى نضال و امراه اخرى قابيل و قوموا جميعا حاله الجو متى و انا نحن احبابك رامي مرض النقرس ماذا تاكل‪.‬ افضل من قلب راشد ليش اتعب" 
regex.findall(r'\p{L}+', text.replace('[\u200c]', ''))
print(sent_tokenize(data))

Он вернул текст, разделенный '\ u202a'

زيز 240 و انا بدرب منال تاريخ\u202a.\u202c برقاء

NB: предложение не имеет никакого смысла, это всего лишь пример арабских символов.

Мне нужно, чтобы вывод был в форме предложений:

[اغاني و اغانياخلاق تربطنا ساخنه , بن الخطاب حريم منتدى نضال و امراه , انا نحن,  احبابك رامي مرض , النقرس ماذا]

что значит:

[sentence 1, sentence 2, sentence, 3]

0

python python-3.x string stringtokenizer

Источник

user7000874 23 ноя '18 в 18:05

0 ответов

Другие вопросы по тегам python python-3.x string stringtokenizer