Как разбить китайский абзац на предложения в Python?

Так как китайский язык отличается от английского, как мы можем разделить китайский абзац на предложения (в Python)? Образец китайского абзаца дан как

我是中文段落, 如何为我分句呢? 我的宗旨是 "先谷歌搜索, 再来问问题", 我已经搜索了, 但是没找到好的答案.

Насколько мне известно,

from nltk import tokenize
tokenize.sent_tokenize(paragraph, "chinese")

не работает, потому что tokenize.sent_tokenize() не поддерживает китайский

Все методы, которые я нашел в поиске Google, основаны на регулярных выражениях (например,

re.split('(。|!|\!|\.|?|\?)', paragraph_variable)

). Эти методы не достаточно полны. Кажется, что нет единого шаблона регулярного выражения, который можно было бы использовать для правильного разбиения китайского абзаца на предложения. Я предполагаю, что должны быть некоторые изученные образцы, чтобы выполнить эту задачу. Но я не могу их найти.

0 ответов

Другие вопросы по тегам