Как сохранить символ новой строки в токенайзере предложений TextBlob

Наш вышестоящий JSON API использует r'\n' для разделения абзацев и дает нам текстовый фрагмент:

"Мы, сомалийцы, сами решаем наше будущее", - говорит он, - "к лучшему или к худшему". Шейхи Залива могут вскоре усвоить этот урок.\ N Джеймс Х. Барнетт - сотрудник по общественным интересам в Вашингтоне, округ Колумбия.\ N Мы - участник в партнерской программе Amazon Services LLC - партнерской рекламной программе, предназначенной для того, чтобы дать нам возможность зарабатывать, связываясь с Amazon.com и аффилированными сайтами.

Когда я анализирую это с помощью Textblob.sentences, это приводит к предложению.string без символа новой строки. Но я хотел бы увидеть (и проверить это). Кто-нибудь знает, как это сделать?

Изучение документации привело меня к токенайзеру Punkt от nltk, который, похоже, не имеет простого способа сохранить переводы строк, и мне не хватает отладок регулярных выражений, чтобы понять это на данный момент. Помогите? Большое спасибо!

0 ответов

Другие вопросы по тегам