Почему функция очистки текста не работает без декодирования в UTF8?
Я написал следующую функцию в Python 2.7 для очистки текста, но она не работает без декодирования переменной твита в utf8
# -*- coding: utf-8 -*-
import re
def clean_tweet(tweet):
tweet = re.sub(u"[^\u0622-\u064A]", ' ', tweet, flags=re.U)
return tweet
if __name__ == "__main__":
s="sadfas سيبس sdfgsdfg/dfgdfg ffeee منت منشس يت??بمنشس//تبي منشكسميكمنشسكيمنك ٌاإلا رًاٌااًٌَُ"
print "not working "+clean_tweet(s)
print "working "+clean_tweet(s.decode("utf-8"))
Кто-нибудь может объяснить, почему? Потому что я не хочу использовать декодирование, так как это делает манипулирование текстом в Sframe в graphlab слишком медленным.