Почему функция очистки текста не работает без декодирования в UTF8?

Question

Почему функция очистки текста не работает без декодирования в UTF8?

Я написал следующую функцию в Python 2.7 для очистки текста, но она не работает без декодирования переменной твита в utf8

# -*- coding: utf-8 -*-
import re
def clean_tweet(tweet):
    tweet = re.sub(u"[^\u0622-\u064A]", ' ', tweet, flags=re.U)
return tweet
if __name__ == "__main__":
      s="sadfas    سيبس sdfgsdfg/dfgdfg ffeee منت   منشس      يت??بمنشس//تبي منشكسميكمنشسكيمنك ٌاإلا رًاٌااًٌَُ"
      print "not working "+clean_tweet(s)
      print "working "+clean_tweet(s.decode("utf-8"))

Кто-нибудь может объяснить, почему? Потому что я не хочу использовать декодирование, так как это делает манипулирование текстом в Sframe в graphlab слишком медленным.

0

python-2.7 utf-8 text-mining graphlab sframe

Источник

user4770859 05 янв '17 в 08:03

0 ответов

Другие вопросы по тегам python-2.7 utf-8 text-mining graphlab sframe