Удалить смайлики и символы с помощью Python

Мне нужно почистить данные из твиттера и получить вывод на арабском языке. Я использовал этот код:

    # -*- coding: cp1256 -*-
from twython import Twython, TwythonError
import re

APP_KEY="my appkey"
APP_SECRET="my app secret key "
OAUTH_TOKEN="app outh token"
OAUTH_TOKEN_SECRET="app outh token secret "

# Requires Authentication as of Twitter API v1.1
twitter = Twython(APP_KEY, APP_SECRET, OAUTH_TOKEN, OAUTH_TOKEN_SECRET)
try:
    search_results = twitter.search(q='الاعلام', lang='ar', count=1500)

except TwythonError as e:
    print e

for tweet in search_results['statuses']:
    ['screen_name'].encode('utf-8'),tweet['created_at'])
    tweet_before_cleaning=tweet['text'].encode('utf-8'), '\n'
    search_results = re.sub(r"(?:\@|ftps?\://|https?\://)\S+", "",tweet_before_cleaning[0])
    search_results = re.sub(r"#","",search_results ).strip()
    search_results = re.sub(r"[a-zA-Z]+","",search_results ).strip()
    search_results = re.sub(r"[-\.:_.!?(){}\/]","",search_results ).strip()
    search_results = re.sub(r"\b","",search_results ).strip()
    print search_results

Я могу получить вывод на нужную тему, но с некоторыми специальными символами, такими как ( ... или " ") и некоторыми смайликами. Мне нужно очистить вывод таких персонажей и смайликов. Есть ли способ в Python, который может быть реализован с использованием моего существующего кода, который может удалить их?

0 ответов

Другие вопросы по тегам