Представляет последовательность байтовых строк в формате фарси
У меня есть последовательность символов UTF-8, например что-то вроде этого:
\xd8\xa2\xd8\xb4\xd9\x86\xd8\xa7\xdb\x8c\xdb\x8c \xd8\xa8\xd8\xa7 \xd8\xa2\xd8\xb1\xd9\x85\xd8\xa7\xd9\x86 \xd9\xbe\xd8\xb1\xd9\x88\xda\x98\xd9\x87 \xd9\x84\xd8\xba\xd8\xaa \xd9\x86\xd8\xa7\xd9\x85\xd9\x87 \xd8\xa2\xd8\xb2\xd8\xa7\xd8\xaf
Я знаю, что это с сайта фарси и должен представлять некоторые слова на фарси. Как я могу представить эту последовательность с помощью символов фарси?
Я использую Python для своей работы.
1 ответ
Решение
Вам просто нужно обработать последовательность байтов как последовательность байтов, поставив перед литералом букву b
и затем декодирование как UTF-8. Вот так:
$ python3
>>> text = b'\xd8\xa2\xd8\xb4\xd9\x86\xd8\xa7\xdb\x8c\xdb\x8c \xd8\xa8\xd8\xa7 \xd8\xa2\xd8\xb1\xd9\x85\xd8\xa7\xd9\x86 \xd9\xbe\xd8\xb1\xd9\x88\xda\x98\xd9\x87 \xd9\x84\xd8\xba\xd8\xaa \xd9\x86\xd8\xa7\xd9\x85\xd9\x87 \xd8\xa2\xd8\xb2\xd8\xa7\xd8\xaf'
>>> text.decode('utf-8')
'آشنایی با آرمان پروژه لغت نامه آزاد'