Как я могу удалить escape-последовательности ANSI из строки в Python
Это моя строка:
'ls\r\n\x1b[00m\x1b[01;31mexamplefile.zip\x1b[00m\r\n\x1b[01;31m'
Я использовал код для получения вывода из команды SSH, и я хочу, чтобы моя строка содержала только "examplefile.zip"
Что я могу использовать для удаления лишних escape-последовательностей?
9 ответов
Удалите их с помощью регулярного выражения:
import re
ansi_escape = re.compile(r'\x1B\[[0-?]*[ -/]*[@-~]')
ansi_escape.sub('', sometext)
Демо-версия:
>>> import re
>>> ansi_escape = re.compile(r'\x1B\[[0-?]*[ -/]*[@-~]')
>>> sometext = 'ls\r\n\x1b[00m\x1b[01;31mexamplefile.zip\x1b[00m\r\n\x1b[01;31m'
>>> ansi_escape.sub('', sometext)
'ls\r\nexamplefile.zip\r\n'
(Я привел в порядок выражение escape-последовательности, чтобы следовать обзору Escape-кодов ANSI в Википедии, уделяя особое внимание последовательностям CSI и игнорируя коды C1, поскольку они никогда не используются в современном мире UTF-8).
Принятый ответ на этот вопрос учитывает только эффекты цвета и шрифта. Существует множество последовательностей, которые не заканчиваются на "m", таких как расположение курсора, стирание и прокрутка областей.
Полное регулярное выражение для управляющих последовательностей (иначе как ANSI Escape-последовательности)
/(\x9B|\x1B\[)[0-?]*[ -\/]*[@-~]/
Обратитесь к разделу 5.4 ECMA-48 и коду выхода ANSI.
функция
Основано на ответе Мартин Питерс с регулярным выражением Джеффа.
def escape_ansi(line):
ansi_escape = re.compile(r'(\x9B|\x1B\[)[0-?]*[ -/]*[@-~]')
return ansi_escape.sub('', line)
Тестовое задание
def test_remove_ansi_escape_sequence(self):
line = '\t\u001b[0;35mBlabla\u001b[0m \u001b[0;36m172.18.0.2\u001b[0m'
escaped_line = escape_ansi(line)
self.assertEqual(escaped_line, '\tBlabla 172.18.0.2')
тестирование
Если вы хотите запустить его самостоятельно, используйте python3
(лучше поддержка юникода, блаблабла). Вот как должен быть тестовый файл:
import unittest
import re
def escape_ansi(line):
…
class TestStringMethods(unittest.TestCase):
def test_remove_ansi_escape_sequence(self):
…
if __name__ == '__main__':
unittest.main()
Предложенное регулярное выражение не помогло мне, поэтому я создал свой собственный. Ниже приведено регулярное выражение Python, которое я создал на основе спецификации, найденной здесь.
ansi_regex = r'\x1b(' \
r'(\[\??\d+[hl])|' \
r'([=<>a-kzNM78])|' \
r'([\(\)][a-b0-2])|' \
r'(\[\d{0,2}[ma-dgkjqi])|' \
r'(\[\d+;\d+[hfy]?)|' \
r'(\[;?[hf])|' \
r'(#[3-68])|' \
r'([01356]n)|' \
r'(O[mlnp-z]?)|' \
r'(/Z)|' \
r'(\d+)|' \
r'(\[\?\d;\d0c)|' \
r'(\d;\dR))'
ansi_escape = re.compile(ansi_regex, flags=re.IGNORECASE)
Я протестировал свое регулярное выражение в следующем фрагменте (в основном, копирование вставки со страницы ascii-table.com)
\x1b[20h Set
\x1b[?1h Set
\x1b[?3h Set
\x1b[?4h Set
\x1b[?5h Set
\x1b[?6h Set
\x1b[?7h Set
\x1b[?8h Set
\x1b[?9h Set
\x1b[20l Set
\x1b[?1l Set
\x1b[?2l Set
\x1b[?3l Set
\x1b[?4l Set
\x1b[?5l Set
\x1b[?6l Set
\x1b[?7l Reset
\x1b[?8l Reset
\x1b[?9l Reset
\x1b= Set
\x1b> Set
\x1b(A Set
\x1b)A Set
\x1b(B Set
\x1b)B Set
\x1b(0 Set
\x1b)0 Set
\x1b(1 Set
\x1b)1 Set
\x1b(2 Set
\x1b)2 Set
\x1bN Set
\x1bO Set
\x1b[m Turn
\x1b[0m Turn
\x1b[1m Turn
\x1b[2m Turn
\x1b[4m Turn
\x1b[5m Turn
\x1b[7m Turn
\x1b[8m Turn
\x1b[1;2 Set
\x1b[1A Move
\x1b[2B Move
\x1b[3C Move
\x1b[4D Move
\x1b[H Move
\x1b[;H Move
\x1b[4;3H Move
\x1b[f Move
\x1b[;f Move
\x1b[1;2 Move
\x1bD Move/scroll
\x1bM Move/scroll
\x1bE Move
\x1b7 Save
\x1b8 Restore
\x1bH Set
\x1b[g Clear
\x1b[0g Clear
\x1b[3g Clear
\x1b#3 Double-height
\x1b#4 Double-height
\x1b#5 Single
\x1b#6 Double
\x1b[K Clear
\x1b[0K Clear
\x1b[1K Clear
\x1b[2K Clear
\x1b[J Clear
\x1b[0J Clear
\x1b[1J Clear
\x1b[2J Clear
\x1b5n Device
\x1b0n Response:
\x1b3n Response:
\x1b6n Get
\x1b[c Identify
\x1b[0c Identify
\x1b[?1;20c Response:
\x1bc Reset
\x1b#8 Screen
\x1b[2;1y Confidence
\x1b[2;2y Confidence
\x1b[2;9y Repeat
\x1b[2;10y Repeat
\x1b[0q Turn
\x1b[1q Turn
\x1b[2q Turn
\x1b[3q Turn
\x1b[4q Turn
\x1b< Enter/exit
\x1b= Enter
\x1b> Exit
\x1bF Use
\x1bG Use
\x1bA Move
\x1bB Move
\x1bC Move
\x1bD Move
\x1bH Move
\x1b12 Move
\x1bI
\x1bK
\x1bJ
\x1bZ
\x1b/Z
\x1bOP
\x1bOQ
\x1bOR
\x1bOS
\x1bA
\x1bB
\x1bC
\x1bD
\x1bOp
\x1bOq
\x1bOr
\x1bOs
\x1bOt
\x1bOu
\x1bOv
\x1bOw
\x1bOx
\x1bOy
\x1bOm
\x1bOl
\x1bOn
\x1bOM
\x1b[i
\x1b[1i
\x1b[4i
\x1b[5i
Надеюсь, это поможет другим:)
ни одно из решений регулярных выражений не работало в моем случае с последовательностями OSC (
\x1b]
)
чтобы на самом деле отображать видимый вывод, вам понадобится эмулятор терминала, такой как pyte
#! /usr/bin/env python3
import pyte # terminal emulator: render terminal output to visible characters
pyte_screen = pyte.Screen(80, 24)
pyte_stream = pyte.ByteStream(pyte_screen)
bytes_ = b''.join([
b'$ cowsay hello\r\n', b'\x1b[?2004l', b'\r', b' _______\r\n',
b'< hello >\r\n', b' -------\r\n', b' \\ ^__^\r\n',
b' \\ (oo)\\_______\r\n', b' (__)\\ )\\/\\\r\n',
b' ||----w |\r\n', b' || ||\r\n',
b'\x1b]0;user@laptop1:/tmp\x1b\\', b'\x1b]7;file://laptop1/tmp\x1b\\', b'\x1b[?2004h$ ',
])
pyte_stream.feed(bytes_)
# pyte_screen.display always has 80x24 characters, padded with whitespace
# -> use rstrip to remove trailing whitespace from all lines
text = ("".join([line.rstrip() + "\n" for line in pyte_screen.display])).strip() + "\n"
print("text", text)
print("cursor", pyte_screen.cursor.y, pyte_screen.cursor.x)
print("title", pyte_screen.title)
мой случай, когда я использую pexect.
child.sendline("ls backup")
child.expect(r"[0-9]{8}_[0-9]{4}.*")
print(child.after.split())
-> NG ['20231016_1603\x1b[0m', '\x1b[01;34m20231016_1606\x1b[0m']
* Add ls option
child.sendline("ls --color=never backup")
child.expect(r"[0-9]{8}_[0-9]{4}.*")
print(child.after.split())
-> OK! ['20231016_1603', '20231016_1606']
Если вы хотите удалить \r\n
немного, вы можете передать строку через эту функцию ( написано sarnold):
def stripEscape(string):
""" Removes all escape sequences from the input string """
delete = ""
i=1
while (i<0x20):
delete += chr(i)
i += 1
t = string.translate(None, delete)
return t
Осторожно, однако, это сведет воедино текст перед и за escape-последовательностями. Итак, используя отфильтрованную строку Мартина 'ls\r\nexamplefile.zip\r\n'
, ты получишь lsexamplefile.zip
, Обратите внимание ls
перед желаемым именем файла.
Я бы сначала использовал функцию stripEscape, чтобы удалить escape-последовательности, а затем передать вывод регулярному выражению Мартина, что позволило бы избежать конкатенации нежелательного бита.
Для 2020 с python 3.5 это так же просто, как
string.encode().decode('ascii')
ascii_string = 'ls\r\n\x1b[00m\x1b[01;31mexamplefile.zip\x1b[00m\r\n\x1b[01;31m'
decoded_string = ascii_string.encode().decode('ascii')
print(decoded_string)
>ls
>examplefile.zip
>
Если это поможет будущим stackruers, я использовал библиотеку crayons, чтобы сделать вывод Python немного более визуальным, что является преимуществом, поскольку оно работает как на платформах Windows, так и на Linux. Однако я одновременно отображал на экране и добавлял файлы журнала, и escape-последовательности влияли на читаемость файлов журнала, поэтому я хотел их вырезать. Однако escape-последовательности, вставленные мелками, вызвали ошибку:
expected string or bytes-like object
Решением было преобразовать параметр в строку, поэтому потребовалось лишь небольшое изменение общепринятого ответа:
def escape_ansi(line):
ansi_escape = re.compile(r'(\x9B|\x1B\[)[0-?]*[ -/]*[@-~]')
return ansi_escape.sub('', str(line))