Как мне обрезать пробелы?
Есть ли функция Python, которая будет обрезать пробелы (пробелы и табуляции) из строки?
Пример: \t example string\t
→ example string
15 ответов
Пробелы с обеих сторон:
s = " \t a string example\t "
s = s.strip()
Пробелы на правой стороне:
s = s.rstrip()
Пробелы на левой стороне:
s = s.lstrip()
Как указывает thedz, вы можете предоставить аргумент для thedz произвольных символов для любой из этих функций, например:
s = s.strip(' \t\n\r')
Это лишит любое пространство, \t
, \n
, или же \r
символы с левой стороны, с правой стороны или с обеих сторон строки.
В приведенных выше примерах удаляются только строки с левой и правой сторон строк. Если вы также хотите удалить символы из середины строки, попробуйте re.sub
:
import re
print re.sub('[\s+]', '', s)
Это должно распечатать:
astringexample
Питон trim
метод называется strip
:
str.strip() #trim
str.lstrip() #ltrim
str.rstrip() #rtrim
Для ведущих и конечных пробелов:
s = ' foo \t '
print s.strip() # prints "foo"
В противном случае регулярное выражение работает:
import re
pat = re.compile(r'\s+')
s = ' \t foo \t bar \t '
print pat.sub('', s) # prints "foobar"
Вы также можете использовать очень простую и основную функцию: str.replace (), работает с пробелами и вкладками:
>>> whitespaces = " abcd ef gh ijkl "
>>> tabs = " abcde fgh ijkl"
>>> print whitespaces.replace(" ", "")
abcdefghijkl
>>> print tabs.replace(" ", "")
abcdefghijkl
Просто и легко.
#how to trim a multi line string or a file
s=""" line one
\tline two\t
line three """
#line1 starts with a space, #2 starts and ends with a tab, #3 ends with a space.
s1=s.splitlines()
print s1
[' line one', '\tline two\t', 'line three ']
print [i.strip() for i in s1]
['line one', 'line two', 'line three']
#more details:
#we could also have used a forloop from the begining:
for line in s.splitlines():
line=line.strip()
process(line)
#we could also be reading a file line by line.. e.g. my_file=open(filename), or with open(filename) as myfile:
for line in my_file:
line=line.strip()
process(line)
#moot point: note splitlines() removed the newline characters, we can keep them by passing True:
#although split() will then remove them anyway..
s2=s.splitlines(True)
print s2
[' line one\n', '\tline two\t\n', 'line three ']
Пробел включает в себя пробел, вкладки и CRLF. Таким образом, элегантная и однострочная строковая функция, которую мы можем использовать, это translate.
' hello apple'.translate(None, ' \n\t\r')
ИЛИ если вы хотите быть тщательным
import string
' hello apple'.translate(None, string.whitespace)
Никто еще не опубликовал эти решения регулярных выражений.
Совпадение:
>>> import re
>>> p=re.compile('\\s*(.*\\S)?\\s*')
>>> m=p.match(' \t blah ')
>>> m.group(1)
'blah'
>>> m=p.match(' \tbl ah \t ')
>>> m.group(1)
'bl ah'
>>> m=p.match(' \t ')
>>> print m.group(1)
None
Поиск (вы должны по-разному обрабатывать регистр ввода "только пробелы"):
>>> p1=re.compile('\\S.*\\S')
>>> m=p1.search(' \tblah \t ')
>>> m.group()
'blah'
>>> m=p1.search(' \tbl ah \t ')
>>> m.group()
'bl ah'
>>> m=p1.search(' \t ')
>>> m.group()
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'NoneType' object has no attribute 'group'
Если вы используете re.sub
Вы можете удалить внутренние пробелы, что может быть нежелательным.
(re.sub(' +', ' ',(my_str.replace('\n',' ')))).strip()
Это удалит все ненужные пробелы и символы новой строки. Надеюсь это поможет
import re
my_str = ' a b \n c '
formatted_str = (re.sub(' +', ' ',(my_str.replace('\n',' ')))).strip()
Это приведет к:
"a b \n c" будет изменен на "a b c"
Посмотрев здесь довольно много решений с разной степенью понимания, я подумал, что делать, если строка была разделена запятыми...
эта проблема
При попытке обработать csv контактной информации мне требовалось решение этой проблемы: обрезать лишние пробелы и некоторый мусор, но сохранить запятые в конце и внутренние пробелы. Работая с полем, содержащим заметки о контактах, я хотел убрать мусор, оставив хорошее. Убрав все знаки препинания и чушь, я не хотел терять пробелы между составными токенами, так как не хотел перестраивать позже.
регулярное выражение и шаблоны: [\s_]+?\W+
Шаблон ищет отдельные экземпляры любого символа пробела и подчеркивания ('_') от 1 до неограниченного числа раз лениво (как можно меньше символов) с [\s_]+?
которые идут перед несловесными символами, встречающимися от 1 до неограниченного количества времени, с этим: \W+
(эквивалентно [^a-zA-Z0-9_]
). В частности, это находит ряды пробелов: нулевые символы (\0), табуляторы (\t), новые строки (\n), прямая связь (\f), возврат каретки (\r).
Я вижу в этом двоякое преимущество:
что он не удаляет пробелы между полными словами / токенами, которые вы, возможно, захотите сохранить вместе;
Встроенный строковый метод Python
strip()
не работает внутри строки, только левый и правый концы, а arg по умолчанию - это нулевые символы (см. пример ниже: в тексте есть несколько символов новой строки иstrip()
не удаляет их все, в то время как шаблон регулярного выражения делает).text.strip(' \n\t\r')
Это выходит за рамки вопроса OP, но я думаю, что есть много случаев, когда у нас могут быть странные, патологические экземпляры в текстовых данных, как это сделал я (в некоторых случаях escape-символы оказывались в некоторой части текста). Более того, в строках, подобных списку, мы не хотим удалять разделитель, если он не разделяет два символа пробела или какой-либо символ, не являющийся словом, например '-,' или '-,,,,'.
NB: Я не говорю о разделителе самого CSV. Только экземпляры в CSV, где данные похожи на список, т. Е. Представляют собой строку подстрок cs.
Полное раскрытие информации: я манипулировал текстом всего около месяца, а регулярное выражение - только последние две недели, поэтому я уверен, что есть некоторые нюансы, которые мне не хватает. Тем не менее, для небольших коллекций строк (мои находятся во фрейме данных из 12000 строк и 40 нечетных столбцов) в качестве последнего шага после прохода для удаления посторонних символов это работает исключительно хорошо, особенно если вы вводите дополнительные пробелы, где вы хотите разделить текст, к которому присоединен не-словесный символ, но не хотите добавлять пробелы там, где их раньше не было.
Пример:
import re
text = "\"portfolio, derp, hello-world, hello-, -world, founders, mentors, :, ?, %, ,>, , ffib, biff, 1, 12.18.02, 12, 2013, 9874890288, .., ..., ...., , ff, series a, exit, general mailing, fr, , , ,, co founder, pitch_at_palace, ba, _slkdjfl_bf, sdf_jlk, )_(, jim.somedude@blahblah.com, ,dd invites,subscribed,, master, , , , dd invites,subscribed, , , , \r, , \0, ff dd \n invites, subscribed, , , , , alumni spring 2012 deck: https: www.dropbox.com s, \n i69rpofhfsp9t7c practice 20ignition - 20june \t\n .2134.pdf 2109 \n\n\n\nklkjsdf\""
print(f"Here is the text as formatted:\n{text}\n")
print()
print("Trimming both the whitespaces and the non-word characters that follow them.")
print()
trim_ws_punctn = re.compile(r'[\s_]+?\W+')
clean_text = trim_ws_punctn.sub(' ', text)
print(clean_text)
print()
print("what about 'strip()'?")
print(f"Here is the text, formatted as is:\n{text}\n")
clean_text = text.strip(' \n\t\r') # strip out whitespace?
print()
print(f"Here is the text, formatted as is:\n{clean_text}\n")
print()
print("Are 'text' and 'clean_text' unchanged?")
print(clean_text == text)
Это выводит:
Here is the text as formatted:
"portfolio, derp, hello-world, hello-, -world, founders, mentors, :, ?, %, ,>, , ffib, biff, 1, 12.18.02, 12, 2013, 9874890288, .., ..., ...., , ff, series a, exit, general mailing, fr, , , ,, co founder, pitch_at_palace, ba, _slkdjfl_bf, sdf_jlk, )_(, jim.somedude@blahblah.com, ,dd invites,subscribed,, master, , , , dd invites,subscribed, ,, , , ff dd
invites, subscribed, , , , , alumni spring 2012 deck: https: www.dropbox.com s,
i69rpofhfsp9t7c practice 20ignition - 20june
.2134.pdf 2109
klkjsdf"
using regex to trim both the whitespaces and the non-word characters that follow them.
"portfolio, derp, hello-world, hello-, world, founders, mentors, ffib, biff, 1, 12.18.02, 12, 2013, 9874890288, ff, series a, exit, general mailing, fr, co founder, pitch_at_palace, ba, _slkdjfl_bf, sdf_jlk, jim.somedude@blahblah.com, dd invites,subscribed,, master, dd invites,subscribed, ff dd invites, subscribed, alumni spring 2012 deck: https: www.dropbox.com s, i69rpofhfsp9t7c practice 20ignition 20june 2134.pdf 2109 klkjsdf"
Very nice.
What about 'strip()'?
Here is the text, formatted as is:
"portfolio, derp, hello-world, hello-, -world, founders, mentors, :, ?, %, ,>, , ffib, biff, 1, 12.18.02, 12, 2013, 9874890288, .., ..., ...., , ff, series a, exit, general mailing, fr, , , ,, co founder, pitch_at_palace, ba, _slkdjfl_bf, sdf_jlk, )_(, jim.somedude@blahblah.com, ,dd invites,subscribed,, master, , , , dd invites,subscribed, ,, , , ff dd
invites, subscribed, , , , , alumni spring 2012 deck: https: www.dropbox.com s,
i69rpofhfsp9t7c practice 20ignition - 20june
.2134.pdf 2109
klkjsdf"
Here is the text, after stipping with 'strip':
"portfolio, derp, hello-world, hello-, -world, founders, mentors, :, ?, %, ,>, , ffib, biff, 1, 12.18.02, 12, 2013, 9874890288, .., ..., ...., , ff, series a, exit, general mailing, fr, , , ,, co founder, pitch_at_palace, ba, _slkdjfl_bf, sdf_jlk, )_(, jim.somedude@blahblah.com, ,dd invites,subscribed,, master, , , , dd invites,subscribed, ,, , , ff dd
invites, subscribed, , , , , alumni spring 2012 deck: https: www.dropbox.com s,
i69rpofhfsp9t7c practice 20ignition - 20june
.2134.pdf 2109
klkjsdf"
Are 'text' and 'clean_text' unchanged? 'True'
Таким образом, полоса удаляет по одному пробелу за раз. Итак, в случае OPs,strip()
Это хорошо. но если ситуация усложняется, регулярное выражение и аналогичный шаблон могут иметь некоторое значение для более общих настроек.
something = "\t please_ \t remove_ all_ \n\n\n\nwhitespaces\n\t "
something = "".join(something.split())
вывод: please_remove_all_whitespaces
При использовании Python 3: в вашем операторе печати завершите с sep="". Это выделит все пространства.
ПРИМЕР:
txt="potatoes"
print("I love ",txt,"",sep="")
Это напечатает: я люблю картошку.
Вместо: я люблю картошку.
В вашем случае, так как вы пытаетесь использовать \t, выполните sep="\t"
Если вы хотите обрезать пробелы только в начале и конце строки, вы можете сделать что-то вроде этого:
some_string = " Hello, world!\n "
new_string = some_string.strip()
# new_string is now "Hello, world!"
Это работает во многом аналогично методу QString::trimmed() в Qt, поскольку он удаляет начальные и конечные пробелы, оставляя только внутренние пробелы.
Но если вам нужно что-то вроде метода Qt QString::simpleified(), который не только удаляет начальные и конечные пробелы, но также "сжимает" все последовательные внутренние пробелы до одного символа пробела, вы можете использовать комбинацию .split()
а также " ".join
, нравится:
some_string = "\t Hello, \n\t world!\n "
new_string = " ".join(some_string.split())
# new_string is now "Hello, world!"
В этом последнем примере каждая последовательность внутренних пробелов заменяется одним пробелом, при этом пробелы в начале и конце строки удаляются.
Попробуй перевести
>>> import string
>>> print '\t\r\n hello \r\n world \t\r\n'
hello
world
>>> tr = string.maketrans(string.whitespace, ' '*len(string.whitespace))
>>> '\t\r\n hello \r\n world \t\r\n'.translate(tr)
' hello world '
>>> '\t\r\n hello \r\n world \t\r\n'.translate(tr).replace(' ', '')
'helloworld'
Как правило, я использую следующий метод:
>>> myStr = "Hi\n Stack Over \r flow!"
>>> charList = [u"\u005Cn",u"\u005Cr",u"\u005Ct"]
>>> import re
>>> for i in charList:
myStr = re.sub(i, r"", myStr)
>>> myStr
'Hi Stack Over flow'
Примечание: это только для удаления "\n", "\r" и "\t". Не удаляет лишние пробелы.
Для удаления пробелов из середины строки
$p = "ATGCGAC ACGATCGACC";
$p =~ s/\s//g;
print $p;
вывод: ATGCGACACGATCGACC
Это удалит все пробелы и символы новой строки как в начале, так и в конце строки:
>>> s = " \n\t \n some \n text \n "
>>> re.sub("^\s+|\s+$", "", s)
>>> "some \n text"