Как извлечь первые два символа строки в сценарии оболочки?

Question

Как извлечь первые два символа строки в сценарии оболочки?

Например, учитывая:

USCAGoleta9311734.5021-120.1287855805

Я хочу извлечь только:

US

152

bash shell grep sh gnu-coreutils

Источник

user171478 10 сен '09 в 14:28

15 ответов

Другие вопросы по тегам bash shell grep sh gnu-coreutils

user14860 10 сен '09 в 14:32 2009-09-10 14:32 · Answer 1 · 2009-09-10 14:32

Вероятно, самый эффективный метод, если вы используете bash Оболочка (и вы, по-видимому, основываясь на ваших комментариях) должна использовать вариант расширения параметров в виде строки:

pax> long="USCAGol.blah.blah.blah"
pax> short="${long:0:2}" ; echo "${short}"
US

Это установит short быть первыми двумя персонажами long, Если long короче двух символов, short будет идентичным этому.

Этот метод в оболочке обычно лучше, если вы собираетесь делать это много (например, 50000 раз на отчет, как вы упомянули), поскольку нет затрат на создание процесса. Все решения, которые используют внешние программы, пострадают от этих накладных расходов.

Если вы также хотите обеспечить минимальную длину, вы можете добавить ее заранее:

pax> long="A"
pax> tmpstr="${long}.."
pax> short="${tmpstr:0:2}" ; echo "${short}"
A.

Это гарантирует, что все, что меньше двух символов в длину, будет дополнено справа точками (или что-то еще, просто изменив символ, используемый при создании tmpstr). Непонятно, что вам это нужно, но я подумал, что я добавлю это для полноты.

Сказав, что есть несколько способов сделать это с внешними программами (например, если у вас нет bash доступны для вас), некоторые из которых являются:

short=$(echo "${long}" | cut -c1-2)
short=$(echo "${long}" | head -c2)
short=$(echo "${long}" | awk '{print substr ($0, 0, 2)}'
short=$(echo "${long}" | sed 's/^\(..\).*/\1/')

Первые два (cut а также head) одинаковы для однострочной строки - в основном оба возвращают первые два символа. Они отличаются тем, что cut даст вам первые два символа каждой строки и head даст вам первые два символа всего ввода

Третий использует awk функция подстроки, чтобы извлечь первые два символа и четвертый использует sed захватывать группы (используя () а также \1) захватить первые два символа и заменить ими всю строку. Они оба похожи на cut - они доставляют первые два символа каждой строки на входе.

Ничто из этого не имеет значения, если вы уверены, что ваш ввод состоит из одной строки, все они имеют одинаковый эффект.

user86837 10 сен '09 в 14:31 2009-09-10 14:31 · Answer 2 · 2009-09-10 14:31

Самый простой способ

${string:position:length}

Где это выдержки $length подстрока из $string в $position,

Это встроенный bash, поэтому awk или sed не требуются.

79

Источник

user86837 10 сен '09 в 14:31

user26428 10 сен '09 в 15:40 2009-09-10 15:40 · Answer 3 · 2009-09-10 15:40

Вы получили несколько хороших ответов, и я бы сам поработал над встроенным Bash, но так как вы спросили о sed а также awk и (почти) никто не предлагал решения на их основе, я предлагаю вам следующее:

echo "USCAGoleta9311734.5021-120.1287855805" | awk '{print substr($0,0,2)}'

а также

echo "USCAGoleta9311734.5021-120.1287855805" | sed 's/\(^..\).*/\1/'

awk один должен быть довольно очевидным, но вот объяснение sed один:

заменить "S /"
группа "()" из двух любых символов "..", начинающаяся в начале строки "^", за которой следует любой символ "." повторяется ноль или более раз "*" (обратная косая черта необходима для экранирования некоторых специальных символов)
"/" содержимое первой (и единственной, в данном случае) группы (здесь обратный слеш - это специальный escape, ссылающийся на соответствующее подвыражение)
сделанный "/"

user2261008 02 янв '17 в 18:33 2017-01-02 18:33 · Answer 4 · 2017-01-02 18:33

Просто grep

echo 'abcdef' | grep -Po "^.."        # ab

11

Источник

user2261008 02 янв '17 в 18:33

user178750 25 мар '18 в 22:42 2018-03-25 22:42 · Answer 5 · 2018-03-25 22:42

Если вы хотите использовать сценарии оболочки и не полагаться на не-posix-расширения (такие как так называемые bashisms), вы можете использовать методы, которые не требуют разветвления внешних инструментов, таких как grep, sed, cut, awk и т. Д., Которые затем сделать ваш сценарий менее эффективным. Может быть, в вашем случае эффективность и переносимость posix не важны. Но в случае, если это так (или просто как хорошая привычка), вы можете использовать следующий метод расширения параметра для извлечения первых двух символов переменной оболочки:

$ sh -c 'var=abcde; echo "${var%${var#??}}"'
ab

При этом используется расширение параметра "наименьший префикс" для удаления первых двух символов (это ${var#??} часть), затем расширение параметра "наименьший суффикс" (${var% часть), чтобы удалить эту строку "все, кроме первых двух символов" из исходного значения.

Этот метод был ранее описан в этом ответе на вопрос "Shell = Проверить, если переменная начинается с #". В этом ответе также описывается пара похожих методов расширения параметров, которые можно использовать в несколько ином контексте, чем тот, который применяется к исходному вопросу здесь.

user71343 10 сен '09 в 16:35 2009-09-10 16:35 · Answer 6 · 2009-09-10 16:35

Если вы в bash, ты можешь сказать:

bash-3.2$ var=abcd
bash-3.2$ echo ${var:0:2}
ab

Это может быть именно то, что вам нужно...

9

Источник

user71343 10 сен '09 в 16:35

user1054423 13 июн '19 в 20:37 2019-06-13 20:37 · Answer 7 · 2019-06-13 20:37

Вы можете использовать printf:

$ original='USCAGoleta9311734.5021-120.1287855805'
$ printf '%-.2s' "$original"
US

8

Источник

user1054423 13 июн '19 в 20:37

user115259 10 сен '09 в 15:44 2009-09-10 15:44 · Answer 8 · 2009-09-10 15:44

colrm - удалить столбцы из файла

Чтобы оставить первые два символа, просто удалите столбцы, начиная с 3

cat file | colrm 3

6

Источник

user115259 10 сен '09 в 15:44

user1002260 19 апр '13 в 01:27 2013-04-19 01:27 · Answer 9 · 2013-04-19 01:27

Довольно поздно, но вот оно

sed 's/.//3g'

Или же

awk NF=1 FPAT=..

Или же

perl -pe '$_=unpack a2'

4

Источник

user1002260 19 апр '13 в 01:27

user7723882 16 май '20 в 04:23 2020-05-16 04:23 · Answer 10 · 2020-05-16 04:23

Ради интереса я добавлю несколько, которые, хотя они слишком сложные и бесполезные, не упоминались:

head -c 2 <( echo 'USCAGoleta9311734.5021-120.1287855805')

echo 'USCAGoleta9311734.5021-120.1287855805' | dd bs=2 count=1 status=none

sed -e 's/^\(.\{2\}\).*/\1/;' <( echo 'USCAGoleta9311734.5021-120.1287855805')

cut -c 1-2 <( echo 'USCAGoleta9311734.5021-120.1287855805')

python -c "print(r'USCAGoleta9311734.5021-120.1287855805'[0:2])"

ruby -e 'puts "USCAGoleta9311734.5021-120.1287855805"[0..1]'

user895245 11 июл '21 в 13:50 2021-07-11 13:50 · Answer 11 · 2021-07-11 13:50

Как учитывать Unicode + UTF-8

Давайте проведем быстрый тест для тех, кто интересуется символами Unicode, а не просто байтами. Каждый персонаж áéíóú(гласные с острым ударением ) состоит из двух байтов в кодировке UTF-8. С:

      printf 'áéíóú' | LC_CTYPE=en_US.UTF-8 awk '{print substr($0,1,3);exit}'
printf 'áéíóú' | LC_CTYPE=C awk '{print substr($0,1,3);exit}'
printf 'áéíóú' | LC_CTYPE=en_US.UTF-8 head -c3
echo
printf 'áéíóú' | LC_CTYPE=C head -c3

мы получили:

      áéí
á
á
á

Итак, мы видим, что только + считал символы UTF-8. Другие подходы занимали всего три байта. Мы можем подтвердить это с помощью:

      printf 'áéíóú' | LC_CTYPE=C head -c3 | hd

который дает:

      00000000  c3 a1 c3                                          |...|
00000003

и c3 сам по себе является мусором и не отображается на терминале, поэтому мы видели только á.

awk + LC_CTYPE=en_US.UTF-8 однако фактически возвращает 6 байтов.

Мы также могли бы провести эквивалентное тестирование с помощью:

      printf '\xc3\xa1\xc3\xa9\xc3\xad\xc3\xb3\xc3\xba' | LC_CTYPE=en_US.UTF-8 awk '{print substr($0,1,3);exit}'

и если вам нужен общий параметр:

      n=3
printf 'áéíóú' | LC_CTYPE=en_US.UTF-8 awk "{print substr(\$0,1,$n);exit}"

Более конкретный вопрос о Unicode + UTF-8: https://superuser.com/questions/450303/unix-tool-to-output-first-n-characters-in-an-utf-8-encoded-file

Связанный: https://unix.stackexchange.com/questions/3454/grabbing-the-first-x-characters-for-a-string-from-a-pipe

Проверено на Ubuntu 21.04.

user393280 23 янв '17 в 20:43 2017-01-23 20:43 · Answer 12 · 2017-01-23 20:43

Если ваша система использует другую оболочку (не bash), но ваша система имеет bash, тогда вы все еще можете использовать присущие строки манипуляции bash вызывая bash с переменной:

strEcho='echo ${str:0:2}' # '${str:2}' if you want to skip the first two characters and keep the rest
bash -c "str=\"$strFull\";$strEcho;"

1

Источник

user393280 23 янв '17 в 20:43

user12195 10 сен '09 в 14:32 2009-09-10 14:32 · Answer 13 · 2009-09-10 14:32

Это то, что вы после?

my $string = 'USCAGoleta9311734.5021-120.1287855805';

my $first_two_chars = substr $string, 0, 2;

ref: substr

0

Источник

user12195 10 сен '09 в 14:32

user7780 10 сен '09 в 14:44 2009-09-10 14:44 · Answer 14 · 2009-09-10 14:44

perl -ple 's/^(..).*/$1/'

-1

Источник

user7780 10 сен '09 в 14:44

user152384 10 сен '09 в 14:33 2009-09-10 14:33 · Answer 15 · 2009-09-10 14:33

if mystring = USCAGoleta9311734.5021-120.1287855805

print substr(mystring,0,2)

будет печатать США

где 0 - начальная позиция, а 2 - как читать символы

-1

Источник

user152384 10 сен '09 в 14:33