Извлечь строки между 2 токенами в текстовом файле, используя bash

Question

Извлечь строки между 2 токенами в текстовом файле, используя bash

У меня есть текстовый файл, который выглядит так:

random useless text 
<!-- this is token 1 --> 
para1 
para2 
para3 
<!-- this is token 2 --> 
random useless text again

Я хочу извлечь текст между токенами (исключая токены, конечно). Я пытался использовать ## и %% для извлечения данных между ними, но это не сработало. Я думаю, что он не предназначен для манипулирования такими большими текстовыми файлами. Любые предложения, как я могу это сделать? может быть, awk или sed?

22

bash

Источник

user343022 31 янв '11 в 23:42

6 ответов

Решение

Нет необходимости head а также tail или же grep или прочитать файл несколько раз:

sed -n '/<!-- this is token 1 -->/{:a;n;/<!-- this is token 2 -->/b;p;ba}' inputfile

Объяснение:

-n - не делайте неявной печати
//{ - если начальный маркер найден, то
- :a - ярлык "а"
  - n - читать следующую строку
  - //q - если это маркер окончания, выйдите
  - p - иначе выведите строку
- ba - ветвь с меткой "а"
} конец, если

42

Источник

user26428 01 фев '11 в 01:28

Возможно, у sed и awk есть более элегантные решения, но у меня есть подход "бедного человека" с grep, cut, head и tail.

#!/bin/bash

dataFile="/path/to/some/data.txt"
startToken="token 1"
stopToken="token 2"

startTokenLine=$( grep -n "${startToken}" "${dataFile}" | cut -f 1 -d':' )
stopTokenLine=$( grep -n "${stopToken}" "${dataFile}" | cut -f 1 -d':' )

let stopTokenLine=stopTokenLine-1
let tailLines=stopTokenLine-startTokenLine

head -n ${stopTokenLine} ${dataFile} | tail -n ${tailLines}

2

Источник

user595614 31 янв '11 в 23:58

Попробуйте следующее:

sed -n '/<!-- this is token 1 -->/,/<!-- this is token 2 -->/p' your_input_file
        | egrep -v '<!-- this is token . -->'

1

Источник

user276052 31 янв '11 в 23:47

Не нужно называть могучий sed / awk / perl. Вы можете сделать это "только для bash":

#!/bin/bash
STARTFLAG="false"
while read LINE; do
    if [ "$STARTFLAG" == "true" ]; then
            if [ "$LINE" == '<!-- this is token 2 -->' ];then
                    exit
            else
                    echo "$LINE"
            fi
    elif [ "$LINE" == '<!-- this is token 1 -->' ]; then
            STARTFLAG="true"
            continue
    fi
done < t.txt

С уважением

Realex

1

Источник

user7594200 20 фев '17 в 16:44

За что-нибудь подобное я бы потянулся к Perl с его комбинацией (среди прочих) sed а также awk возможностей. Что-то вроде (будьте осторожны - не проверено):

my $recording = 0;
my @results = ();
while (<STDIN>) {
   chomp;
   if (/token 1/) {
      $recording = 1;
   }
   else if (/token 2/) {
      $recording = 0;
   }
   else if ($recording) {
      push @results, $_;
   }
}

0

Источник

user12960 31 янв '11 в 23:46

sed -n "/TOKEN1/,/TOKEN2/p" <YOUR INPUT FILE> | sed -e '/TOKEN1/d' -e '/TOKEN2/d'

0

Источник

user670195 12 ноя '20 в 19:40

Другие вопросы по тегам bash

user573420 31 янв '11 в 23:49 2011-01-31 23:49 · Accepted Answer · 2011-01-31 23:49

Вы можете извлечь его, включая токены с помощью sed. Затем используйте голову и хвост, чтобы снять жетоны.

... | sed -n "/ это токен 1/,/ это токен 2/p" | голова -n-1 | хвост -n+2

26

Источник

user573420 31 янв '11 в 23:49