Устранить частично повторяющиеся строки по столбцам и сохранить последние

Question

У меня есть файл, который выглядит так:

2011-03-21 name001 line1
2011-03-21 name002 line2
2011-03-21 name003 line3
2011-03-22 name002 line4
2011-03-22 name001 line5

для каждого имени я хочу только его последнее появление. Итак, я ожидаю, что результат будет:

2011-03-21 name003 line3
2011-03-22 name002 line4
2011-03-22 name001 line5

Может кто-нибудь дать мне решение с помощью bash/awk/sed?

bash awk sed text-processing

Источник

user404264 25 мар '11 в 07:52

4 ответа

Решение

awk '{a[$2]=$0} END {for (i in a) print a[i]}' file

Если важен порядок появления:

На основании первого появления:

awk '!a[$2] {b[++i]=$2} {a[$2]=$0} END {for (i in b) print a[b[i]]}' file

На основании последнего появления:

tac file | awk '!a[$2] {b[++i]=$2} {a[$2]=$0} END {for (i in b) print a[b[i]]}'

Источник

user149900 25 мар '11 в 08:04

sort < bar > foo
uniq  < foo > bar

бар теперь не имеет дублированных строк

Источник

user762766 23 июн '11 в 06:28

РЕДАКТИРОВАТЬ: Вот версия, которая на самом деле отвечает на вопрос.

sort -k 2 filename | while read f1 f2 f3; do if [ ! "$f2" = "$lf2" ]; then echo "$f1 $f2 $f3"; lf2="$f2"; fi; done

Источник

user616700 25 мар '11 в 07:54

Другие вопросы по тегам bash awk sed text-processing

user599693 25 мар '11 в 08:08 2011-03-25 08:08 · Accepted Answer · 2011-03-25 08:08

Этот код получает уникальные строки по второму полю, но из конца файла или текста (как в примере с вашим результатом)

tac temp.txt | sort -k2,2 -r -u

Источник

user599693 25 мар '11 в 08:08