Имеет ли Пикард markupplicate переключить ПЦР дублировать samflag

У меня есть файл RNA-seq bam, и меня мало удивляют чтения.

В соответствии с заголовком bam этот файл bam сортируется по координатам, созданный с использованием tophat, и шаг markduplicate не выполняется. Но некоторые чтения помечены как дубликаты в samflag. Что еще хуже, когда я запускаю picard markduplicate, флаг чтения этих pcr дублируется, помечая их как не дубликаты. Также я вручную нашел дубликат этого чтения (идентичные чтения с одинаковыми начальными позициями и начальной позицией сопряжений), поэтому начальная маркировка выглядит верно.

Итак, мои вопросы:
Есть идеи, почему это случилось?
Знак Tophat читает для того, чтобы быть дубликатом? (Я так не думаю)
И будет ли Picard Markduplicate переключаться, если чтения уже помечены для дублирования?

Вот как выглядит чтение до и после шага отметки дубликата.
До:
C0RTF 1187 17 7579880 255 61M10754N40M = 7579927 10902 CTC...
0UNP1 163 17 7579880 255 61M10754N40M = 7579927 10902 CTC...

После Markduplicate
C0RTF 163 17 7579880 255 61M10754N40M = 7579927 10902 CTC...
0UNP1 163 17 7579880 255 61M10754N40M = 7579927 10902 CTC...

Спасибо

0 ответов

Другие вопросы по тегам