Эффективное хранение данных для нуклеотидов с обычными повторами

Я работаю над забавной проблемой, связанной с поиском более эффективного способа хранения генома человеческого малярийного паразита, и я подумал, что было бы полезно получить некоторые из наших идей!

Итак, вот справочная информация: предположим, что мы используем только 2 бита для хранения всех 4 нуклеотидов генома (A, C, T, G), но поскольку геном все еще СУПЕР длинный, мы знаем, что он занимает тонну пространства, Тем не менее, мы знаем, что 80% генома - это либо А, либо Т - как мы можем использовать эти знания в своих интересах для более эффективного хранения генома?

Сейчас я играю с парой идей:

  1. Найдите способ кодировать большие строки из A или большие строки из T - для этого потребуется более 2 бит, но если строки особенно большие, это может уменьшить размер. Например, если "01" был кодом для "T", "1101" мог бы быть кодом для "3 T" (используя обычную двоичную систему после первых двух битов). Это спасло бы нас от двух битов.
  2. Просто сохраните A как "0" и T как "1", чтобы уменьшить количество битов, используемых этими буквами.

У кого-нибудь еще есть хорошие идеи сделать это хранилище данных максимально эффективным? Я хотел бы услышать их и обсудить!

0 ответов

Другие вопросы по тегам