Картирование мутации в месте хромосомы с помощью mapreduce/PIG или Disco
Цель: сопоставить местоположение мутации из файла1 с регионом или объектом из второго файла. Для этого вам нужно убедиться, что хромосома (chr1) и нити (+/-) одинаковы, прежде чем сравнивать местоположение хромосомы от файла 1 до областей файла2.
Вопрос: Как использовать mapreduce или Disco для отображения одного местоположения в регионе. Ака сформулировать местоположение -> область хромосомы в методе mapreduce?
Описание: у меня есть два файла среднего размера (10 ГБ) и два типа файлов, которые я хотел обработать. У меня уже есть эти файлы, проанализированные в базовом Python, но в будущем мне, вероятно, придется анализировать много более похожих файлов, поэтому я хотел попробовать это с mapreduce (hadoop/Pig, чтобы быть более конкретным) или Disco, чтобы изучить.
В то время как я могу запускать узлы в кластере EC2, в идеале - один кластерный хэдпуп (да, я знаю, что это побеждает цель) или что-то вроде Disco или Sparc.
Мне нравится идея использовать Pig, потому что это сократит процесс до простой обработки файла из файлов.csv, но я понятия не имею, как использовать mapreduce для сопоставления чего-либо с регионом вместо просто пары ключ / значение
Вот наглядное представление о том, о чем я думал: о чем думал. http://oi39.tinypic.com/34q38qs.jpg
Информация о файле:
Первый файл - мутации SNP рака TCGA. Некоторые важные функции включают в себя
- Расположение хромосомы
- Номер хромосомы
- нитка
- идентификатор образца
- остальное не так важно
3'последовательность UTR.
- Место начала хромосомы: int
- Конечное местоположение хромосомы: int
- Номер хромосомы: chrX
- прядь +/-
- идентификатор гена
- остальное не так важно
примеры файлов здесь: два примера файлов
Наконец, Python - мой язык для этого, если это имеет значение.