Картирование мутации в месте хромосомы с помощью mapreduce/PIG или Disco

Question

Картирование мутации в месте хромосомы с помощью mapreduce/PIG или Disco

Цель: сопоставить местоположение мутации из файла1 с регионом или объектом из второго файла. Для этого вам нужно убедиться, что хромосома (chr1) и нити (+/-) одинаковы, прежде чем сравнивать местоположение хромосомы от файла 1 до областей файла2.

Вопрос: Как использовать mapreduce или Disco для отображения одного местоположения в регионе. Ака сформулировать местоположение -> область хромосомы в методе mapreduce?

Описание: у меня есть два файла среднего размера (10 ГБ) и два типа файлов, которые я хотел обработать. У меня уже есть эти файлы, проанализированные в базовом Python, но в будущем мне, вероятно, придется анализировать много более похожих файлов, поэтому я хотел попробовать это с mapreduce (hadoop/Pig, чтобы быть более конкретным) или Disco, чтобы изучить.

В то время как я могу запускать узлы в кластере EC2, в идеале - один кластерный хэдпуп (да, я знаю, что это побеждает цель) или что-то вроде Disco или Sparc.

Мне нравится идея использовать Pig, потому что это сократит процесс до простой обработки файла из файлов.csv, но я понятия не имею, как использовать mapreduce для сопоставления чего-либо с регионом вместо просто пары ключ / значение

Вот наглядное представление о том, о чем я думал: о чем думал. http://oi39.tinypic.com/34q38qs.jpg

Информация о файле:

Первый файл - мутации SNP рака TCGA. Некоторые важные функции включают в себя
- Расположение хромосомы
- Номер хромосомы
- нитка
- идентификатор образца
- остальное не так важно
3'последовательность UTR.
- Место начала хромосомы: int
- Конечное местоположение хромосомы: int
- Номер хромосомы: chrX
- прядь +/-
- идентификатор гена
- остальное не так важно

примеры файлов здесь: два примера файлов

Наконец, Python - мой язык для этого, если это имеет значение.

1

python mapreduce apache-pig bioinformatics disco

Источник

user2059561 03 июн '13 в 18:49

0 ответов

Другие вопросы по тегам python mapreduce apache-pig bioinformatics disco