Сложность разбора текстового файла с FTP скачать
t2=url("ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE1nnn/GSE1000/matrix/", open = "", blocking = TRUE, encoding = getOption("encoding"))
t2
t2=t2[-2]
isOpen(t2)
t2= readLines(t2, n = 4200)
t2[4010]
summary(t2)
С помощью приведенного выше кода я могу получить FTP-файл, но я не могу дальше строить? Я могу видеть данные.
Но я не могу разместить его в таблице. Кто-нибудь может помочь
2 ответа
Код ниже будет читать данные без проблем:
dta <- read.csv("ftp://ftp.ncbi.nih.gov/genbank/genomes/Bacteria/Escherichia_coli_K_12_substr__MG1655_uid225/U00096.ptt",
header = TRUE, skip = 2, sep = "\t")
Я предполагаю, что вы после фрейма данных:
> head(dta)
Location Strand Length PID Gene Synonym Code COG Product
1 190..255 + 21 1786182 thrL b0001 - - thr operon leader peptide
2 337..2799 + 820 1786183 thrA b0002 - - Bifunctional aspartokinase/homoserine dehydrogenase 1
3 2801..3733 + 310 1786184 thrB b0003 - - homoserine kinase
4 3734..5020 + 428 1786185 thrC b0004 - - L-threonine synthase
5 5234..5530 + 98 1786186 yaaX b0005 - - DUF2502 family putative periplasmic protein
6 5683..6459 - 258 1786187 yaaA b0006 - - peroxide resistance protein, lowers intracellular iron
Чтобы упростить импорт, я пропустил первые две строки:
Escherichia coli str. K-12 substr. MG1655, complete genome. - 1..4641652
4140 proteins
Location Strand Length PID Gene Synonym Code COG Product
190..255 + 21 1786182 thrL b0001 - - thr operon leader peptide
Если вы хотите прочитать весь файл, я бы посоветовал вам посмотреть этот пост. Вы можете прочитать все целиком и получить доступ к первым двум строкам по отдельности, а затем импортировать остальное в кадр данных.
Тестирую мой комментарий:
read.delim( text=c("4350031..4351662\t-\t543\t1790567\tdcuS\tb4125\t-\t-\tsensory histidine kinase in two-component regulatory system with DcuR, regulator of anaerobic fumarate respiration" ,
"4351843..4352073\t+\t76\t1790568\tyjdI\tb4126\t-\t-\tputative 4Fe-4S mono-cluster protein" ), header=FALSE)
#---------
V1 V2 V3 V4 V5 V6 V7 V8
1 4350031..4351662 - 543 1790567 dcuS b4125 - -
2 4351843..4352073 + 76 1790568 yjdI b4126 - -
V9
1 sensory histidine kinase in two-component regulatory system with DcuR, regulator of anaerobic fumarate respiration
2 putative 4Fe-4S mono-cluster protein
Я подозреваю, что первая строка на самом деле является заголовком, так как это, кажется, шаблон в файлах README, которые я просматривал на этом FTP-сайте, так что вы, вероятно, удалили бы header=FALSE
, Это только линии [3883- 3884].