Сложность разбора текстового файла с FTP скачать

t2=url("ftp://ftp.ncbi.nlm.nih.gov/geo/series/GSE1nnn/GSE1000/matrix/", open = "", blocking = TRUE, encoding = getOption("encoding"))
t2
t2=t2[-2]
isOpen(t2)
t2= readLines(t2, n = 4200)
t2[4010]
summary(t2)

С помощью приведенного выше кода я могу получить FTP-файл, но я не могу дальше строить? Я могу видеть данные.

Но я не могу разместить его в таблице. Кто-нибудь может помочь

2 ответа

Код ниже будет читать данные без проблем:

dta <- read.csv("ftp://ftp.ncbi.nih.gov/genbank/genomes/Bacteria/Escherichia_coli_K_12_substr__MG1655_uid225/U00096.ptt", 
header = TRUE, skip = 2, sep = "\t")

Я предполагаю, что вы после фрейма данных:

> head(dta)
    Location Strand Length     PID Gene Synonym Code COG                                                Product
1   190..255      +     21 1786182 thrL   b0001    -   -                              thr operon leader peptide
2  337..2799      +    820 1786183 thrA   b0002    -   -  Bifunctional aspartokinase/homoserine dehydrogenase 1
3 2801..3733      +    310 1786184 thrB   b0003    -   -                                      homoserine kinase
4 3734..5020      +    428 1786185 thrC   b0004    -   -                                   L-threonine synthase
5 5234..5530      +     98 1786186 yaaX   b0005    -   -            DUF2502 family putative periplasmic protein
6 5683..6459      -    258 1786187 yaaA   b0006    -   - peroxide resistance protein, lowers intracellular iron

Чтобы упростить импорт, я пропустил первые две строки:

Escherichia coli str. K-12 substr. MG1655, complete genome. - 1..4641652
4140 proteins
Location    Strand  Length  PID Gene    Synonym Code    COG Product
190..255    +   21  1786182 thrL    b0001   -   -   thr operon leader peptide

Если вы хотите прочитать весь файл, я бы посоветовал вам посмотреть этот пост. Вы можете прочитать все целиком и получить доступ к первым двум строкам по отдельности, а затем импортировать остальное в кадр данных.

Тестирую мой комментарий:

read.delim( text=c("4350031..4351662\t-\t543\t1790567\tdcuS\tb4125\t-\t-\tsensory histidine kinase in two-component regulatory system with DcuR, regulator of anaerobic fumarate respiration"   ,                                                                                               
"4351843..4352073\t+\t76\t1790568\tyjdI\tb4126\t-\t-\tputative 4Fe-4S mono-cluster protein" ), header=FALSE)
#---------
                V1 V2  V3      V4   V5    V6 V7 V8
1 4350031..4351662  - 543 1790567 dcuS b4125  -  -
2 4351843..4352073  +  76 1790568 yjdI b4126  -  -
                                                                                                                  V9
1 sensory histidine kinase in two-component regulatory system with DcuR, regulator of anaerobic fumarate respiration
2                                                                               putative 4Fe-4S mono-cluster protein

Я подозреваю, что первая строка на самом деле является заголовком, так как это, кажется, шаблон в файлах README, которые я просматривал на этом FTP-сайте, так что вы, вероятно, удалили бы header=FALSE, Это только линии [3883- 3884].

Другие вопросы по тегам