Ошибка rentrez Ошибка HTTP: 400 при загрузке>1/3 записей
У меня странная ситуация. Я добываю данные PubMed с помощью rentrez
, Когда я бегу entrez_search()
а потом entrez_summary()
а потом entrez_fetch()
Я получаю сообщение об этой ошибке (полный код внизу поста):
Error: HTTP failure: 400
<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE eEfetchResult PUBLIC "-//NLM//DTD efetch 20131226//EN" "https://eutils.ncbi.nlm.nih.gov/eutils/dtd/20131226/efetch.dtd">
<eFetchResult>
<ERROR>Cannot retrieve history data. query_key: 1, WebEnv: NCID_1_51629226_130.14.18.34_9001_1531773486_1795859931_0MetA0_S_MegaStore, retstart: 0, retmax: 552</ERROR>
<ERROR>Can't fetch uids from history because of: NCBI C++ Exception:
Error: UNK_MODULE(CException::eInvalid) "UNK_FILE", line 18446744073709551615: UNK_FUNC ---
</ERROR>
</eFetchResult>
После поисков я подумал, что нашел решение в этом обсуждении размера запроса. Когда я уменьшился retmax_set
с 500 до 10 код работал. Я тогда итеративно определил максимум retmax_set
Значение, которое не выбросило бы ошибку, и обнаружило, как мне кажется, очень странное поведение.
Поиск term_set = "transcription AND enhancer AND promoter AND 2017:2018[PDAT]"
дает 552 записей. При запуске моего кода с разными значениями retmax
:
- установка
retmax_set
<= 183 работы - установка
retmax_set
>= 184 дает ошибку, описанную выше
Модифицированный поиск term_set = "transcription AND enhancer AND promoter AND 2018[PDAT]"
дает 186 записей. При запуске этого поиска с разными значениями retmax
:
- установка
retmax_set
<= 61 работ - установка
retmax_set
>= 62 дает ошибку, описанную выше
Поиск term_set = "transcription AND enhancer AND promoter AND 2017[PDAT]"
дает 395 записей (по какой-то причине PubMed помечает 29 записей как опубликованные в 2017 и 2018 годах). При запуске моего кода по этому поисковому запросу с разными значениями retmax
:
- установка
retmax_set
<= 131 работ - установка
retmax_set
>= 132 дает ошибку, описанную выше
Интересно, что все три поиска начинают терпеть неудачу, когда retmax
значение превышает одну треть от общего числа записей (552 / 3 = 184, 186 / 3 = 62, 395 / 3 = 131,67). Я собираюсь изменить свой код для расчета retmax_set
на основе количества результатов, возвращаемых entrez_search
но я понятия не имею почему rentrez
или NCBI делает это. Есть идеи?
> ## set search term
> term_set = "transcription AND enhancer AND promoter AND 2017:2018[PDAT]"
> ## load package
> library(rentrez)
> ## set maximum records batch
> retmax_set = 182
> ## search pubmed using web history
> search <- entrez_search(
+ db = "pubmed",
+ term = term_set,
+ use_history = T
+ )
> ## get summaries of search hits
> summary <- list(); for (seq_start in seq(0, search$count - 1, retmax_set)) {
+ summary1 <- entrez_summary(
+ db = "pubmed",
+ web_history = search$web_history,
+ retmax = retmax_set,
+ retstart = seq_start
+ )
+ summary <- c(summary, summary1)
+ }
> ## download full XML refs for hits
> XML_refs <- entrez_fetch(
+ db = "pubmed",
+ web_history = search$web_history,
+ rettype = "xml",
+ parsed = TRUE
+ )
>
>
> ## set search term
> term_set = "transcription AND enhancer AND promoter AND 2017:2018[PDAT]"
> ## load package
> library(rentrez)
> ## set maximum records batch
> retmax_set = 183
> ## search pubmed using web history
> search <- entrez_search(
+ db = "pubmed",
+ term = term_set,
+ use_history = T
+ )
> ## get summaries of search hits
> summary <- list(); for (seq_start in seq(0, search$count - 1, retmax_set)) {
+ summary1 <- entrez_summary(
+ db = "pubmed",
+ web_history = search$web_history,
+ retmax = retmax_set,
+ retstart = seq_start
+ )
+ summary <- c(summary, summary1)
+ }
> ## download full XML refs for hits
> XML_refs <- entrez_fetch(
+ db = "pubmed",
+ web_history = search$web_history,
+ rettype = "xml",
+ parsed = TRUE
+ )
>
>
> ## set search term
> term_set = "transcription AND enhancer AND promoter AND 2017:2018[PDAT]"
> ## load package
> library(rentrez)
> ## set maximum records batch
> retmax_set = 184
> ## search pubmed using web history
> search <- entrez_search(
+ db = "pubmed",
+ term = term_set,
+ use_history = T
+ )
> ## get summaries of search hits
> summary <- list(); for (seq_start in seq(0, search$count - 1, retmax_set)) {
+ summary1 <- entrez_summary(
+ db = "pubmed",
+ web_history = search$web_history,
+ retmax = retmax_set,
+ retstart = seq_start
+ )
+ summary <- c(summary, summary1)
+ }
> ## download full XML refs for hits
> XML_refs <- entrez_fetch(
+ db = "pubmed",
+ web_history = search$web_history,
+ rettype = "xml",
+ parsed = TRUE
+ )
Error: HTTP failure: 400
<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE eEfetchResult PUBLIC "-//NLM//DTD efetch 20131226//EN" "https://eutils.ncbi.nlm.nih.gov/eutils/dtd/20131226/efetch.dtd">
<eFetchResult>
<ERROR>Cannot retrieve history data. query_key: 1, WebEnv: NCID_1_51629226_130.14.18.34_9001_1531773486_1795859931_0MetA0_S_MegaStore, retstart: 0, retmax: 552</ERROR>
<ERROR>Can't fetch uids from history because of: NCBI C++ Exception:
Error: UNK_MODULE(CException::eInvalid) "UNK_FILE", line 18446744073709551615: UNK_FUNC ---
</ERROR>
</eFetchResult>
>
>
> ## set search term
> term_set = "transcription AND enhancer AND promoter AND 2017:2018[PDAT]"
> ## load package
> library(rentrez)
> ## set maximum records batch
> retmax_set = 185
> ## search pubmed using web history
> search <- entrez_search(
+ db = "pubmed",
+ term = term_set,
+ use_history = T
+ )
> ## get summaries of search hits
> summary <- list(); for (seq_start in seq(0, search$count - 1, retmax_set)) {
+ summary1 <- entrez_summary(
+ db = "pubmed",
+ web_history = search$web_history,
+ retmax = retmax_set,
+ retstart = seq_start
+ )
+ summary <- c(summary, summary1)
+ }
> ## download full XML refs for hits
> XML_refs <- entrez_fetch(
+ db = "pubmed",
+ web_history = search$web_history,
+ rettype = "xml",
+ parsed = TRUE
+ )
Error: HTTP failure: 400
<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE eEfetchResult PUBLIC "-//NLM//DTD efetch 20131226//EN" "https://eutils.ncbi.nlm.nih.gov/eutils/dtd/20131226/efetch.dtd">
<eFetchResult>
<ERROR>Cannot retrieve history data. query_key: 1, WebEnv: NCID_1_52654089_130.14.22.215_9001_1531773493_484860305_0MetA0_S_MegaStore, retstart: 0, retmax: 552</ERROR>
<ERROR>Can't fetch uids from history because of: NCBI C++ Exception:
Error: UNK_MODULE(CException::eInvalid) "UNK_FILE", line 18446744073709551615: UNK_FUNC ---
</ERROR>
</eFetchResult>
0 ответов
Оказывается, Rentrez использует 0-базовый счет. Таким образом, 552 записи соответствуют retstart
значения от 0 до 551. Так как мой код искал значения от 1 до 552, он пропустил первую запись (#0), а затем выдал ошибку, когда искал несуществующую запись #552.